えー、前回ダフトパンクっぽい声ネタを作る動画を紹介しました。
これです

それでVOCODEXやボコーダーについてちょっと勉強したので、
まとめておきたいと思います。

パイグチのVOCODEX不完全講座 その1 ボコーダーの基礎編

まず私が参考にしたのがこのページです。

floatgarden vocodexの使い方

このページにこのような記述があります。

『声のトラックのことを「モジュレーター」
 音色と音程のトラックのことを「キャリア」と呼びます。

 声のトラックには音程情報は必要ありません。あっても無視されます。
 適当に喋ったり歌ったりした録音を用意してください』

シンプルですね。二つの音声を合成する。
(ロボットボイスを作る場合)声はモジュレーター、音色(シンセ音)と音程はキャリア、
音程はキャリアなので、モジュレーターの音程情報は必要なしと、

しかしこれだけでは浅すぎる
次にこのページに行きつきました

松前公高のシンセサイザー・セミナー ボコーダー編


ここで注目したいのは

『モジュレーター側に入力された信号(声など)は
 いくつかのバンド・パス・フィルター(MS-2000では16個)に入力され、
 周波数帯域別に分けられま す。
 またこれらの音量の変化をエンベロープ・フォロワーというものによって、
 音量の時間変化の情報に変換します。
 これら16個の周波数別の音量変化を、
 キャリアの音に反映させる事によって、
 まるでそのキャリア側の音がしゃべっているかの様なサウンドになるのです。』

ここにまずバンドパスフィルター、16個と書かれてますね。
これが大事ですね。

16個のバンドパスフィルターで、周波数別に16分割された波形は
エンベロープフォロワーに行くと、、、
エンベロープフォロワーってなんじゃい。

偏ったDTM用語辞典 エンベロープフォロワー

波形の音量の変化をエンベロープ曲線として取り出す
このエンベロープ曲線をキャリアの音に反映する。

じゃあキャリア側はどういう風に音を受け取ってるのか

ウィキペディアのヴォコーダー

そこの原理の項目に
「キャリアもまた、モジュレーター同様のバンドパスフィルターで分割され、
モジュレーターで得られた帯域毎の量に整えられる。」

つまりキャリア側もモジュレーターと同じようにバンドパスフィルターで分割され、
キャリア側の帯域別の音量が
無理やりモジュレーターの帯域別の音量に同期させられる。
するとモジュレーターの音の特徴(帯域別の音量)が反映された、
キャリアの音ができあがるというわけ。

ということは最初に見たfloatgardenのページの記述
「モジュレーターの音程情報は必要ない」というのは間違ってるというか、
出来上がる音はモジュレーターの音程によって変わります。

図にまとめてみました(バンドパスフィルターの数は暫定的に16個にしてあります)
vocoder



































おわり