ZHUOWARE

ZHUOの生み出すアヤシイかれこれ=zhuowareをあなたに…

VocaListenerなのか…?>>ぼかりす

ほとんど眠れないまま朝になりましたです.

pitch bend イベント生成をやってみたいとはいったものの,
zhuoのこと,きっと時間がとれず何ヶ月もかかってしまうでしょう.

で,考えたことを全部書くので,腕力のある人,手をあげてください…
KTHのsnackやwavesurferに頼れば前処理部は割と早く実装できるでしょう.Tclバインディングを使えば.

そのまえにひとつ,もしこれがほんとうに産総研の研究だとすると,
きっと,特許がもうとられているはず.うっかり同じことをやって
しまうと,わるぎがなくても訴えられるかもしれません…
と思ったけれども,まあ,そんなすごいことはできるはずがないので
いいことにして(笑) --- だめだったら一言いっていただけたら消します
ので…

VocaListenerがやっていることの推測.
・後藤氏が昔downmixからメロを抜き出す研究をしたそうだから,それでメロを抜き出す.
・それをjuliusにかけてイベントと発音記号を作る.ただ,Juliusが,こんなmix下で正確な発音を拾うかは疑問.あらかじめ与えてあるのかもしれない.
・また,それから,ピッチベンドを作る.もっとも自然になるnoteを選んで,そこからピッチベンドで合わせるのだろう.細かいノイズ的なゆらぎは,スムージングみたいにしてならすのかもしれない.
・イベントが自動生成かはわからない.Julius出力から作るのか,ピッチの動きも加味するのかもしれない.
藤原氏という後藤氏と同じ産総研の人が,MIDIのメロディを,mixされた歌唱に合わせこむ手法を発表している.これを利用して,あらかじめ与えておいたベタうちをタイミング調整しているのかもしれない.


まあ,実験は,歌詞つきベタうちは与える,入力はmixじゃなくてソロの歌唱,ベタうちにあわせて歌う,としてみよう.

・パラメータ調整も見当がつかないが,
入力からVSQ生成->レンダリング->出音と入力を比較->より出音が近くなるであろうパラメータに補正->VSQ生成
というサイクルをまわして,だんだん近づけるのではないか.
きっと,ためしにこっちに振ったら出音が似なくなったから逆の方にいこうとか,そういう,誤差最小化みたいなことをするんじゃないか.

といってもパラメータが音に及ぼす影響はからまりあっているから,ひとつパラメータを合わせこむ-次のパラメータを->全部あわせおわったらまた最初のパラメータを合わせこみしなおす 的なサイクルかもしれない.
相関の少ないパラメータどうしはセットでも寄せられそうだけれど…

まあ,まったく手当たり次第じゃなく,
あらかじめ,VSQ自動生成により,典型的なパラメータのときの出音をすべて生成してその音の特徴(フォルマントなど)を分析しておいて,入力に近い特徴のものから出発する,とか,前回の結果とそう違わないと想定して,前回の結果から出発するとか,そういう工夫はしているに違いない.

あるいは,実は,vocaloidのパラメータの調整はしていなくて,波形に対して後処理の形で,フォルマントをつけているのかもしれない…

---
私は連休の3,4,5,6しか使えません.それまでに時間をたっぷり使えるガッツのある方,コメントにてご連絡ください.私が以前作りかけていた,波形をロードするだけのTclスクリプトなら差し上げられます.