ZHUOWARE

ZHUOの生み出すアヤシイかれこれ=zhuowareをあなたに…

歌声合成をめぐって

珍しく雑考なぞw

その1. ピアノでスピーチを表現.
ピアノの音だけなのに本当に人が話しているように聞こえる、驚異的なしゃべるピアノのムービー (Gigazine, 2009年10月10日)
少年のスピーチを分析して,アコースティックピアノ用のシーケンスをつくり,自動演奏で音にしています.ピアノ音だけですから制御の幅は狭いですが,テキストをみると,なんとなくそんなふうに聴こえてきます. 人間の音声認識の能力はすごいものですね.

その2. MIDIシーケンスで歌声を表現.
midiで音声を再現(ry - その3 スフィア「Future Stream」(ニコニコ動画)
こちらはMIDIシーケンスでMIDI音源をドライブしています.MIDIシーケンスの生成は,伴奏は耳コピ.ボーカルは,おそらく何らかのツールを用いていると思われます.できばえがすばらしいです.4人の声質の違いまでも表現されており,発音も,MIDI音源の音を重ね合わせた結果とは思えない明瞭さです.
ボーカルの分離は,カラオケトラックがあればツールで行なえますし,そこからピッチ・音量・音色の解析も可能ですが,音素の決定は手動か自動か,また,MIDI音源のどの音色をどの音高・音量で鳴らすかをいかに決定しているか,といったところが興味深いです.数理的なアルゴリズムの設計はかなり難しいと思いますが,どのようにヒューリスティックスを用いてうまくまとめたのでしょうか.その意味では,(コメントにあるように)ボカロよりはむしろ,VocaListener を脅かすデモといえるかもしれません.


その3. MIDI符号化ツール「オート符」を用いた音素 MIDIコードの設計と楽器音による音声合成機能の実現(情報処理学会研究報告 MUS82-8)
googleで探しているうちに,音楽情報科学研究会でこんな発表があったのをみつけました.内容はよくわかりませんが,これもどうも,MIDIシーケンスで音声合成を試みているようです.どんな音がするのでしょうか.

芸術と技術と科学と.このスリリングな世界,時代にいあわせていること,幸せだと思います.