2014年4月20日日曜日

コンピュータに音読させるには

文字を音声に変える機能(ナレーション)は多くの人が望んでいる。
しかし、平板な音声は聞き取りにくく、決して十分とはいえない。
文字を音声に変えるには、文字列を形態素解析(簡単にいえば単語に分けること)し、音素に変換し、連結して再生する。この結果、いかにもロボット的な音声が再生される。
人間とロボットの違いは、感情表現の豊かさにある。
単に音素を求めただけでは感情要素が足りない。
具体的には、速さ、大きさ、高さであるが、同じ文を読み上げても心の動きで変わってくる。
この現状を改善するには、まず速さ、大きさ、高さ等をユーザが設定できる音声エディタが必要になる。機械的な音読データを人間が編集し聴きやすくする。
このままでは人手による解であり、決して十分とはいえない。
次に、作成した感情付き音声データを、単なる音声データだけでなく、その感情情報を含めて流通させる必要がある。
それらの感情データを多数集積して、文脈を機械学習させると、ある程度文脈に応じて感情移入した音声を再生できるようになるだろう。
これはビッグデータによる解決法だ。
感情付き音声編集ソフトとその再生ソフトをクラウドで提供すれば、感情データを収集することができる。利用者と提供者の利害が一致し、両者に有益なビジネスモデルとなる。
方法論的によくある誤りは、データを収集する前に、感情を付加するアルゴリズムを作成しようとする(できると思う)ことだ。それは典型的な根拠なき主張である。

0 件のコメント: