2014年4月20日日曜日

人工知能のブレークスルー

ここ数年、人工知能関係のトピックが多く話題になった。
チェスの名人に勝ったり、クイズを解いたり、将棋も強くなった。
モンテカルロ法の登場とそれを実現するシステム技術のおかげだ。
モンテカルロ法は経験的に決め打ちされていた評価関数を動的に最適化した。
しかし、モンテカルロ法を実現するには多くの資源を必要とした。
それが解決できたために急速に賢くなった。
計算資源はプロセッサとメモリに大別できる。
プロセッサの能力は確かに高くなったが、それ以上にメモリ(特にストレージ)が大きくなった。
後者の発達によって計算結果を保持することが可能となり、乱暴な全解探索も現実味を帯びてきた。
プロセッサやメモリなどの製造技術は人工知能研究者の都合で変わるものではない。
適切な時代でなければ実現しないアイデアがある。時代によってアイデアの価値が変わることがある。

コンピュータに音読させるには

文字を音声に変える機能(ナレーション)は多くの人が望んでいる。
しかし、平板な音声は聞き取りにくく、決して十分とはいえない。
文字を音声に変えるには、文字列を形態素解析(簡単にいえば単語に分けること)し、音素に変換し、連結して再生する。この結果、いかにもロボット的な音声が再生される。
人間とロボットの違いは、感情表現の豊かさにある。
単に音素を求めただけでは感情要素が足りない。
具体的には、速さ、大きさ、高さであるが、同じ文を読み上げても心の動きで変わってくる。
この現状を改善するには、まず速さ、大きさ、高さ等をユーザが設定できる音声エディタが必要になる。機械的な音読データを人間が編集し聴きやすくする。
このままでは人手による解であり、決して十分とはいえない。
次に、作成した感情付き音声データを、単なる音声データだけでなく、その感情情報を含めて流通させる必要がある。
それらの感情データを多数集積して、文脈を機械学習させると、ある程度文脈に応じて感情移入した音声を再生できるようになるだろう。
これはビッグデータによる解決法だ。
感情付き音声編集ソフトとその再生ソフトをクラウドで提供すれば、感情データを収集することができる。利用者と提供者の利害が一致し、両者に有益なビジネスモデルとなる。
方法論的によくある誤りは、データを収集する前に、感情を付加するアルゴリズムを作成しようとする(できると思う)ことだ。それは典型的な根拠なき主張である。