「話せばわかる」音声対話の実現を目指して

「話せばわかる」音声対話の実現を目指して情報メディア学科教授鈴木基之

2014.03.31

言葉の裏にある気持ちの理解を目指して
気持ちの込もった合成音声の作成
歌声に関する研究もしています

人間と機械との音声による対話

人間は他人に何かを伝える時、音声を使って対話をします。もちろ
ん、メールを使ったり絵を書いたりと、いろいろな手段を使うこと
はできますが、その場に相手がいる時に一番手軽でよく使われる手
段は音声による対話でしょう。そのため、ロボットなどの機械に何
かを伝える時にも音声による対話を使うことができれば便利です。
それは、どのようにして実現できるのでしょうか。

人間が話した言葉を理解するためには、音声認識という技術を使っ
て音声を文字に変換することが必要になります。その後意味を理解
し、返答すべき内容を音声合成を使って声にします。こうした技術
は古くから研究され、現在では実用の段階にはいりつつあります。
スマートホン上で音声で問い合わせをすると答えてくれるアプリを
使用した人もいるでしょう。しかしこうした技術だけでは、より自
然な人間同士のような対話は実現できないのです。

音声による対話は思っているより難しい

例えば友達同士でどこに遊びにいくか相談している場面を想像して
みてください。ある友人が「ボーリングに行こうか？」と提案しま
した。それに対して別の友人が「ボーリングかぁ」と答えました。
さて、この友人はボーリングに行きたいのでしょうか、それとも行
きたくないのでしょうか。

同じ「ボーリングかぁ」という言葉であっても、それが楽しそうに
話されていれば「行きたい」、嫌そうに話されていれば「行きたく
ない」という意思表示になります。人間はこうした「言葉の裏にあ
る相手の気持ち」を感じながら対話をします。しかし、音声認識で
は「ボーリングかぁ」という文字だけしか見ませんので、その裏に
ある気持ちを理解することはできません。話されている言葉を完璧
に文字に変換できた（現実には、まだ完璧に変換することはできな
いのですが・・・）としても、それだけでは人間同士のような対話
は実現できないのです。

音声に含まれる気持ちの理解を目指して

私達の研究室では、こうした「言葉の裏にある気持ち」を理解する
ための研究を行っています。同じ言葉であってもどのような口調で
話されたのか、それはどのような気持ちを表しているのか。数多く
の音声データを分析し、それらを統計的なモデルで表現することで
「相手の気持ち」を発言内容だけではなく、口調といった情報もあ
わせて自動推定する方法を研究しています。

また、音声合成においても「ロボットの気持ち」を込めなければ自
然な対話は実現できません。どのような音声にしたらうまく気持ち
を込められるのか、そうした研究にも取り組んでいます。
ドラえもんは、2112年に製造されたとのことです。その頃までには、
ドラえもんのような人の気持ちを推察できるロボットが実現できて
いるといいですね。

インスタグラム アカウント

大阪工業大学

工学部

ロボティクス＆デザイン工学部

情報科学部

知的財産学部

教育・研究施設

情報メディア学科 教授 鈴木 基之

インスタグラムアカウント

情報メディア学科
教授鈴木基之