BLOG

音声活用ブログ

なぜ音声からから感情がわかるのかについて数回に分けて説明します。

2023.03.17

Nemesysco社テクノロジー

48 なぜ音声から感情がわかるのか(1)

当社は音声から話者の感情を数値化して可視化するソフトESASとそれを用いた各種のソリューションの販売を事業にしています。お客様に当社の製品を説明させていただくと、しばしば「なぜ音声から感情がわかるのか?」というご質問を頂きます。いままで書いたブログでこれに対する回答を説明していたつもりなのですが、断片的でわかりにくいとのご指摘を受けました。そこで、「なぜ音声からから感情がわかるのか」について数回に分けて、なるべくわかりやすくご説明します。

1. 音声は何を伝えているか?

当社のブログ11では「音声は何を伝えているか?」というテーマで解説しました。要約すると音声は次の3つの情報を伝えていると言われています。(図1を参照して下さい。)

 ① 言語的情報
 ② 文字では表現できない、怒り、喜び、いらいらなどの話し手の意図的な感情を伝える情報(意図的感情)
 ③ 自分の意志では意図的に制御できない、こみ上げてくる怒りやこらえられない笑いなどの感情を伝える情報(不随意感情)


上記①は言語として記述可能なメールや手紙と同じでメッセージを伝えるものです。声から議事録を作成するソフトなどの音声認識アプリは人間の声からこの情報を抽出して文字や文章に変換するものです。

 

上記②は、俳優や女優が感情を込めてセリフを言う時や、ホテルや旅館などでお客様が従業員の対応に不満を持つときに、意図時に怒りや悲しみの気持を声に込めて発声する時の情報です。議事録ソフトで「ありがとう」という言葉一つで表現されていても、実際には図2に示すような感情を込めて「ありがとう」と言うことが多いと思います。人間の声にはこの意図的な感情情報が含まれていて、耳から入った音声は脳により情報処理されて、どのような感情が含まれているかを判断しています。

図2 ありがとうにはいろいろな感情がふくまれている。

 

上記③ですが、人間の声の中には不随意感情の情報が含まれています。筆者は何年か前に、近所で一人暮らしをしていた母の家を訪ねたら、母が倒れており、びっくりして119番に電話をしたことがあるのですが、声が上ずってしまって母の家の住所や状況を正確に言うことができず、119番オペレータの人に何度も「落ち着いて下さい。今すぐ行きますから。」と言われたことがありました。この時のことを思い出してみると、自分の意志とは無関係に声が上ずって甲高い声でどもりながら発声していたように思います。聞き手の方は筆者が相当なストレス状態に置かれていることを声の調子から感じ取ったに違いありません。意図的に感情を演じている②の場合とは明らかに異なる声の調子で、聞き手はこの声を聞いて脳内で情報処理し、筆者の声は③の場合で本当に緊急事態が発生していると判断したのです。

 

2. 感情解析ソフトウエアは何をするものなのか?
さて、人間の声にはどのような情報が含まれているかについてはご理解いただけたと思います。では、声は音です。中学校の理科の時間に学習したと思いますが音は空気の振動です。振動には3つの要素があります。これを音の三要素と言います。高さ、大きさ、音色です。図3に示すように耳に入った空気の振動は耳の奥で電気振動に変換され、神経を通って脳に伝達されます。脳ではその信号を情報処理して、声かそれ以外の音かを判断し、声ならば言語情報、意図的感情情報、不随意感情情報を認識します。

 


当社の販売するソフトウエアESASは、図4に示すように、人間の耳と脳の代わりにコンピュータで情報処理を行い感情に関する情報を細かく取り出すものです。

 

 

では、ソフトウエアでどのように情報処理すると感情に関する情報が取り出せるのでしょうか?これを説明する為には音そのものと声に関する性質をもう少し詳しく理解する必要があります。次回のブログではこれを詳しく説明します。

 


テーマ