このブログではソフトウエアでどのように情報処理すると感情に関する情報が取り出せるのかを解説します。

2023.03.23

Nemesysco社テクノロジー

テーマ：

音声感情解析、AI、機械学習

49 なぜ音声から感情がわかるのか（2）

前回のブログ（ブログ４８）では音声はどのような情報を伝えているのか、そして音声感情解析ソフトウエアは何をするものなのかを解説しました。このブログではソフトウエアでどのように情報処理すると感情に関する情報が取り出せるのかを解説します。

１.　音声に含まれている情報

前回のブログ４８で、音声には次の３つの情報が含まれている事を述べました。

　　①　言語的情報

　　②　文字では表現できない、怒り、喜び、いらいらなどの話し手の意図的な感情を伝える情報（意図的感情）

　　③　自分の意志では意図的に制御できない、こみ上げてくる怒りやこらえられない笑いなどの感情を伝える情報（不随意感情）

音声信号を人力としてソフトウエアにより適切に処理すると、上記①、②及び③を取り出すことができます。

２．感情情報の取り出し方法

感情情報の取り出し方には、大きく分けて２つの方法があります。（図１を参照して下さい。）1つは言語情報を分析して感情を推定する方法で、IBM社のWatson Tone Analyzerサービスはこれに該当します。もう一つは言語情報を用いず話者の声から音の3要素である、高さ、大きさ、音色を詳細に分析して感情を推定する方法で当社が採用しているイスラエルのNemesysco社のソフトはこの方法です。日本で開発されている他社の方式もほとんどがこの方法に属します。

　　１）言語情報分析型

この方式では、音声を言語情報（テキスト）に変換する音声認識技術を使用して話し言葉をテキスト化し、次に自然言語処理技術を適用してテキストの言語を分析します。次に、機械学習アルゴリズムを使用して、使用された言語と声の感情的なトーンとの間のパターンや関係を特定し、話者の声のトーンを分析して、怒っている、悲しんでいる、幸せである、不安であるなどの感情を判断します。

　　２）音響的特徴分析型

この方式では、話者の声から音響的特徴（音声の周波数、声量、声質、発話速度、など、に関する特徴量）を抽出し、これを各社独自のさまざまな分析アルゴリズム（計算手順のこと）により感情や思考の強度を数値で出力する方法です。この分析アルゴリズムは音声感情分析ソフトウエアを提供するベンダー毎に異なります。AI（Artificial Intelligence人工知能）とＭＬ (Machin Language機械学習) を用いたアルゴリズム、独自のアルゴリズムなどさまざまです。これらのアルゴリズムの詳細は各社とも企業秘密として公開していません。

言語情報分析型と、音響的特徴分析型のいずれが良く感情情報をとりだせるのかについては何とも言えません。感情は言語と密接に結びついているので例えば、怒りの感情は怒りの言葉とともに発せられる確率が高いということを重視する立場と、言語では感謝を述べながら心の中では怒り心頭という心理状態を重視する立場では感情と言語の関係性についての見解が異なります。当社の方式は後者の立場に近く、音響的特徴のみで感情情報を取り出せるとする立場を貫いています。

３．AIと機械学習の原理

言語情報分析型と音響的特徴分析型のいずれも、多くの開発ベンダーの解説では、感情情報の取り出しにはＡＩとＭＬを用いていると記述されているのですが、それ以上の記述はほとんどありません。AIとMLは何となくありがたいお経のような言葉で、これを聞くと何となく高級なテクノロジーを使っているんだなと思ってしまいがちです。そこで、AIとMLとはどのようなものかを簡単に解説し、感情情報の取り出しに関する課題を以下に述べたいと思います。

人口知能（AI）はコンピューターで人間の知能と同じような機能を実現させる試みのことを言います、AIの中の一つの要素として機械学習（ML）があります。機械学習とは、コンピューターに多くのデータを読み込ませ、そのデータに潜んでいるパターンや特性を覚えさせておき（学習と言います）、新しい入力データに対してその予測や分類を行うものです。

例えば、図２に示すように、たくさんの猫の写真を「これは猫」と言う情報が付いたデータ（教師データ言います）とともにコンピューターに入力します。コンピューターの中の機械学習プログラムは、たくさんの写真を統計的に処理して、目、鼻、口、顔の輪郭、など、猫というものの特徴を学習します。これを特徴量の抽出と言います。次に機械学習プログラムは猫とそれ以外の写真を区別するための分類方法のアルゴリズム（分類モデルと言います）をいくつか仮定してみて、その中から一番精度よく猫と認識できる方法を探します。これをモデルトレーニングと言います。分類モデルが完成したら、新しい写真をコンピューターに入力し、モデルのアルゴリズムを使って猫の写真かそうでないかを判定し、その答えを出力します。

AI・MLを用いて声から感情情報を取り出す方法も上記と同様な手法を用います。すなわち図３に示すように「この声は悲しみを含んでいる」、あるいは「喜びを含んでいる」という情報とともにコンピューターに音声波形を読み込ませます。これらの参考となる音声波形データをできるだけ多く収集してコンピューターに読み込ませる必要があります。多くの場合、俳優や声優に悲しみ、喜び、怒りなどの感情を込めてセリフを語ってもらいこれを教師データとして入力します。これらの音声波形の音響的特徴を感情毎に分類して、悲しみ、喜び、怒りなどの感情の特徴から分類モデルを作ります。モデルが完成したら新しい音声をコンピューターに入力しこの分類モデルのアルゴリズムを使って発声者の声の中に含まれる感情情報を取り出します。これがAI・MLで音声から感情情報を取り出す原理です。

この方式の課題

この方式の課題は教師データの収集にあります。猫の写真の場合には誰が見ても猫の写真かどうかに見解の相違はまずありませんが、俳優の声に感情が込められているかどうかは聞く人により見解が相違することはよくある事です。また、感情には意識的感情と不随意感情がありますが、俳優の感情は意識的感情のみで不随意感情は入っていません。したがって教師データとして俳優・声優のセリフだけを使っているかぎり不随意感情の取り出しは出来ないことになります。

そこで、不随意感情を取り出す為にベンダー各社は独自の手法を使っていますが、その詳細は公表されていません。初歩的な音声感情分析ソフトではそもそも不随意感情を検出できないものもあるようです。

当社が採用している感情解析ソフトの基本部はイスラエルのネメシスコ社が開発したLVAという技術を用いているのですが、これは核となるソフトウエア部分はAI・MLを採用せず独自アルゴリズムを用いています。これは不随意感情と意識的感情を検出することができます。但し、核となる部分以外ではAI・MLをむしろ積極的に採用しており、非AIの手法とAIの手法を適切に組み合わせて最適な感情分析アルゴリズムを提供しています。

このLVAのアルゴリズムの詳細は次回のブログで解説します。

以上