BLOG
音声活用ブログ
このブログではソフトウエアでどのように情報処理すると感情に関する情報が取り出せるのかを解説します。
2023.03.23
Nemesysco社テクノロジー
テーマ:
49 なぜ音声から感情がわかるのか(2)
前回のブログ(ブログ48)では音声はどのような情報を伝えているのか、そして音声感情解析ソフトウエアは何をするものなのかを解説しました。このブログではソフトウエアでどのように情報処理すると感情に関する情報が取り出せるのかを解説します。
1. 音声に含まれている情報
前回のブログ48で、音声には次の3つの情報が含まれている事を述べました。
① 言語的情報
② 文字では表現できない、怒り、喜び、いらいらなどの話し手の意図的な感情を伝える情報(意図的感情)
③ 自分の意志では意図的に制御できない、こみ上げてくる怒りやこらえられない笑いなどの感情を伝える情報(不随意感情)
音声信号を人力としてソフトウエアにより適切に処理すると、上記①、②及び③を取り出すことができます。
2.感情情報の取り出し方法
感情情報の取り出し方には、大きく分けて2つの方法があります。(図1を参照して下さい。)1つは言語情報を分析して感情を推定する方法で、IBM社のWatson Tone Analyzerサービスはこれに該当します。もう一つは言語情報を用いず話者の声から音の3要素である、高さ、大きさ、音色を詳細に分析して感情を推定する方法で当社が採用しているイスラエルのNemesysco社のソフトはこの方法です。日本で開発されている他社の方式もほとんどがこの方法に属します。
1)言語情報分析型
この方式では、音声を言語情報(テキスト)に変換する音声認識技術を使用して話し言葉をテキスト化し、次に自然言語処理技術を適用してテキストの言語を分析します。次に、機械学習アルゴリズムを使用して、使用された言語と声の感情的なトーンとの間のパターンや関係を特定し、話者の声のトーンを分析して、怒っている、悲しんでいる、幸せである、不安であるなどの感情を判断します。
2)音響的特徴分析型
この方式では、話者の声から音響的特徴(音声の周波数、声量、声質、発話速度、など、に関する特徴量)を抽出し、これを各社独自のさまざまな分析アルゴリズム(計算手順のこと)により感情や思考の強度を数値で出力する方法です。この分析アルゴリズムは音声感情分析ソフトウエアを提供するベンダー毎に異なります。AI(Artificial Intelligence人工知能)とML (Machin Language機械学習) を用いたアルゴリズム、独自のアルゴリズムなどさまざまです。これらのアルゴリズムの詳細は各社とも企業秘密として公開していません。
言語情報分析型と、音響的特徴分析型のいずれが良く感情情報をとりだせるのかについては何とも言えません。感情は言語と密接に結びついているので例えば、怒りの感情は怒りの言葉とともに発せられる確率が高いということを重視する立場と、言語では感謝を述べながら心の中では怒り心頭という心理状態を重視する立場では感情と言語の関係性についての見解が異なります。当社の方式は後者の立場に近く、音響的特徴のみで感情情報を取り出せるとする立場を貫いています。
3.AIと機械学習の原理
言語情報分析型と音響的特徴分析型のいずれも、多くの開発ベンダーの解説では、感情情報の取り出しにはAIとMLを用いていると記述されているのですが、それ以上の記述はほとんどありません。AIとMLは何となくありがたいお経のような言葉で、これを聞くと何となく高級なテクノロジーを使っているんだなと思ってしまいがちです。そこで、AIとMLとはどのようなものかを簡単に解説し、感情情報の取り出しに関する課題を以下に述べたいと思います。
人口知能(AI)はコンピューターで人間の知能と同じような機能を実現させる試みのことを言います、AIの中の一つの要素として機械学習(ML)があります。機械学習とは、コンピューターに多くのデータを読み込ませ、そのデータに潜んでいるパターンや特性を覚えさせておき(学習と言います)、新しい入力データに対してその予測や分類を行うものです。
例えば、図2に示すように、たくさんの猫の写真を「これは猫」と言う情報が付いたデータ(教師データ言います)とともにコンピューターに入力します。コンピューターの中の機械学習プログラムは、たくさんの写真を統計的に処理して、目、鼻、口、顔の輪郭、など、猫というものの特徴を学習します。これを特徴量の抽出と言います。次に機械学習プログラムは猫とそれ以外の写真を区別するための分類方法のアルゴリズム(分類モデルと言います)をいくつか仮定してみて、その中から一番精度よく猫と認識できる方法を探します。これをモデルトレーニングと言います。分類モデルが完成したら、新しい写真をコンピューターに入力し、モデルのアルゴリズムを使って猫の写真かそうでないかを判定し、その答えを出力します。
AI・MLを用いて声から感情情報を取り出す方法も上記と同様な手法を用います。すなわち図3に示すように「この声は悲しみを含んでいる」、あるいは「喜びを含んでいる」という情報とともにコンピューターに音声波形を読み込ませます。これらの参考となる音声波形データをできるだけ多く収集してコンピューターに読み込ませる必要があります。多くの場合、俳優や声優に悲しみ、喜び、怒りなどの感情を込めてセリフを語ってもらいこれを教師データとして入力します。これらの音声波形の音響的特徴を感情毎に分類して、悲しみ、喜び、怒りなどの感情の特徴から分類モデルを作ります。モデルが完成したら新しい音声をコンピューターに入力しこの分類モデルのアルゴリズムを使って発声者の声の中に含まれる感情情報を取り出します。これがAI・MLで音声から感情情報を取り出す原理です。
この方式の課題
この方式の課題は教師データの収集にあります。猫の写真の場合には誰が見ても猫の写真かどうかに見解の相違はまずありませんが、俳優の声に感情が込められているかどうかは聞く人により見解が相違することはよくある事です。また、感情には意識的感情と不随意感情がありますが、俳優の感情は意識的感情のみで不随意感情は入っていません。したがって教師データとして俳優・声優のセリフだけを使っているかぎり不随意感情の取り出しは出来ないことになります。
そこで、不随意感情を取り出す為にベンダー各社は独自の手法を使っていますが、その詳細は公表されていません。初歩的な音声感情分析ソフトではそもそも不随意感情を検出できないものもあるようです。
当社が採用している感情解析ソフトの基本部はイスラエルのネメシスコ社が開発したLVAという技術を用いているのですが、これは核となるソフトウエア部分はAI・MLを採用せず独自アルゴリズムを用いています。これは不随意感情と意識的感情を検出することができます。但し、核となる部分以外ではAI・MLをむしろ積極的に採用しており、非AIの手法とAIの手法を適切に組み合わせて最適な感情分析アルゴリズムを提供しています。
このLVAのアルゴリズムの詳細は次回のブログで解説します。
以上
関連記事
ピックアップ
- CATEGORY
- Nemesysco社
- コールセンター
- 感情解析ラボ(活用事例)
- 不正防止
- 金融機関
- 保険金詐欺
- ストレス
- お知らせ
- テクノロジー
- マーケット
- 人気記事
- 21 音声による感情分析(解析)の発端
- 52 ビジネスで音声感情解析システムはどのように使われるのか(連載1) 《感情を可視化することのビジネス上のメリット》
- 3 感情解析ビジネスの市場規模
- 32 SMBC日興証券の記者会見を音声から読む
- 63 ストレスと音声感情解析
テーマ
- 感情
- パスカル
- 等ラウドネス曲線
- 音の性質
- デシベル
- 音速
- 周波数
- LVA
- フォーマント
- 解析
- コールセンター
- 運営効率
- パーソナリティー
- 性格診断
- オペレーター感情
- モチベーション
- コールセンター運営
- サイエンスラボ
- 音声解析研究
- 応対品質
- 基盤技術
- ビジネス予測
- 感情解析ビジネス
- 米国心理学会
- 発声機構
- 聴覚機構
- 米国特許
- 学術論文
- 周波数分析
- Nemesysco
- ネメシスコ
- 人事面接
- 聞き手。理解度、音声感情解析
- 聞き手
- 理解度
- パーソナルキャラクター
- ソーシャルスタイル
- DISC理論
- メタバース
- 音声感情
- AI
- コールセンター、品質管理
- 音声感情解析
- 期待効用理論、効用関数
- ベルヌーイ
- ESAS
- 感情解析ラボ
- プロスペクト理論
- 価値関数
- 言語
- 不随意感情情報
- 意図的感情情報
- 音声感情解析、AI、機械学習
- 音の波形
- フーリエ変換
- Chat-GPT、AI、感情、音声
- 警察
- 情報機関
- 人事部門
- 面接
- 採用
- ストレスチェック
- リモートミーティング
- ロボット
- エンタメ
- カラオケ採点
- 学習理解度把握
- 愛情チェック
- 役割
- 機能
- 教育、中国、学習量、学習効率
- 保険請求
- 不正申告
- 保険
- 詐欺
- アレクサ
- Alexa
- amazon
- アマゾン
- 住民感情、コロナ、自治体
- エモーションロジック
- 不正請求
- 保険金詐欺
- Insurance Fraud
- 保険金
- Voice Screen
- ストレス