57　ビジネスで音声感情解析システムはどのように使われるのか（連載５）《Alexaでの音声感情解析》

2023.08.28

お知らせテクノロジーマーケット

テーマ：

57　ビジネスで音声感情解析システムはどのように使われるのか（連載５）《Alexaでの音声感情解析》

アマゾン社のAlexaには、話者の感情の特徴を音声から判断する技術、すなわち音声感情解析技術が使われています。アマゾン社の米国特許にその記述がありますので、紹介したいと思います。

アマゾン社のAlexaは、「音楽やラジオ、動画の再生」、「本(kindle)の読み上げ」、「天気のチェック」、「家電製品の操作」などを人間の声を使ってやらせる方法です。これはアップル社のSiriとともに、コンピューターデバイスと人間のやりとりに声を使う世界を切り開いたサービスとして評価すべきでしょう。但し莫大な開発費がかかりビジネス的には必ずしも順調というわけではありません。日本のLINE社も同様なサービスClovaを開発していましたが、最近はほぼ撤退しています。しかし、アマゾン社はごく最近｢最も野心的な｣CEO直属の大規模言語モデル開発チームを新設したと社内に発表しており、このテクノロジーを開発中止するつもりは毛頭無いようです。

ここで、このテクノロジーには、音声の意味を理解する技術が用いられてるのは当たり前ですが、実はそれだけでは無く、話者の感情の特徴を音声から判断する技術が使われています。Alexa関連の特許を調べてみましたら、何と、特許の題名が「ユーザーの身体的及び感情的特徴の音声からの判断」(Voice-based Determination of Physical and Emotional Characteristics of users)で、確かに音声からの感情解析技術が使われていることがわかりました。本ブログではAlexaでの音声感情解析の使われ方を解説したいと思います。

図１はアマゾン社の米国特許US10,096,319B1 Voice-based Determination of Physical and Emotional Characteristics of users（ユーザーの身体的及び感情的特徴を音声から判断すること）です。３０ページにもわたる特許で、特許請求範囲は19項にわたります。

特許は通常Abstractと言う特許の概要を記述するところがあり、図１の右下に記載されています。ここには、「話者の最初の音声から話者の身体的及び感情的な特徴を読み取り、それからユーザーの状態を示すデータタグを生成し、そのタグを参照して、適切なメッセージをスピーカーに出力するシステム、方法、可読媒体を開示する」と記載されています。

この特許は音声から話者の感情状態を検出する技術的な詳細は述べられていません。具体的な音声感情検出テクノロジーとして何を使っているかは記述がありません。当社が提携しているネメシスコ社のLVAテクノロジーでも良いですし、他社のテクノロジーでも構いません。この特許で述べられているのは、リアルタイムに話者の身体的状態（風邪を引いていて鼻声だとか、喉痛でしわがれ声だとか）と、感情的状態（高ストレス下だとか、悲嘆に暮れているとか）を何らかの方法で検出して、その話者状態に基づいて、発声デバイス（スピーカーやテレビなど）から適切な内容のメッセージを出力すると言う方式そのものです。

下図はALEXAの特許に示されている説明図です。

図の女性が ALEXAデバイス（左下の110番）に

　　- アレクサ　（咳をする）、私はお腹がすいているの　（鼻をすする）
と話しかけるとアレクサは
　　- チキンスープのレシピが欲しい？
と聞きます。
　　- いらない
と答えるとアレクサは
　　- オーケー、じゃあ何か別のものを探します。ところで、1時間以内に届くのど飴を注文したくない？
と聞いてきます。すると女性は
　　- それはすばらしい。よく聞いてくれてありがとう。
と返事をします。するとALEXAは
　　- 問題ありません。注文方法をeメールしますね。良くなってね。
と答えて、のど飴の注文を取りました。

この女性はのど飴が欲しいとは言っていないにもかかわらず、ALEXAは女性が咳をしたり鼻水をすすったりすることを検知して、この女性の身体状態が風邪の引き始めと判断し、のど飴を提案したわけです。

ALEXAは単に話者が発言した意味についてのみに反応したわけではなくて、発言者の声から様々な付帯状態を読み取っています。この特許では、その状態とは、話者のリアルタイムな、健康状態、感情、背景環境情報、言語アクセント、性別・年代、等で、これらを検出し、数値化し、その数値をもとに最適な返事を膨大なデータベースから探して出力すると記載されています。

この特許では、詳細で具体的な感情検出の方法は記載されていません。次の事項が例示的に記載されているのみです。

　検出できる感情　
　　　幸福、喜び、怒り、悲しみ、恐れ、嫌悪感、退屈、ストレス、など
　声から感情を検出する分析方法
　　　音の高さ、周期、有音と無音の割合、しわがれ声の程度、ハーモニー、など
　音声感情検出で用いられるアルゴリズムの例
　　　MFCCsアルゴリズム、SVMs、K-最近接法、など

弊社が音声感情解析で用いているイスラエルのネメシスコ社開発のアルゴリズムLVA法はこの特許では記載されていません。この特許の肝は音声感情解析のアルゴリズムでは無く、音声から感情を何らかの方法で検出して、その情報を用いてALEXAの応答（返事）を選ぶということです。

ALEXAのような最新のデバイスに音声感情解析が使われていることがこの特許により明らかになりました。今後、音声感情解析技術は人間と人口知能（AI）のコミュニケーション接点としてますます広範囲に使われるようになると確信しました。
以上