人工知能が人間のハンディキャップをサポートする。Googleが挑戦するAIによる読唇術 | SiTest (サイテスト) ブログ

メニューボタン閉じるボタン

人工知能が人間のハンディキャップをサポートする。Googleが挑戦するAIによる読唇術

以前のエントリ、個人の特定も簡単?顔認証の技術と問題点についてでは、現在の顔認証技術が人工知能の活用で更に精度が高まっていること、またその技術の進歩が社会問題の解決の糸口になる可能性とともに個人のプライバシーを脅かすかもしれない危険性について述べました。

今回のエントリはさらに限定された顔の一部、口唇の動きを用いたインターフェイスで人工知能が活用されている事例を紹介します。

はじめに

現在、音声認識を使ったソフトやハードは既に多数存在します。
代表的なものではiPhoneに搭載されているsiri、Googleの音声検索技術、MicrosoftのKinectやAmazonの音声アシスタント端末Amazon Echoなどがありますが、雑音の多い場所や電気機器のノイズの影響が出る場所では認識率は当然下がります。
また外出先などでは、自分がデバイスに出した指示内容を他人に聞かれてしまうことに抵抗がある人もいるかも知れません。
実際「うまく聞き取れませんでした」と返答されて何度も言い方を改める姿を想像するとちょっと情けない印象を持ってしまいます。

今回Googleが成果発表した技術は大きな声で発声をせずとも口唇の動きを認識してその内容を読みとることができる可能性があり、先に述べた課題を解決するものになるのかも知れません。

人工知能が読唇術の専門家に勝利

オックスフォード大学とGoogle DeepMindが行った発表は人工知能を用いたソフトウェアに人間の唇の動きを読み取らせその文章を書き起こしをさせるもので、
読唇術ソフトウェアは「Watch, Listen, Attend, and Spell」(見て聴いて接して記述する)といい、その人工知能の学習にはBBC(英国放送協会)が放送したコンテンツをサンプルとして用いられました。

「Watch, Listen, Attend, and Spell」は2010年から2015年にかけて放送された6番組の動画を5000時間分学習し、その文章量は11万8千センテンス、個別の語句では1万7500個という膨大なものです。

その結果、ランダムに選定された200のテスト動画では、発言内容の46.8%を正確に読み取り記述することができたと発表しています。

DeepMind AI Now Better Than Humans at Lip Reading
およそ発言の半分程度は正しく認識することが出来ているということですが、同じ映像でプロの読唇術者をテストしたところ正しく認識できたのはわずか12.4%で、実に3倍以上のパフォーマンスを実現したことになります。

Google以外でも研究は進んでいる

すでに2009年には既にコンピューターによる読唇システムは開発されており、人間にくらべて高い認識率が得られることはわかっていました。
Findings Could Lead To Improved Lip-reading Training For The Deaf And Hard-of-hearing(Science Diary)
イギリスUniversity of East Anglia(UEA)で行われた研究(もともとは難聴に悩む高齢者のトレーニングのための研究です)では、人間で正解率32%だったものが、コンピュータでは80%という正解率が得られたという実績があります。

オックスフォード大学の別のグループが進めている研究では、「LipNet」という読唇術ソフトウェアを発表しています。

LipNet: How easy do you think lipreading is?
こちらは限定的な条件でのテストになりますが、93.4%という認識率を達成しています。

限定的、と言うのはテストに使用した映像はボランティアの人が事前に決められた文章を話す映像を撮影したものだったので、「Watch, Listen, Attend, and Spell」のテストに使ったものに比べると難易度が低いテストであったと見積もらねばなりません。
それでも人間のプロの正解率は52.3%だったことから人間に比べるといかに人工知能による読唇術が高い精度を叩き出したかがわかります。

読唇術ソフトウェアがもたらす将来

引き続きプライバシーの問題には注意が必要です。
あたかもスパイ映画のように、誰かが話している会話の内容を盗み聞きするようなことができるようになるかも知れません。
実際今のサッカーでは監督は指示を出す際に口元を隠して発言することが頻繁にありますし、sky(サッカー中継に読唇術を導入した有料テレビチャンネル)がチームの発言を放送に乗せたことで論争を巻き起こしました。
Borussia Dortmund und Bayern München sauer auf Sky-Lippenleser – “Affig”(WAZ)

その一方で特別な技術が無くても読唇術による発言内容の把握ができるということは世界でおよそ3億人を超える聴覚障害者の方(難聴者の方は5億人を超える)にとっては福音です。
ソフトウェアは疲れることも集中力が途切れることもなく、長時間の会話での使用にも耐えうるでしょうし、映像コンテンツに字幕をつける、といったことも今まで以上に工数が削減できる可能性があります。
技術は常に良い側面とそうでない側面を持ちますが、今回の研究は必ず人の役に立つ技術です。
人と人工知能が共存する社会では低コストで様々な人工知能のサポートが実現することを期待しましょう。

今すぐお気軽に
ご相談ください。

0120-315-465

(平日 10:00~19:00)

今すぐお気軽に
ご相談ください。

0120-315-465

(平日 10:00~19:00)

グラッドキューブは
「ISMS認証」を取得しています。

認証範囲:
インターネットマーケティング支援事業、インターネットASPサービスの提供、コンテンツメディア事業

「ISMS認証」とは、財団法人・日本情報処理開発協会が定めた企業の情報情報セキュリティマネジメントシステムの評価制度です。

いますぐ無料で
お試しください。

SiTest の革新的な機能を
お試しいただけます。
利用規約

お名前【必須】
メールアドレス【必須】
電話番号【必須】