発達障害の人の発声も認識できるようにGoogleの研究開発

time 2019/11/12

この記事を読むのに必要な時間は約 7 分です。

スマートスピーカーが発達障害の人たちの話す言葉をなかなか認識してくれない理由は何か？
「アンダストゥド・プロジェクト」では具体的に何を行っているのか？
音声認識技術が発達障害の人たちにとってどのように重要なツールになると考えられているのか？

音楽を再生したり、天気予報を聞いたり、スマートスピーカーは便利なものです。
しかし、スマートスピーカーが音声をなかなか認識してくれないために利用できない人たちがいます。
その中にはダウン症の人たちがいます。
発達障害の人たちの話す言葉の約３分の１をスマートスピーカーは誤って認識しているとGoogleは報告しています。
これを解決するために「アンダストゥド・プロジェクト」と名付けられた、ダウン症の人たちにさまざまなフレーズをWebを通じて言ってもらい、音声を収集する取り組みが行われています。
収集した音声データは、Googleの音声認識技術に反映されます。
顔の骨格や筋肉の構造の違いによって生じる音声の特性に対して音声認識率を改善します。
この「アンダストゥド・プロジェクト」は、カナダでダウン症週間にあわせて開始されました。

ジュピター・リサーチ社によれば、２０２３年までにスマートスピーカーの利用は約８０億台にのぼります。
ますます重要なことを行えるように、スマートスピーカーがより多くの人たちの音声を正しく認識できるようになることは重要です。
「多くの人にとって、スマートスピーカーは生活を少し楽にしてくれるものです。
しかし、ダウン症の人にとっては自立した生活ができるように助けてくれる大きな存在になりえます。
毎日のリマインダーに教えられて、愛する人と連絡をとり、行うべきことを知り、スマートスピーカーを利用する。
豊かな生活につながるツール、学ぶことや社会に参加することにもつながるツールになるのです。」
そう、カナダダウン症協会のエグゼクティブ・ディレクターのローラ・ラチャンスは言います。
そして、この取り組みをカナダダウン症協会とともに行っているマーケティング企業のFCBの共同制作責任者のナンシー・クリミ・ラマンナはこう言います。
「音声認識技術によるスマートスピーカーはとても身近なものになりました。
これからますますいろいろなところで使われていくでしょう。
しかし、発話が他の人とは違っている人や発達障害の人たちには現在使えるものにはなっていません。
もっとも恩恵を受けることができるはずの立場にある人たちであるのに、今の音声認識技術では使えないのです。
一般的な発話をする人たちにとってはとても便利なツールです。
しかし自立した生活を送るのに困難をかかえている人たちにとっては、便利を超えて、人生を意味あるものにしてくれる重要なツールとなるものです。
しかし、そうはいっても確かに実現することは難しいと思えました。
ダウン症の人たちを音声認識技術は理解できるのでしょうか」

解決するための取り組み「アンダストゥド・プロジェクト」がそうして始まりました。
「研究開発を行っているさまざまな研究機関や企業にアプローチしました。
協力してくれるところはありませんでした。
しかし、Googleに連絡をすると初めて突破口が見えました。
Googleもこの問題を解決したがっていました。
私たちと話し合うことにもオープンでした」
そして、ダウン症の人たちがテスト開発に参加しました。
「最初は９人のダウン症の方が参加協力してくれました。
私たちにとっては、とても緊張する時間でした。
私たちのアイデアが本当に実現可能なのかが示されるからです。
音声認識アルゴリズムは音声のパターンを認識するものです。
ダウン症の方の発話にＡＩが学習し適応できるのに十分なパターンがあるかどうかを知ることがテスト開発の目的でした。
２週間後には、私たちが期待していた答えを得ることができました。
音声サンプルが増えれば増えるほど、自閉症の人たちへの音声認識を改善できる可能性は高くなることを確かめることができました。」

これから、どれだけの発話サンプルが必要になるのでしょう。
「１０００の発話サンプルを収集することを目指していますが、それぞれの発話サンプルにどれだけの時間、サンプル数がいくら必要かはそれぞれに異なってくるので、正確な数字はまだわかりません」
今回の取り組みで、発話サンプル収集は具体的にはどのように行われるのでしょうか。
「サインアップして、Googleが提供する音声チャットのサービスで、まず２９の発話フレーズと単語を発声していただきます。
このサンプルから技術的に音声認識が可能がを評価します。
可能であれば、次に１７００の単語を含む発話フレーズへの登録をお願いします。

人によりますが、全てのフレーズを登録するのには４時間から７時間かかります。
そのため、一度にすべてを話す必要はありません」
このようなフレーズの発話が求められます。
「彼は、キンポウゲ、キンポウゲ、キンポウゲ、キンポウゲを一日中言った」
「今日はヨーヨーを借りています」
「ボビーに子犬を買ってください」
「竹の塀は、丈夫で使いやすく、見栄えが良いため、非常に人気が高まっています」
「いちごジャムは甘い」
「彼女は鏡を見ました」

そして、音声認識技術がダウン症の人たちにとって特に重要なツールになると考える理由について、ナンシーはこう言います。
「教室での学習に役に立ちます。そして働く場でも。
人間関係を築くためのスキル向上にもつながります。
これから、音声認識技術、スマートスピーカーはますますどこでも使われるようになります。
誰にも、そのメリットを享受できるようになることが重要だと考えています」
（出典・画像：米Muse）
すばらしい取り組み、さすがGoogle様！という感じです。
うちの子は全く話すことができないので、音というか歌のような発声です。
それでも、ＡＩでおおまかな感情はわかるでしょう。
機械学習させて私も実現できそうですが、それではうちの子専用、うちの子の発声についてだけ認識できるものになってしまいます。
そして結局、おおまかな感情は今の私でもすぐにわかるので役には立たなそうです。
もっと広く多くの人に、汎用的に使えるためにはGoogleのような存在、こうした取り組みが求められます。
さらに進んで、言葉を発せられない人の声からも、カメラから取得した体の動きともあわせたりして、わかるようになるととても助かります。
本当に期待しています！
発達障害の子にも役立つ。スマートスピーカーとのつきあい方