DATE/ 2018.02.01

今や人間の表情を読むこともできるAIの認識精度

　写真画像代理店のゲッティイメージズジャパンが幾多の報道写真の中から2017年のハイライトとして取り上げたうち、AIが選んだ「今年の1枚」が注目されました。それは、乗っていた船が転覆し、救助船に向かって泳ぐ難民の表情をとらえた１枚。AIはこの難民の表情から、命をつなごうとするポジティブな印象と恐怖からくるネガティブな印象を読み取り、「これは人の心をうつ写真だ」と判断したのだそうです。

「カメラ」だけでは「見る」ことはできない

　この出来事からも分かるように、ディープラーニングで行う画像認識の技術は今、飛躍的に進化している、とAI研究の第一人者である東京大学大学院工学系研究科准教授・松尾豊氏は言います。既にその認識精度は人間のそれを超えるところまできているのだとか。

　こう聞くと、「高性能のカメラを搭載したロボットや機械を作れるようになったということかな」などと思ってしまいますが、実はどんなに優秀な「カメラ」を機械が持っていても、それは「見る」ことを意味しません。対象物を前に、何を見ていると認識し、状況に応じて判断して次の行動に結びつけるという、いわゆる私たちが普段、当たり前のように行っている「見る」ということが、今までのロボット、機械ではできなかったのです。

画期的監視カメラの登場

　この「見る」技術、映像と状況を認識して言語の意味理解に達する。つまりそこで起こっている文脈と体験を結びつけることができるようになって初めて、機械は「見る」行為を獲得します。そのレベルになって、ようやくさまざまな仕事を自動で任せられるようになるのです。

　たとえば、Netatmo（ネタトモ）という企業が作っている監視カメラは、人や車などが映るとスマホに通知をしてくれます。ちょっと聞いただけでは何の変哲もない監視カメラのように思ってしまいますが、松尾氏は「実はこれがなかなかに画期的なこと」と評価します。今までの監視カメラでは、常時、人がどこかで不審なものが映しだされたりしないか、それこそ映像を「監視」する必要がありました。あるいは、何か事件が起こった時に映像を巻き戻して再生する、といったことが必要だったのです。

　しかし、自分で「見る」監視カメラは、映ったと認識した瞬間、「これは通常とは違う状態」と判断して通知してくれます。留守宅、あるいは立ち入り禁止の場所などに設置しておけば、そこにいるはずのない人が「居る」と認識した瞬間に、人はすぐにその状況を把握し、対応処置をとることができるのです。「寝ずの番」をせずとも機械に任せられる、という点で、これから介護施設での利用など応用範囲も広がりそうです。

「見る」から「読む」へ…さまざまに広がる可能性

　さらに、冒頭でもご紹介したような人の表情を読み取る機械を作ったのが、Emotientという企業。その人が笑っているのか、怒っているのか、イライラしているのかを瞬時に読み取ります。この技術を利用すると、今までネット通販などでユーザーが何に興味を示しているのか、クリックボタンで判断していたところを、直接ユーザーの顔を見て、興味のあるなし、気に入ったか気に入らなかったのか、をリアルタイムで知ることができるようになります。

　松尾氏はこの技術は、全てのサービス業に効果をもたらすはずだと言います。店頭で販売員が接客をしているとき、お客さんの顔を読み取ることで、その販売員の接客態度が適切なものなのか、あるいは「もう二度とこの店には来たくない」と思わせてしまっているのかが分かるので、接客技術の向上に直結します。また、病院の待合室で、いらついている人がどの程度いるのかが分かれば、待ち時間の短縮、顧客満足度のアップにつながります。教育現場でも、生徒の表情から講義に興味を示しているのか、授業に満足しているのかを判断し、教師の教える技術のレベルアップにつなげることも可能でしょう。

　実は、日銀総裁・黒田東彦氏の記者会見の表情をAIが解析し、大きな金融政策変更を行う前には「怒り」「嫌悪」の割合が増大していたという研究論文も発表されているのだそうです。AIの「見る」技術は、確実に「読む」技術に進化しているのですね。そのうち、AIに読み取られまいと対抗して、「特技は“能面”」などという人が出てくるかもしれません。