●画像認識の精度アップの鍵-特徴量を自分でつくり出す
ディープラーニングでできることは画像認識なのですが、従来だと人間が見れば「イヌ、ネコ、オオカミ」と一目で分かるものも、コンピューターで認識させることが非常に難しかったわけです。
例えば、「イヌ、ネコ、オオカミ」の3つを見分けたいとき、耳の形とか目の形に注目するといいのではないかということで、普通に考えると「耳が垂れていて目が長ければイヌだろう」、「耳がとがって目が長ければオオカミだろう」といったルールをつくります。
ところが、そうすると、「耳がとがっていて目が長いのだけれど、オオカミじゃなくてイヌですよ」という例外がたくさん発生するわけですね。結局、人間が、「耳が垂れている」とか「目が長い」といった特徴量を見ている限りはどうやっても無理で、その特徴量自体を自分でつくり出せるようにならないと精度は上がらないということです。これができるようになっているのがディープラーニングということです。まず画像認識によって圧倒的に精度が上がりました。昨年の時点で、すでに人間の認識精度を超えるところまで来ています。
●ディープラーニング第二段階-運動の習熟
その後、どういうことが起こるかというと、これも以前ご説明した通りですけれども、運動能力、つまり運動の習熟ということができるようになります。人間も動物も同じことをやっていると、だんだん上手になっていきます。それと同じことができるようになるのです。
要するに、認識ができるということは目が見えるようになったということです。今までロボットや機械には、カメラがありました。これは一見、目があるように思うのですが、認識できていなかったのです。裏側の処理系が非常に貧弱だったので、カメラがあっても目が見えていなかったのです。それが今は見えるようになったということです。そうすると、人間が見て見分けられるものは見分けられますし、見分けた上で「こういう状況ではこういうことをしたらいいんだ」ということが学習できるので、動き方も上手になるのです。
●言語の意味理解へ-文と体験の相互変換能力の獲得
そして、そのうち言語の意味理解というところに至ります。今までは自然言語処理、つまり言語をコンピューターで扱う技術はあったのですが、意味理解を一切していなかったのです。例えば、「Google翻訳」で日本語から英語への翻訳をどうやって行っているかというと、日本語のある文字列が英語のある文字列に置き換えられる確率を統計的に計算して、それが高くなるようなものを選んでいるだけなのです。
一方、言語の意味理解とはどういうことか。文が入ってくるとそれに対応した映像を思い浮かべることができる。そして、映像からまたそれを文で表現することができる。つまり文と映像の相互の変換ができる能力があるということで、これが言語の意味理解ができるということだと思います。もう少し厳密にいうと、映像ではなく、アクチュエーター、つまり体の動かし方というデータのことで、センサーとこのアクチュエーター両方のデータの複合体なので、むしろ体験と呼んだ方がいいと思いますが、文から体験を生成でき、体験から文を生成できる能力が言語の意味理解能力だということです。こういう順番で技術が進んでくるはずで、今すごい勢いで進展しています。
●最新の画像認識技術を駆使した商品事例
いくつか事例をご紹介したいと思います。これは、昨年後半から今年にかけて出てきた技術です。特に認識系の技術はどんどん進んでいまして、例えば、Netatmо(ネタトモ)という監視カメラをつくっている会社があります。特筆すべきことのない監視カメラなのですが、何ができるかというと、監視カメラに人や動物、あるいは車が映るとスマホにお知らせが来るのです。それだけなのですが、これが結構画期的なことなのです。
なぜかというと、今までの監視カメラは結局、後ろで人が見ているか、あるいは何か事件があったときに巻き戻して再生することしかできなかったのです。ところが、このカメラは認識した瞬間にお知らせが来るので、例えば、留守宅に仕掛けておいて、人が居るはずのないところに人が居るということが認識されれば、すぐにお知らせが来るのです。そうすると、「ちょっと様子を見てきてよ」と言えるわけです。これは、監視の在り方を相当変える可能性があると思います。
それから、右側はPlacemeterというものです。何をするかというと、画面に映っているものの数を数えるというだけです。非常に単純で、それで「何をするの?」と思うのですが、これは屋外から店舗を撮っているところで、人の数を数えているのです。そうすると、まず通りを歩いている人の数が分かります。それか...