●ゲームのコツをつかむコンピュータ
ディープラーニングによる「認識の習熟」だけでも相当に大きな変化なのですが、他にも大きな変化がいろいろあります。次にお話しするのは、「運動の習熟」です。ロボットや機械の動作がだんだん上達していくということです。実はこれは、AlphaGoを開発したDeepMindという会社が、2013年ぐらいに行っていた研究で、ブロック崩しを学習するAIをつくっていました。
【参考動画1】
Google DeepMind's Deep Q-learning playing Atari Breakout
https://youtu.be/V1eYniJ0Rnk
ここで使われているのは、強化学習というやり方です。人工知能自身が、試行錯誤しながらだんだん上達していくというものです。最初は下手なのですが、だんだん上達してくるということが起こります。しばらくすると、すごく上手になります。このぐらい上達する程度ならば、昔のAIでもできました。ただ昔のAIでは、「これはボールだ」とか「これは自分(コンピュータ)が動かしているバーだ」ということを人間が定義していました。
ここでお見せしたAIがすごいのは、画像を入れているだけだということです。画像認識によって、「丸っこいものがある」とか「棒っぽいものがある」と認識し、それらのX座標が合っているとき、「点が入りやすい」ということを学んでいき、だんだん上達していきます。要するに、目で見て上達していくということを、AI自身がやっているのです。
そうすると、そのうち何が起こるか。AIが「コツを見つける」ということをやり始めるのです。AIは、画面の左端(ゲーム画面の4)を狙い始めます。左端・右端を狙って通路をつくり、ボールを上に放り込むとすごい点が入るので、実際にそれを狙っていくようになります。画像から特徴量を取り出してくるので、左端や右端に通路ができている状態が良い状態だということに気付いているのです。
これと全く同じプログラムを使えば、全然違うゲームを学習させることができます。例えばインベーダーゲームでも、全く同じプログラムを使って上達させることができるのです。
【参考動画2】