テンミニッツTV|有識者による1話10分のオンライン講義
会員登録 テンミニッツTVとは
社会人向け教養サービス 『テンミニッツTV』 が、巷の様々な豆知識や真実を無料でお届けしているコラムコーナーです。
DATE/ 2018.02.09

ディープラーニングだけではないAI進歩の秘密

 ディープラーニング(深層学習)によって、人工知能(AI)の画像認識精度が人間を超えたと騒がれたのが2015年。その成果はグーグルの「アルファGO」が囲碁チャンピオンを連破したことで世界に知られ、「AIにとってかわられる職業」が話題になりました。しかし、AIの進化に貢献したのはディープラーニングだけではありません。東京大学大学院工学系研究科技術経営戦略学専攻特任准教授でAI研究者の松尾豊氏に聞いてみましょう。

ディープラーニングで見直された「強化学習」

 松尾氏は、人工知能を研究開発する上でのレベルを4段階にまとめています。レベル1は「単純な制御プログラム」、レベル2は「古典的な人工知能」、レベル3は「機械学習ができる人工知能」、レベル4は「ディープラーニングを採り入れた人工知能」です。

 研究者たちがいま取り組んでいるのはレベル3とレベル4の段階なのですが、一般の家電で「AI」を称しているのはレベル1、質問対応ソフトや診断プログラムなどはレベル2で、一般人はあまりちゃんと区別せずに「AI」の言葉を使っています。

 また、すでにレベル4まで来ているなら、レベル3に戻る必要はないと思う人もいるでしょう。実はディープラーニングにより画像認識精度が上がったことと、ウェブなどにたまったビッグデータの組み合わせによって、機械学習の中でも「強化学習」が再度クローズアップされているのです。

偶然のラッキーをリピートするのが強化学習

 強化学習は、もう100年も前から研究が続けられてきた分野で、大雑把に言うと「行動を学習するしくみ」です。人間でいえば、サッカーボールを蹴っているうちにだんだん上手になるようなこと。「習うより慣れろ」と言われる習熟のプロセスには、たまたまうまく蹴ることができたときに、「今のはうまくいった」と感じて、その蹴り方を繰り返すというしくみが含まれているのです。

 「今のはうまくいった」と感じることは、脳の「報酬」になります。報酬が与えられることにより、行動が強化され、だんだん上手になっていく。これが強化学習のしくみなのですが、コンピュータにそれを覚えさせるには、「状況」と「行動」、そして「よかったか/悪かったか」をセットしなければなりません。

 これまでの強化学習では、「状況」を記述するのに、人間が定義した変数を使ってきました。ところが、ディープラーニングと組み合わせる方法にすると、画像認識で出てきた特徴量が使えます。違いはそこだけなのに、生まれた変化には非常に大きなものがあります。

状況がわかって、報酬があれば、熟練はできるのだ

 ディープラーニングと強化学習を組み合わせ、ゲームを学習するAIを作ったのが、ディープマインドという会社です。2013年にその技術を開発し、2014年にはグーグル社に買収されています。

 「ブロック崩し」も「スペースインベーダー」も、スコアを報酬と見ることにより、同じプログラムで学習させることができます。これまでだと、いちいち「これがインベーダー」「これがミサイル」「これが自分」という定義をしてやらないといけなかったのが、画像入力だけでOKになりました。

 この技術を応用すればロボットの行動に「熟練」が見られるようになることは、すぐに予測がつきます。2015年5月、カリフォルニア大学バークレー校は「試行錯誤しながら組み立て作業を行う」ロボットのBRETTを発表しました。

 考えてみると熟練は、人間だけが行なえる複雑なことではなく、犬でも猫でもできることです。AIに今までこれができなかったのは状況をつかむことができなかったから、と松尾氏は解説しています。

 状況がわかり、報酬のうまみをたっぷり浴びたAIは、これからどんなロボットに成長していくのでしょうか。
~最後までコラムを読んでくれた方へ~
“社会人学習”できていますか? 『テンミニッツTV』 なら手軽に始められます。
明日すぐには使えないかもしれないけど、10年後も役に立つ“大人の教養”を 5,600本以上。 『テンミニッツTV』 で人気の教養講義をご紹介します。
1

なぜ思春期は大事なのか?コホート研究10年の成果に迫る

なぜ思春期は大事なのか?コホート研究10年の成果に迫る

今どきの若者たちのからだ、心、社会(1)ライフヒストリーからみた思春期

なぜ思春期に注目するのか。この十年来、10歳だった子どもたちのその後を10年追跡する「コホート研究」を行っている長谷川氏。離乳後の子どもが性成熟しておとなになるための準備期間にあたるこの時期が、ヒトという生物のライ...
収録日:2024/11/27
追加日:2025/07/05
長谷川眞理子
日本芸術文化振興会理事長
2

フェデラリスト・ハミルトンの経済プログラム「4つの柱」

フェデラリスト・ハミルトンの経済プログラム「4つの柱」

米国派経済学の礎…ハミルトンとクレイ(1)ハミルトンの経済プログラム

第2次トランプ政権において台頭する米国派経済学。実はこの保護主義的な経済学は、アメリカの成長と繁栄の土台を作っていた。その原点を振り返り解説する今シリーズ。まずはワシントン政権の財務長官でフェデラリストとして、連...
収録日:2025/05/15
追加日:2025/07/08
東秀敏
米国大統領制兼議会制研究所(CSPC)上級フェロー
3

グリーンランドに米国の軍事拠点…北極圏の地政学的意味

グリーンランドに米国の軍事拠点…北極圏の地政学的意味

地政学入門 ヨーロッパ編(10)グリーンランドと北極海

北極圏に位置する世界最大の島グリーンランド。ここはデンマークの領土なのだが、アメリカの軍事拠点でもあり、アメリカ、カナダとヨーロッパ、ロシアの間という地政学的にも重要な位置にある。また、気候変動によってその軍事...
収録日:2025/02/28
追加日:2025/07/07
小原雅博
東京大学名誉教授
4

スターバックスのコンセプトは「サードプレイス」

スターバックスのコンセプトは「サードプレイス」

ストーリーとしての競争戦略(6)事例に見る経営者の戦略

一橋大学大学院国際企業戦略研究科教授の楠木建氏が、ホットペッパーとスターバックスを事例として、コンセプトの重要性を解説する。スターバックスやホットペッパーは、「第3の場所」・「狭域情報」といったコンセプトを的確に...
収録日:2017/05/25
追加日:2017/07/18
楠木建
一橋大学大学院 経営管理研究科 国際企業戦略専攻 特任教授
5

最悪のシナリオは?…しかしなぜ日本は報復すべきでないか

最悪のシナリオは?…しかしなぜ日本は報復すべきでないか

第2次トランプ政権の危険性と本質(8)反エリート主義と最悪のシナリオ

反エリート主義を基本線とするトランプ大統領は、金融政策の要であるFRBですらも敵対視し、圧力をかけている。このまま専門家軽視による経済政策が進めば、コロナ禍に匹敵する経済ショックが世界的に起こる可能性がある。最終話...
収録日:2025/04/07
追加日:2025/06/28
柿埜真吾
経済学者