社会人向け教養サービス 『テンミニッツ・アカデミー』 が、巷の様々な豆知識や真実を無料でお届けしているコラムコーナーです。
ディープラーニングだけではないAI進歩の秘密
ディープラーニング(深層学習)によって、人工知能(AI)の画像認識精度が人間を超えたと騒がれたのが2015年。その成果はグーグルの「アルファGO」が囲碁チャンピオンを連破したことで世界に知られ、「AIにとってかわられる職業」が話題になりました。しかし、AIの進化に貢献したのはディープラーニングだけではありません。東京大学大学院工学系研究科技術経営戦略学専攻特任准教授でAI研究者の松尾豊氏に聞いてみましょう。
研究者たちがいま取り組んでいるのはレベル3とレベル4の段階なのですが、一般の家電で「AI」を称しているのはレベル1、質問対応ソフトや診断プログラムなどはレベル2で、一般人はあまりちゃんと区別せずに「AI」の言葉を使っています。
また、すでにレベル4まで来ているなら、レベル3に戻る必要はないと思う人もいるでしょう。実はディープラーニングにより画像認識精度が上がったことと、ウェブなどにたまったビッグデータの組み合わせによって、機械学習の中でも「強化学習」が再度クローズアップされているのです。
「今のはうまくいった」と感じることは、脳の「報酬」になります。報酬が与えられることにより、行動が強化され、だんだん上手になっていく。これが強化学習のしくみなのですが、コンピュータにそれを覚えさせるには、「状況」と「行動」、そして「よかったか/悪かったか」をセットしなければなりません。
これまでの強化学習では、「状況」を記述するのに、人間が定義した変数を使ってきました。ところが、ディープラーニングと組み合わせる方法にすると、画像認識で出てきた特徴量が使えます。違いはそこだけなのに、生まれた変化には非常に大きなものがあります。
「ブロック崩し」も「スペースインベーダー」も、スコアを報酬と見ることにより、同じプログラムで学習させることができます。これまでだと、いちいち「これがインベーダー」「これがミサイル」「これが自分」という定義をしてやらないといけなかったのが、画像入力だけでOKになりました。
この技術を応用すればロボットの行動に「熟練」が見られるようになることは、すぐに予測がつきます。2015年5月、カリフォルニア大学バークレー校は「試行錯誤しながら組み立て作業を行う」ロボットのBRETTを発表しました。
考えてみると熟練は、人間だけが行なえる複雑なことではなく、犬でも猫でもできることです。AIに今までこれができなかったのは状況をつかむことができなかったから、と松尾氏は解説しています。
状況がわかり、報酬のうまみをたっぷり浴びたAIは、これからどんなロボットに成長していくのでしょうか。
ディープラーニングで見直された「強化学習」
松尾氏は、人工知能を研究開発する上でのレベルを4段階にまとめています。レベル1は「単純な制御プログラム」、レベル2は「古典的な人工知能」、レベル3は「機械学習ができる人工知能」、レベル4は「ディープラーニングを採り入れた人工知能」です。研究者たちがいま取り組んでいるのはレベル3とレベル4の段階なのですが、一般の家電で「AI」を称しているのはレベル1、質問対応ソフトや診断プログラムなどはレベル2で、一般人はあまりちゃんと区別せずに「AI」の言葉を使っています。
また、すでにレベル4まで来ているなら、レベル3に戻る必要はないと思う人もいるでしょう。実はディープラーニングにより画像認識精度が上がったことと、ウェブなどにたまったビッグデータの組み合わせによって、機械学習の中でも「強化学習」が再度クローズアップされているのです。
偶然のラッキーをリピートするのが強化学習
強化学習は、もう100年も前から研究が続けられてきた分野で、大雑把に言うと「行動を学習するしくみ」です。人間でいえば、サッカーボールを蹴っているうちにだんだん上手になるようなこと。「習うより慣れろ」と言われる習熟のプロセスには、たまたまうまく蹴ることができたときに、「今のはうまくいった」と感じて、その蹴り方を繰り返すというしくみが含まれているのです。「今のはうまくいった」と感じることは、脳の「報酬」になります。報酬が与えられることにより、行動が強化され、だんだん上手になっていく。これが強化学習のしくみなのですが、コンピュータにそれを覚えさせるには、「状況」と「行動」、そして「よかったか/悪かったか」をセットしなければなりません。
これまでの強化学習では、「状況」を記述するのに、人間が定義した変数を使ってきました。ところが、ディープラーニングと組み合わせる方法にすると、画像認識で出てきた特徴量が使えます。違いはそこだけなのに、生まれた変化には非常に大きなものがあります。
状況がわかって、報酬があれば、熟練はできるのだ
ディープラーニングと強化学習を組み合わせ、ゲームを学習するAIを作ったのが、ディープマインドという会社です。2013年にその技術を開発し、2014年にはグーグル社に買収されています。「ブロック崩し」も「スペースインベーダー」も、スコアを報酬と見ることにより、同じプログラムで学習させることができます。これまでだと、いちいち「これがインベーダー」「これがミサイル」「これが自分」という定義をしてやらないといけなかったのが、画像入力だけでOKになりました。
この技術を応用すればロボットの行動に「熟練」が見られるようになることは、すぐに予測がつきます。2015年5月、カリフォルニア大学バークレー校は「試行錯誤しながら組み立て作業を行う」ロボットのBRETTを発表しました。
考えてみると熟練は、人間だけが行なえる複雑なことではなく、犬でも猫でもできることです。AIに今までこれができなかったのは状況をつかむことができなかったから、と松尾氏は解説しています。
状況がわかり、報酬のうまみをたっぷり浴びたAIは、これからどんなロボットに成長していくのでしょうか。
~最後までコラムを読んでくれた方へ~
自分を豊かにする“教養の自己投資”始めてみませんか?
明日すぐには使えないかもしれないけど、10年後も役に立つ“大人の教養”を 5,500本以上。
『テンミニッツ・アカデミー』 で人気の教養講義をご紹介します。
日本的雇用慣行の課題…女性比率を高めても業績向上は難しい
DEIの重要性と企業経営(4)人口統計的DEIと女性活躍推進の効果
認知的DEIが進んでいない場合、人口統計的DEIに注目することも大事である。特に男女の多様性という観点から注目すべきは「女性活躍推進」。その効果については「差別の経済学」という分野があり、これは女性を登用することで業...
収録日:2025/05/22
追加日:2025/08/29
自由な多民族をモンゴルに統一したチンギス・ハーンの魅力
モンゴル帝国の世界史(2)チンギス・ハーンのカリスマ性
なぜモンゴルがあれほど大きな帝国を築くことができたのか。小さな部族出身のチンギス・ハーンは遊牧民の部族長たちに推されて、1206年にモンゴル帝国を建国する。その理由としていえるのは、チンギス・ハーンの圧倒的なカリス...
収録日:2022/10/05
追加日:2023/01/07
世界は数学と音楽でできている…歴史が物語る密接な関係
数学と音楽の不思議な関係(1)だれもがみんな数学者で音楽家
数学も音楽も生きていることそのもの。そこに正解はなく、だれもがみんな数学者で音楽家である。これが中島さち子氏の持論だが、この考え方には古代ギリシア以来、西洋で発達したリベラルアーツが投影されている。この信念に基...
収録日:2025/04/16
追加日:2025/08/28
動画講義だからこそ音楽と数学の深い関係がよくわかる!
編集部ラジオ2025(18)音楽って実は数学でできている?
「音楽」は、実は「数学」でできている――そのような話を聞いたことがあるかもしれません。数学と音楽といえば、ピタゴラスです。ピタゴラスは「音楽が美しく調和しているとき、きれいな数字が見えてくる」ということを発見した...
収録日:2025/06/25
追加日:2025/08/28
不安な定年後を人生の「黄金の15年」に変えるポイント
定年後の人生を設計する(1)定年後の不安と「黄金の15年」
「人生100年時代」といわれている現代において、定年後の人生に不安を抱く人は少なくないだろう。雇用延長で定年を延ばす人は多いが、その後の生活上の中心になるものを探しておくことが重要になってくる。時間的にも精神的にも...
収録日:2021/08/25
追加日:2021/09/28