社会人向け教養サービス 『テンミニッツTV』 が、巷の様々な豆知識や真実を無料でお届けしているコラムコーナーです。
ディープラーニングだけではないAI進歩の秘密
ディープラーニング(深層学習)によって、人工知能(AI)の画像認識精度が人間を超えたと騒がれたのが2015年。その成果はグーグルの「アルファGO」が囲碁チャンピオンを連破したことで世界に知られ、「AIにとってかわられる職業」が話題になりました。しかし、AIの進化に貢献したのはディープラーニングだけではありません。東京大学大学院工学系研究科技術経営戦略学専攻特任准教授でAI研究者の松尾豊氏に聞いてみましょう。
研究者たちがいま取り組んでいるのはレベル3とレベル4の段階なのですが、一般の家電で「AI」を称しているのはレベル1、質問対応ソフトや診断プログラムなどはレベル2で、一般人はあまりちゃんと区別せずに「AI」の言葉を使っています。
また、すでにレベル4まで来ているなら、レベル3に戻る必要はないと思う人もいるでしょう。実はディープラーニングにより画像認識精度が上がったことと、ウェブなどにたまったビッグデータの組み合わせによって、機械学習の中でも「強化学習」が再度クローズアップされているのです。
「今のはうまくいった」と感じることは、脳の「報酬」になります。報酬が与えられることにより、行動が強化され、だんだん上手になっていく。これが強化学習のしくみなのですが、コンピュータにそれを覚えさせるには、「状況」と「行動」、そして「よかったか/悪かったか」をセットしなければなりません。
これまでの強化学習では、「状況」を記述するのに、人間が定義した変数を使ってきました。ところが、ディープラーニングと組み合わせる方法にすると、画像認識で出てきた特徴量が使えます。違いはそこだけなのに、生まれた変化には非常に大きなものがあります。
「ブロック崩し」も「スペースインベーダー」も、スコアを報酬と見ることにより、同じプログラムで学習させることができます。これまでだと、いちいち「これがインベーダー」「これがミサイル」「これが自分」という定義をしてやらないといけなかったのが、画像入力だけでOKになりました。
この技術を応用すればロボットの行動に「熟練」が見られるようになることは、すぐに予測がつきます。2015年5月、カリフォルニア大学バークレー校は「試行錯誤しながら組み立て作業を行う」ロボットのBRETTを発表しました。
考えてみると熟練は、人間だけが行なえる複雑なことではなく、犬でも猫でもできることです。AIに今までこれができなかったのは状況をつかむことができなかったから、と松尾氏は解説しています。
状況がわかり、報酬のうまみをたっぷり浴びたAIは、これからどんなロボットに成長していくのでしょうか。
ディープラーニングで見直された「強化学習」
松尾氏は、人工知能を研究開発する上でのレベルを4段階にまとめています。レベル1は「単純な制御プログラム」、レベル2は「古典的な人工知能」、レベル3は「機械学習ができる人工知能」、レベル4は「ディープラーニングを採り入れた人工知能」です。研究者たちがいま取り組んでいるのはレベル3とレベル4の段階なのですが、一般の家電で「AI」を称しているのはレベル1、質問対応ソフトや診断プログラムなどはレベル2で、一般人はあまりちゃんと区別せずに「AI」の言葉を使っています。
また、すでにレベル4まで来ているなら、レベル3に戻る必要はないと思う人もいるでしょう。実はディープラーニングにより画像認識精度が上がったことと、ウェブなどにたまったビッグデータの組み合わせによって、機械学習の中でも「強化学習」が再度クローズアップされているのです。
偶然のラッキーをリピートするのが強化学習
強化学習は、もう100年も前から研究が続けられてきた分野で、大雑把に言うと「行動を学習するしくみ」です。人間でいえば、サッカーボールを蹴っているうちにだんだん上手になるようなこと。「習うより慣れろ」と言われる習熟のプロセスには、たまたまうまく蹴ることができたときに、「今のはうまくいった」と感じて、その蹴り方を繰り返すというしくみが含まれているのです。「今のはうまくいった」と感じることは、脳の「報酬」になります。報酬が与えられることにより、行動が強化され、だんだん上手になっていく。これが強化学習のしくみなのですが、コンピュータにそれを覚えさせるには、「状況」と「行動」、そして「よかったか/悪かったか」をセットしなければなりません。
これまでの強化学習では、「状況」を記述するのに、人間が定義した変数を使ってきました。ところが、ディープラーニングと組み合わせる方法にすると、画像認識で出てきた特徴量が使えます。違いはそこだけなのに、生まれた変化には非常に大きなものがあります。
状況がわかって、報酬があれば、熟練はできるのだ
ディープラーニングと強化学習を組み合わせ、ゲームを学習するAIを作ったのが、ディープマインドという会社です。2013年にその技術を開発し、2014年にはグーグル社に買収されています。「ブロック崩し」も「スペースインベーダー」も、スコアを報酬と見ることにより、同じプログラムで学習させることができます。これまでだと、いちいち「これがインベーダー」「これがミサイル」「これが自分」という定義をしてやらないといけなかったのが、画像入力だけでOKになりました。
この技術を応用すればロボットの行動に「熟練」が見られるようになることは、すぐに予測がつきます。2015年5月、カリフォルニア大学バークレー校は「試行錯誤しながら組み立て作業を行う」ロボットのBRETTを発表しました。
考えてみると熟練は、人間だけが行なえる複雑なことではなく、犬でも猫でもできることです。AIに今までこれができなかったのは状況をつかむことができなかったから、と松尾氏は解説しています。
状況がわかり、報酬のうまみをたっぷり浴びたAIは、これからどんなロボットに成長していくのでしょうか。
~最後までコラムを読んでくれた方へ~
「学ぶことが楽しい」方には 『テンミニッツTV』 がオススメです。
明日すぐには使えないかもしれないけど、10年後も役に立つ“大人の教養”を 5,500本以上。
『テンミニッツTV』 で人気の教養講義をご紹介します。
東大生YouTuber!?『三四郎』に描かれたメンタルヘルス問題
いま夏目漱石の前期三部作を読む(3)『三四郎』の時代背景と深い陰影
夏目漱石の前期三部作の最初の作品となる『三四郎』は、九州から上京した三四郎の視点を通じて明治末期の知識人の姿を描いている。特に東京帝大の学生たちの姿や、彼らが直面する不条理を鋭く捉え、知的に生きることの困難さを...
収録日:2024/12/02
追加日:2025/03/16
国民医療費の膨張と現役世代の巨額の「負担」
緊急提言・社会保障改革(1)国民負担の軽減は実現するか
令和7年度予算をめぐる国会審議では、国民民主党が提起した「103万円の壁」問題と、日本維新の会が提起した「高校授業料無償化」に大きな注目が集まった。結果的に、少数野党となった自民党・公明党が維新の会と三党合意を結び...
収録日:2025/03/06
追加日:2025/03/15
米国ではどのようにお金が回っているか…日米比較で考える
お金の回し方…日本の死蔵マネー活用法(4)資産循環の日米比較
日本の経済成長が停滞する一因として、お金の「死蔵」が挙げられる。その背景にある資金偏在の問題とは何か。財政支出の影響や日米のマネー活用の違いを検証し、日本の資産循環モデルの課題と改善策を考える。(全6話中第4話)
収録日:2024/12/04
追加日:2025/03/15
長寿雇用戦略…いくつになっても働きたい人が働ける社会へ
第2の人生を明るくする労働市場改革(6)長寿雇用戦略と健全な危機感
労働市場を流動化させることが急務である日本だが、企業や個人はどのように対応していくべきなのだろうか。労働者の生産性に応じた給与システムの導入、スキルアップによる能力向上が求められる中、政策としては非常に重要なの...
収録日:2024/08/03
追加日:2025/03/14
生成AIの利活用に格差…世界の導入事情と日本の現状
生成AI「Round 2」への向き合い方(1)生成AI導入の現在地
日進月歩の進化を遂げている生成AIは、私たちの生活や仕事の欠かせないパートナーになりつつある。企業における生成AI技術の利用に焦点をあてる今シリーズ。まずは世界的な生成AIの導入事情から、日本の現在地を確認しよう。(...
収録日:2024/11/05
追加日:2024/12/24