人工知能のディープな可能性
この講義は登録不要無料視聴できます!
▶ 無料視聴する
この講義の続きはもちろん、
5,000本以上の動画を好きなだけ見られる。
スキマ時間に“一流の教養”が身につく
まずは72時間¥0で体験
(会員の方に広告は表示されません)
強化学習とディープラーニングでロボットが自動的に習熟
人工知能のディープな可能性(2)自ら学習するロボット
松尾豊(東京大学大学院工学系研究科 人工物工学研究センター/技術経営戦略学専攻長 教授)
画像認識の精度を飛躍的に向上させたディープラーニングは、「強化学習」と組み合わせることで、自ら学習するロボットを生み出した。この技術を使えば、ルールややり方すら教えなくても、ロボットは自動的にゲームに習熟し、おもちゃを組み立てられようになる。東京大学大学院工学系研究科准教授・松尾豊氏が、最新事例を解説する。(全4話中第2話) ※テキストの文中に参考動画(YouTube)へのリンクがありますので、併せてご覧ください。
時間:12分39秒
収録日:2016年1月15日
追加日:2016年5月12日
≪全文≫

●「強化学習」にディープラーニングを組み込む


 画像認識の精度は、今すごく上がっていますが、それと同時に、すごく面白いことが起こっています。画像認識と強化学習、ディープラーニングと強化学習を組み合わせるという技術が出てきています。

 強化学習とは、大雑把に言うと「行動を学習する仕組み」です。これはもう100年ぐらい前から研究されています。例えば人間は、サッカーボールを蹴っているうちに、だんだん上手に蹴ることができるようになります。なぜ上手に蹴ることができるようになるかというと、たまたま上手く蹴ることができたら、「今のは上手く蹴ることができた」と思って、その蹴り方を繰り返すからですね。

 このように「上手く蹴らることができたな」と思えることを、「報酬」と言います。報酬が与えられると、その前にやった行動を強化する。こういう仕組みによって、行動がだんだん上手になってくるのです。犬にお手を教えるというときにどうやるかというと、たまたま犬がお手をしたらエサをあげるということを繰り返していく。すると、お手をするようになるわけです。これは犬から見ると、エサという報酬がもらえた前にやった行動を強化しているわけですね。

 これが強化学習の仕組みです。犬も、いつもお手をしていればいいわけではなく、ご主人さまが「お手をしなさい」と言ったときにお手をするといいわけですね。ですから、どういう状況でどういう行動をすると良かったか、あるいは悪かったか、すなわち「状況」と「行動」、そして「良かったか/悪かったか」、これらをセットにして、コンピュータに学習させていくわけです。


●ブロック崩しのテクニックを「学ぶ」人工知能


 今までの強化学習では、「どういう状況で」という「状況」の記述をするのに、人間が定義した変数を使っていたのです。ところが、このディープラーニングと組み合わせる方法では、「状況」の記述にディープラーニングで画像認識をして出てきた特徴量を使うことで、その変数を人間がつくらなくてよくなります。後の部分は、今までの強化学習と一緒です。違いはそこにしかないのですが、それによって非常に大きな変化が起こります。

 動画をお見せします。まず2013年後半の研究です。ディープマインドという会社がありまして、これは2014年初頭にGoogleに買収された会社です。この会社がどういうことをやった...

スキマ時間でも、ながら学びでも
第一人者による講義を1話10分でお届け
さっそく始めてみる
(会員の方に広告は表示されません)
「科学と技術」でまず見るべき講義シリーズ
レアメタルの光と影(1)イントロ
イノベーションがレアメタルをコモンメタルにする
岡部徹
進化的人間考~ヒトの性質と異様な現代社会(1)進化のスパンと現在の人間生活
ヒトの進化史を文明の発展の時間軸から考える
長谷川眞理子
生成AI・大規模言語モデルのしくみ(1)生成AIとは何か
10年で劇的な進歩を遂げた生成AIと日本の開発事情
岡野原大輔
もっと知りたいイヌのこと(1)イヌの歴史を振り返る
オオカミはいつイヌになったか…犬の起源と家畜化の歴史
長谷川眞理子
発酵はマジックだ!
色を消し、脂を溶かし、水を分解―スゴすぎる発酵の力!
小泉武夫
Beyond5G・6Gで進む情報通信の民主化(1)情報通信の民主化と「協創」
6Gの研究開発を推進する情報通信の民主化
中尾彰宏

人気の講義ランキングTOP10
ラカンの精神分析~心の謎を解き明かす(1)精神分析の概念とその起源
なぜ心の病にかかるのか?ラカンの精神分析とその起源
斎藤環
編集部ラジオ2026(18)4種の「利き脳タイプ」分析
【10min解説】最終話に注目!4種の「利き脳タイプ」分析
テンミニッツ・アカデミー編集部
AI時代にリベラルアーツがなぜ必要か(4)情報と教養の違い
教養がおろそかな人の限界…「教養は頭の中に、情報は頭の外に」
橋爪大三郎
AI大格差~最新研究による仕事と給料の未来(6)賃金の未来シナリオ
AIが人間の仕事を「完全代替」したらどうなる?…仕事と賃金の未来
宮本弘曉
プロジェクトマネジメントの基本(10)大脳生理学によるモチベーション理論
論理的?計画的?社交的?冒険的?利き脳による4タイプ
大塚有希子
地政学入門 歴史と理論編(1)地政学とは何か
地政学をわかりやすく解説…地政学の「3つの柱」とは?
小原雅博
イラン戦争と終末論(1)イラン戦争の戦略的背景と米国の政策
なぜイラン戦争がこのタイミングなのか?戦略的背景に迫る
東秀敏
メンタルヘルスの現在地とこれから(3)世代論とワークライフバランス
ワークライフバランスがストレス!?…仕事と家庭の両立は
斎藤環
飽食時代の「選食」のススメ(1)選食の提唱と「食の多様性」
肥満、認知症、低栄養…飽食の時代に大事な「選食力」3カ条
堀江重郎
「最高の睡眠」へ~知っておくべき睡眠常識(6)子どものための睡眠
「眠育」のすすめ~睡眠不足は子どもの脳の発達にも悪影響
西野精治