大規模言語モデルのインパクト…ChatGPTの発展 - 渡辺宣彦 | 教養動画メディア『テンミニッツ・アカデミー』

日進月歩の開発が進む生成AIは、人間と同等の知性を獲得しつつある。その開発は、人間のより広範な活動にAIを活用するという目的に根ざしている。大規模言語モデル（Large Language Model）という言語モデルによって、私たちの日常生活や仕事において欠かせないパートナーになろうとしている生成AI。その現在地を解説する。（全7話中第2話）
※インタビュアー：川上達史（テンミニッツTV編集長）

時間：7分04秒
収録日：2023年8月1日
追加日：2023年10月4日

カテゴリー：

≪全文≫

●“Large Language Model”でより広範なAI活用へ

渡辺　生成AIというのは非常にインパクトのあるもので、ここで1つキーワードとして申し上げておきたいのが、その土台になっている大規模言語モデル＝“Large Language Model”というものです。これを実現して、ChatGPTのような形でユーザーに提供することを通じて、特定のタスクに特化していた先ほどの囲碁のケースなどではなくて、もっと幅広い目的のためにこれを使いこなすことができるようになったというのが、この生成AIの非常に大きな新しさであるということになろうかと思います。

　その生成AIについて、われわれマイクロソフトがパートナーシップを組んで一緒に仕事をしている企業、あるいは組織は、OpenAIという団体です。この会社がChatGPTというものを提供しているという関係になっています。

　このOpenAIについて、「組織」という言い方をしましたが、本来この組織は非営利団体としてつくられたもので、メディアなどでいろいろ出ていますので、ご覧になっている方もあるかと思いますけれども、イーロン・マスクが実はこれに絡んでいます。あと、今CEOになっているサム・アルトマンが一緒に2015年に立ち上げた組織ですので、もう8年くらいの歴史があるのです。

　それで、今のChatGPTにつながるAIは2018年にGPT1という形でリリースされています。その当時GPT1が処理していたパラメータ数は1億2000万個くらいで、学習したデータ量が4.5GBだそうです。多いのか、少ないのかちょっとわからないですけれど、その後のことを申し上げると、当時はまだ少なかったのだなというふうに感じていただけるかと思うのです。

　翌年の2019年には早速GPT2というものを発表していて、構造は同じようなものなのですけれども、パラメータ数は15億個に増えています。大量のウェブページを学習して、40GBのテキストデータを学習したそうです。

　その後、2020年に、まさに今使われているGPT3というものを発表しているのですけれども、パラメータ数は1750億個に増えました。倍増どころではないですね。爆増したという感じになるかもしれません。それで570GBのテキストを学習したということです。この段階から、人間がつくったものとほぼ区別がつかない、遜色のない文章を生成することができるようになっていたということなので、2020年くらいは、ある意味で境目です。

――　境目...

講義テキストの続きが読める

72時間￥0で体験