テンミニッツ・アカデミーは、有識者の生の声を10分間で伝える新しい教養動画メディアです。

すでにご登録済みの方はこちら

大規模言語モデルを成功させた要因「Transformer」とは

生成AI・大規模言語モデルのしくみ（5）言語モデルの大規模化とTransformer

岡野原大輔

株式会社Preferred Networks 共同創業者、代表取締役最高研究責任者

概要・テキスト

大規模言語モデルを成功させた要因の1つに“Transformer”と呼ばれる言語モデルの登場がある。Transformerは、必要な情報を取り出す「注意機構」と、長期的な記憶から情報を探索する「MLPブロック」によって構成されるのだが、この“Transformer”の場合は、大規模化することで、どこまで性能が上がるかがクリアにわかるようになった。それが「べき乗則」と呼ばれるものである。そして、さらに予想外のことも起こっているという。いったいどういうことなのか。Transformerモデルの画期性とともにその詳細を解説する。（全6話中第5話）
※インタビュアー：川上達史（テンミニッツTV編集長）

時間：08:39
収録日：2024/04/16
追加日：2024/08/06

カテゴリー：

キーワード：

≪全文≫

●自己注意機構とMLPブロックで構成される“Transformer”モデル

――　次にTransformerというところですね。

岡野原　そうですね。このTransformerが、今（第5話で）説明した「注意機構」と、もう1つ、記憶の主翼を担っている「MLPブロック」と呼ばれるモデルで構成されています。ちなみにこのTransformerがある種、今の大規模言語モデルを成功させた主要因の1つだといわれています。

　このTransformerも、「注意」のしくみを元にすると簡単な話で、中身は2つからなっています。

　1つは説明した「注意」、どこから情報を持ってくるのかという部分です。では「注意」でどこから情報を持ってきますかというと、前のときの、どこかの自分の処理の途中結果を取ってくるのです。これがたくさんあって、自分の処理の途中結果を集めてくる。例えば、「彼」というところにあるブロックの周りから、この「彼」というところに情報を集めてくる。（つまり）「彼」に関する情報を集めてくるのです。

　次に、「彼」に溜まっている情報と別の場所の単語を「この情報、自分がほしいから取ってください」というように、「自己注意機構」でどんどん情報を行き来させる。これが1つです。

　もう1つ、この（スライドの）右側の「MLPブロック」というのは何を実現しているかというと、長期記憶です。今見ている文章ではない、過去に読んだ文章でも、たくさん役に立つ情報はもちろんあるわけです。例えば、「病院というのはこういう機能を持っていますよ」だとか、「こういう人が行きやすいですね」だとか、そういう情報がものすごく大量に詰まっているのです。

　Transformerは、この2つが、たくさん組み合わさってできているモデルになっている。次の単語を予測するために、「自己注意機構」で周りからどんどん必要な情報を集めてくる。さらには、今の文章ではない、昔読んだ文章からもどんどん情報を持ってこなければいけないということで、「MLPブロック」からも情報を集める。これが100層とか、何回も処理されて、ここまでやってようやく1つの単語を予測するというモデルになっています。

――　なるほど。今のお話を聞いていると、たしかに「理解」というものにだいぶ近くなっている気がしますね。

岡野原　そうですね。なので、1個1個がやっていること自体は、ものすごく単純な...

テキスト全文を読む
（72時間無料で登録）

会員登録すると資料をご覧いただくことができます。