機械学習とは何なのか。AIはどのように「理解をしている」のか。近年の著しい進歩により、ますます身近な存在になっている生成AIだが、それがどのようなメカニズムでさまざまなデータを出力しているのかを知る機会は少ない。そういった、私たちの素朴な疑問を通じて、生成AIへの理解を深めるとともに、生成AIの1つの代表的なモデルである「大規模言語モデル」についての知識を広げよう。(全6話中第2話)
※インタビュアー:川上達史(テンミニッツTV編集長)
生成AI・大規模言語モデルのしくみ
常識を初めて知った!?生成AIの大規模言語モデルとは
生成AI・大規模言語モデルのしくみ(2)機械学習と大規模言語モデル
科学と技術
岡野原大輔(株式会社Preferred Networks 共同創業者、代表取締役 最高研究責任者)
時間:11分33秒
収録日:2024年4月16日
追加日:2024年7月16日
収録日:2024年4月16日
追加日:2024年7月16日
カテゴリー:
≪全文≫
●膨大なパラメータを使って出力を調整する
―― 機械学習という話も、だいぶ聞く言葉にはなってきたのですけれど、実際それがどう学習しているのかというところが、たぶん多くの方にとっては分からないところだと思うのです。機械というのはどうやって学習するものなのですか。
岡野原 私の本の中でも書いた例で説明しますと、その機械は、AIといっても、結局はたくさんのパラメータがあるようなシステムになっています。例えば、大きいシンセサイザーがあって、シンセサイザーにいろいろなつまみがある。それぞれのつまみを少しずつ変えると、出てくる音が少し変わる。少しずつ変えると、入れた入力に対して出力が変わると。
機械学習がやっているのは、結局はこのパラメータの数がものすごくたくさんあるようなことで、何か入力を入れたら出力が出るような関数になっています。
例えば、先ほど(第1話)の犬猫分類の例でいいますと、最初に画像を入れたら、何に分類するのかがほぼランダムに決まるというようなモデルがあって、そのシステムに対して、「今『犬』と言ったけれど、本当は『猫』だよ」と、間違えたときに、次から間違えないように「犬ではなく猫」と出せるようにパラメータを変えましょうと。そのパラメータをどうやって変えたら次から同じデータに対して犬と間違えずに猫を出せるかという技術が進んでいまして、機械学習にはそのパラメータの変え方がある(ということ)です。
たくさんデータを見せて、この場合は犬です、この場合は猫です、というのを見せていくと、どんどんパラメータの調整が進んでいって、究極的には、見たことがない、いろいろなデータに対しても、犬とか猫とか、ちゃんとそういったものが正しく出せるようになるのです。
これは、小さい規模だと想像しにくく、そこまでできるのかという話なのですけれど、実際に今、生成AI、例えば大規模言語モデルで使われているようなものですと、つまみの数、(つまり)パラメータ数というのはだいたい数千億から1兆といった、ものすごい数、人の想像も及ばないような数になっています。それらのパラメータを調整することによって、入力に対してどういう生成をするのかということが、外から見ると非常に賢くやっているように見えるものができています。
―― なるほど。
●膨大なパラメータを使って出力を調整する
―― 機械学習という話も、だいぶ聞く言葉にはなってきたのですけれど、実際それがどう学習しているのかというところが、たぶん多くの方にとっては分からないところだと思うのです。機械というのはどうやって学習するものなのですか。
岡野原 私の本の中でも書いた例で説明しますと、その機械は、AIといっても、結局はたくさんのパラメータがあるようなシステムになっています。例えば、大きいシンセサイザーがあって、シンセサイザーにいろいろなつまみがある。それぞれのつまみを少しずつ変えると、出てくる音が少し変わる。少しずつ変えると、入れた入力に対して出力が変わると。
機械学習がやっているのは、結局はこのパラメータの数がものすごくたくさんあるようなことで、何か入力を入れたら出力が出るような関数になっています。
例えば、先ほど(第1話)の犬猫分類の例でいいますと、最初に画像を入れたら、何に分類するのかがほぼランダムに決まるというようなモデルがあって、そのシステムに対して、「今『犬』と言ったけれど、本当は『猫』だよ」と、間違えたときに、次から間違えないように「犬ではなく猫」と出せるようにパラメータを変えましょうと。そのパラメータをどうやって変えたら次から同じデータに対して犬と間違えずに猫を出せるかという技術が進んでいまして、機械学習にはそのパラメータの変え方がある(ということ)です。
たくさんデータを見せて、この場合は犬です、この場合は猫です、というのを見せていくと、どんどんパラメータの調整が進んでいって、究極的には、見たことがない、いろいろなデータに対しても、犬とか猫とか、ちゃんとそういったものが正しく出せるようになるのです。
これは、小さい規模だと想像しにくく、そこまでできるのかという話なのですけれど、実際に今、生成AI、例えば大規模言語モデルで使われているようなものですと、つまみの数、(つまり)パラメータ数というのはだいたい数千億から1兆といった、ものすごい数、人の想像も及ばないような数になっています。それらのパラメータを調整することによって、入力に対してどういう生成をするのかということが、外から見ると非常に賢くやっているように見えるものができています。
―― なるほど。
●常識を初めて学習、演繹的アプローチを実装した大規模...
「科学と技術」でまず見るべき講義シリーズ
MLBのスーパースターも一代限り…生物学から迫る性の実態
長谷川眞理子
人気の講義ランキングTOP10
ヒトは共同保育の動物――生物学からみた子育ての基礎知識
長谷川眞理子