●テキスト以外も処理する「マルチモーダル」な生成AI
渡辺 そういえば(生成AIに関する動きが)どこから始まったかというと、ChatGPTというのがけっこう大きな存在だったのではないかと思います。そのChatGPTを提供しているのはOpenAIという組織、企業です。そこに対してはマイクロソフトがかなり大きな投資を行っており、パートナーとして行動しています。ここ(スライド)では「Best Friends」と書いていますが、OpenAIは、ただ独立している企業、組織ですので、独自の日本法人も日本で作られましたし、その果たすべき使命のためにどんどん行動しています。
2023年からの大きな変化という意味では、こちらにGPT-4、3.5-Turboとたくさん並んでいますけれど、最近、OpenAIが提供しているモデルと呼ばれます。2023年のお話の段階では「LLM(Large Language Model:大規模言語モデル)ですよ」という言い方をしたかと思うのですが、最近は「マルチモーダル」ということが非常に重要なものになっています。
―― それはどういう意味なのですか。
渡辺 マルチモーダルの意味は、間違いのないように、念のためCopilotに訊いてみました。例えばテキストベースの言葉だけではなくて、話し言葉であったり、それから画像であったりといったような、異なる要素を同時に取り扱うようなことができるようなAIだということが、マルチモーダルの持っている意味だそうです。
―― なるほど。そうすると、テキストベースだけではないということになるわけですか。
渡辺 ないのです。それが非常に高速に提供されるというのがマルチモーダルの意味合いになってきます。
―― はい。
渡辺 実際どんなことなのか、体感していただきたいので次に進みます。
例えばこういうことなのです。これは「Azure AI Speech」ということで、人工的に合成している声だと思っていただければいいと思います。「Custom Neural Voice」といいますけれど、当社のCEOサティアがスピーチをしているので、それを聞いてみようと思います。
<サティア・ナデラのスピーチ(英語)>
渡辺 インドにおけるスキリングの話をしています。日本だけではなくて、インドでもやっているということなのだと思うのです。
―― これは本人の声ですよね...