テンミニッツ・アカデミーは、有識者の生の声を10分間で伝える新しい教養動画メディアです。

すでにご登録済みの方はこちら

「マルチモーダル」とは？最新の生成AI技術を疑似体験

生成AI「Round 2」への向き合い方（3）「マルチモーダル」な生成AI

渡辺宣彦

日本マイクロソフト株式会社　執行役員常務エンタープライズ事業本部長

概要・テキスト

生成AIモデルにおいて先頭を走るのがChatGPTだが、そのChatGPTを提供しているOpenAIは、歩みを止めずに生成AIのさまざまな最新モデルを開発している。テキストの他に画像や音声も同時に処理する「マルチモーダル」な最新の生成AI技術を、実演動画をまじえて紹介する。（全10話中第3話）
※インタビュアー：川上達史（テンミニッツTV編集長）

時間：10:35
収録日：2024/11/05
追加日：2025/01/07

カテゴリー：

≪全文≫

●テキスト以外も処理する「マルチモーダル」な生成AI

渡辺　そういえば（生成AIに関する動きが）どこから始まったかというと、ChatGPTというのがけっこう大きな存在だったのではないかと思います。そのChatGPTを提供しているのはOpenAIという組織、企業です。そこに対してはマイクロソフトがかなり大きな投資を行っており、パートナーとして行動しています。ここ（スライド）では「Best Friends」と書いていますが、OpenAIは、ただ独立している企業、組織ですので、独自の日本法人も日本で作られましたし、その果たすべき使命のためにどんどん行動しています。

　2023年からの大きな変化という意味では、こちらにGPT-4、3.5-Turboとたくさん並んでいますけれど、最近、OpenAIが提供しているモデルと呼ばれます。2023年のお話の段階では「LLM（Large Language Model：大規模言語モデル）ですよ」という言い方をしたかと思うのですが、最近は「マルチモーダル」ということが非常に重要なものになっています。

――　それはどういう意味なのですか。

渡辺　マルチモーダルの意味は、間違いのないように、念のためCopilotに訊いてみました。例えばテキストベースの言葉だけではなくて、話し言葉であったり、それから画像であったりといったような、異なる要素を同時に取り扱うようなことができるようなAIだということが、マルチモーダルの持っている意味だそうです。

――　なるほど。そうすると、テキストベースだけではないということになるわけですか。

渡辺　ないのです。それが非常に高速に提供されるというのがマルチモーダルの意味合いになってきます。

――　はい。

渡辺　実際どんなことなのか、体感していただきたいので次に進みます。

　例えばこういうことなのです。これは「Azure AI Speech」ということで、人工的に合成している声だと思っていただければいいと思います。「Custom Neural Voice」といいますけれど、当社のCEOサティアがスピーチをしているので、それを聞いてみようと思います。

＜サティア・ナデラのスピーチ（英語）＞

渡辺　インドにおけるスキリングの話をしています。日本だけではなくて、インドでもやっているということなのだと思うのです。

――　これは本人の声ですよね...

テキスト全文を読む
（72時間無料で登録）

会員登録すると資料をご覧いただくことができます。