テンミニッツTV|有識者による1話10分のオンライン講義
会員登録 テンミニッツTVとは
テンミニッツTVは、有識者の生の声を10分間で伝える新しい教養動画メディアです。
すでにご登録済みの方は
Facebookでシェア Xでポスト このエントリーをはてなブックマークに追加

「マルチモーダル」とは?最新の生成AI技術を疑似体験

生成AI「Round 2」への向き合い方(3)「マルチモーダル」な生成AI

渡辺宣彦
日本マイクロソフト株式会社 執行役員常務 エンタープライズ事業本部長
概要・テキスト
生成AIモデルにおいて先頭を走るのがChatGPTだが、そのChatGPTを提供しているOpenAIは、歩みを止めずに生成AIのさまざまな最新モデルを開発している。テキストの他に画像や音声も同時に処理する「マルチモーダル」な最新の生成AI技術を、実演動画をまじえて紹介する。(全10話中第3話)
※インタビュアー:川上達史(テンミニッツTV編集長)
時間:10:35
収録日:2024/11/05
追加日:2025/01/07
≪全文≫

●テキスト以外も処理する「マルチモーダル」な生成AI


渡辺 そういえば(生成AIに関する動きが)どこから始まったかというと、ChatGPTというのがけっこう大きな存在だったのではないかと思います。そのChatGPTを提供しているのはOpenAIという組織、企業です。そこに対してはマイクロソフトがかなり大きな投資を行っており、パートナーとして行動しています。ここ(スライド)では「Best Friends」と書いていますが、OpenAIは、ただ独立している企業、組織ですので、独自の日本法人も日本で作られましたし、その果たすべき使命のためにどんどん行動しています。

 2023年からの大きな変化という意味では、こちらにGPT-4、3.5-Turboとたくさん並んでいますけれど、最近、OpenAIが提供しているモデルと呼ばれます。2023年のお話の段階では「LLM(Large Language Model:大規模言語モデル)ですよ」という言い方をしたかと思うのですが、最近は「マルチモーダル」ということが非常に重要なものになっています。

―― それはどういう意味なのですか。

渡辺 マルチモーダルの意味は、間違いのないように、念のためCopilotに訊いてみました。例えばテキストベースの言葉だけではなくて、話し言葉であったり、それから画像であったりといったような、異なる要素を同時に取り扱うようなことができるようなAIだということが、マルチモーダルの持っている意味だそうです。

―― なるほど。そうすると、テキストベースだけではないということになるわけですか。

渡辺 ないのです。それが非常に高速に提供されるというのがマルチモーダルの意味合いになってきます。

―― はい。

渡辺 実際どんなことなのか、体感していただきたいので次に進みます。

 例えばこういうことなのです。これは「Azure AI Speech」ということで、人工的に合成している声だと思っていただければいいと思います。「Custom Neural Voice」といいますけれど、当社のCEOサティアがスピーチをしているので、それを聞いてみようと思います。

<サティア・ナデラのスピーチ(英語)>

渡辺 インドにおけるスキリングの話をしています。日本だけではなくて、インドでもやっているということなのだと思うのです。

―― これは本人の声ですよね...
テキスト全文を読む
(1カ月無料で登録)
会員登録すると資料をご覧いただくことができます。