【マルチモーダルAIとは】身近な事例から見る活用方法や今後の展望を解説！ | V-DETAIL

内容	シングルモーダルAI	マルチモーダルAI
情報入力の種類	単一のモーダルのみを使用する（テキスト、音声、画像など）	複数のモーダルを組み合わせる（テキスト、音声、画像など）
処理手法と応用分野	単一のモーダルに特化した処理を行う。応用分野は単一のモーダルに関連するものが主	複数のモーダルの相互作用や相関関係を理解できる。応用分野は多岐にわたる
データの統合と相互補完	単一のモーダルのみを使用するため、相互補完や表現の多様性は制約される可能性がある	複数のモーダルを組み合わせることで相互補完や豊かな表現が可能

現在の主流のAIは、テキスト・音声など単一のデータ形式に特化した領域での学習であるシングルモーダルAIです。しかし、シングルモーダルはAIの適用領域が限定的になってしまいます。

一方、大手IT企業が自然言語処理と画像認識のマルチモーダルAIを開発しており、生成AIへの搭載が活況を呈しています。日本でも多くの企業で開発が進められ、今後よりマルチモーダルAIは身近な存在となるでしょう。

｜マルチモーダルAIの歴史

マルチモーダルAIとして研究が始まったのは1980年代半ばとされています。

その頃には、機械学習が注目を浴びるようになり、データから直接学習できるようになりました。

主流はシングルモーダルAIでしたが、マルチモーダルAIの可能性が初めて理論的に探求されいくつかの研究も生まれています。当時の具体的な研究には、唇の動きの動画をテキストに変換するものなどがありました。

2000年以降には、ディープラーニングがAIの手法として登場し能力が大幅に向上しました。画像とテキストの処理能力が大幅に進化したため、組み合わせたマルチモーダルAIが可能となり具体的な応用も考えられるようになります。

2013年には、テキストと人間の顔の表情を認識する組み合わせの実現を目指した研究が進められました。テキストの入力で喜怒哀楽のさまざまな表情ができるよう研究が進められ、画面上のアバターの顔がテキストに応じて表現を作って話せるようになり、より人間に近づけるようなAIが登場しています。

2022年後半から大きな話題となっている多くの「生成AI」もマルチモーダルAIを使っています。

今後さらに複数の組み合わせによるマルチモーダルAIが登場するでしょう。

｜マルチモーダルAIにできること

マルチモーダルAIにできることを、事例をいくつかご紹介しながら解説していきます。

｜画像とテキストの組み合わせ

OpenAI社が提供するChatGPTに搭載されている最新版の生成AI「GPT-4」は、画像データとテキストデータの組み合わせに対応できるマルチモーダルAIです。

たとえば、画像と質問文（テキスト）を入力すると、GPT-4が質問に対する回答文を自動で生成します。また、GPT-4のリリースを発表した際のデモ動画で同社は、手書きのメモ（画像）とテキストを基に、GPT-4がWebサイト構築のためのコードを生成する様子も公開しています。

同じくOpenAI社が2022年4月に発表した生成AI「DALL·E 2」では、言語による指示をもとに、内容に沿った画像やイラストを生み出します。

｜行動認識

画像情報、音声情報、動作情報などを同時に処理できるマルチモーダルAIは、行動認識にも活用されています。

具体的には、防犯用の監視カメラなどに搭載されることで、犯罪やトラブルの早期発見や未然防止に役立っています。

たとえば、ロビーの一角に3人の人物が集まっていたとします。従来の監視カメラのように画像情報または動作情報だけでこの状況を捉えても、特に問題は見当たりません。しかし、音声情報が合わさることで、「大声で怒鳴り合っている」という状況が発覚するかもしれません。

このような場合、監視システムにマルチモーダルAIが搭載されていれば、3人の行動を総合的に認識・分析して危険を察知し、警備室のアラームを鳴らすなどトラブル防止に向けた対策をとることができます。

｜異常検知

工場などの製造現場では、生産設備や製品の異常検知にマルチモーダルAIが活用されています。

生産設備に設置された複数のセンサーで、振動・温度・湿度などを計測し、それらのセンサーデータと画像データ、音声データなどを組み合わせることで、機械の異音や磨耗、異物混入などをいち早く発見します。

マルチモーダルAIによる高精度な異常検知は、生産設備のメンテナンス、ひいては作業員の安全確保、製品の品質向上にもつながるでしょう。

｜自動運転

マルチモーダルAIの典型例の1つとして、自動運転もあります。

人間が自動車を運転する際、周囲の車や人・障害物・標識・信号を認識し、急な飛び出しなどの危険を予測し、交通状況や規制に応じたスピード調整や車間距離の調整などを行っています。これらは、人間が五感を駆使して瞬時に行っている認知・分析・判断です。

自動運転では、複数のカメラや音を拾うマイク、ミリ波センサー、加速度センサー、GPSなどで集めた様々な情報を基に、マルチモーダルAIが人間の五感のような機能を発揮して、総合的な処理を行います。

自動運転技術は日々進化しており、すでに国内でも、マルチモーダルAIを搭載した自動運転車が一定の条件のもと公道を走行しています。

交通の分野では、MaaSにもマルチモーダルAIの活用が始まっています。

トヨタ自動車とJR西日本が福岡県福岡市で実証実験を開始したアプリ「my route」は、対象エリアの移動手段をすべて組み合わせて検索できる「マルチモーダルルート検索」が実装されています。

検索対象には地下鉄・バスといった公共交通を始め、タクシー、レンタカー、自家用車、徒歩などすべての移動ルートの選択を提示します。そして、AIによる最適経路選択にて掲示されたルートは、同アプリ内で予約・決済まで可能です。

実証実験の後、2019年に福岡市と北九州市で本格導入されました。その際には、トヨタのレンタカーやカーシェア、京王電鉄バス、第一交通産業などが連携したほか、トヨタのキャッシュレス決済アプリ「TOYOTA Wallet」も導入されて決済手段が拡充しました。現在は、新幹線の予約や高速バスの予約決済まで検索、予約できます。

｜産業用ロボット

マルチモーダルAIを搭載した産業用ロボットも登場しています。

株式会社デンソーウェーブは「2017国際ロボット展」にて、ベッコフオートメーション株式会社、株式会社エクサウィザーズと共同開発したマルチモーダルAIロボットを発表しました。

このロボットには、360度撮影できる全天球カメラと複数のセンサーが搭載されており、これらを通じて画像・角度・速度・触覚といった複数種類の情報がインプットされます。

マルチモーダルAIは、これらの情報を総合的に処理してロボットアームを作動させます。

2本のロボットアームには人間の手のような多指ハンドが装着されており、タオルを折りたたんだり、サラダを盛り付けたりといった繊細な作業を学習して行うことができます。

｜マルチモーダルAIの特徴

マルチモーダルAIの特徴として、主に下記の3つが挙げられます。

― AIの精度向上

― 人間に近い判断ができる

― 高技能をスムーズに習得できる

それぞれについて、詳しく見ていきましょう。

｜AIの精度向上

マルチモーダルAIは、テキスト・画像・動画・音声など、複数種類のデータを同時に処理します。

その結果、量・質ともに豊富な情報がインプットされ、並行してディープラーニングによる絶え間ない学習が重ねられるため、その精度はシングルモーダルAIに比べて格段に高まります。

｜人間に近い判断ができる

画像データ、音声データ、センサーで感知したデータなど、様々な種類のデータを同時進行で処理できるマルチモーダルAIの機能は、人間が視覚、聴覚、触覚など五感を使って認知・判断する能力に似ています。

このように、シングルモーダルAIと比べてより人間に近い判断ができるようになったことも、マルチモーダルAIの特徴と言えるでしょう。

｜高技能をスムーズに習得できる

マルチモーダルAIは、人間の五感と同様に様々な情報を同時に取り込み、瞬時に処理できるため、直感的な作業を習得しやすいAIと言えます。

さらに、学習した動作をディープラーニングによって応用したり、次の動きを予測したりすることで、熟練した技能の獲得も可能です。

このように、高技能をスムーズに習得できる点も、マルチモーダルAIの強みです。

｜マルチモーダルAIの活用事例

ここでは、マルチモーダルAIをビジネスに活用している事例を5つご紹介します。

｜電子カルテとAIの融合による医療ビッグデータの多角的活用

日本電気株式会社（NEC）と理化学研究所、日本医科大学は、医療分野での電子カルテとAIの融合の研究を進めています。さまざまな医療ビッグデータを統合的に解析するマルチモーダルAIを構築しました。

日本人男性が罹患する最も多いがんの一つ前立腺がんを対象とした研究で、病気の早期発見や治療計画の最適化を可能とします。また、医療費の削減や医療従事者の負荷の軽減が期待されています。

このAIシステムでは、複数種類の検査データから病気の状態や経過を統合的かつ多角的に判断や予測ができます。

電子カルテのデータや、がんの組織画像などを用いてマルチモーダルAIが解析したところ、手術後から再発までの年数によりAIが捉えた予測因子のパターンに違いが見られたそうです。既存手法と比べ、再発予測の精度を約10%向上させられました。

データの組み合わせにより、治療計画の最適化や早期発見が可能となり、効率的な医療提供の実現に向け一歩を踏み出しました。

参考：NEC 、理化学研究所、日本医科大学、電子カルテとAI技術を融合し医療ビッグデータを多角的に解析

｜国産LLMの開発で完全自動運転の実現

自動運転スタートアップのTuring株式会社は、あらゆる場所での自動走行が可能でハンドルの必要がない完全自動運転システムのレベル5自動運転の開発を2029年までの実現を目指し、技術の調査や検証を行っています。

自動運転の研究は世界的に活発に行われており、中心にはマルチモーダルAIが位置付けられています。

人間が運転する時には、人やモノの位置・交通標識・気温やエンジン音などから状況把握して予測し、あらゆる判断や処理を同時に行っています。画像による運転システムの開発だけでなく、乗客とのコミュニケーションや救急車や踏切の警笛音など、音声や自然言語の入力も含めた自然言語処理の研究が進められています。そのためには、高度なLLM（大規模言語モデル）開発が欠かせません。

レベル5の自動運転には、以下4つの機能を獲得するための学習が必要であると考えられています。

― 解釈

― 想像

― 決断

― 交渉

上記を学習する有力な方法がマルチモーダル学習であり、カメラを中心とした画像による運転システムの開発だけでなく、音声や自然言語の入力も含めて自然言語処理の研究が進められています。そのためには、高度なLLM開発が欠かせません。

参考：自動運転EV開発のチューリング、自動運転のための国産LLM（大規模言語モデル）開発に着手

｜AIによる防犯カメラモニタリング

株式会社NTTデータでは、防犯やセキュリティ分野において映像のみに限らず音などの別の情報を取り入れた高度な判断を可能としたマルチモーダルAIの開発に取り組んでいます。

顧客へのヒアリングを通して、映像分析だけでは原理的に検出できない迷惑行為も存在することがわかったのが取り組みのきっかけです。

大規模施設での防犯カメラのモニタリングは人手による作業は困難であるため、AIによる映像解析の支援が求められます。従来の映像解析AIは入力データが映像のみに限定されたものが一般的でした。しかし、ビルエントランス内での迷惑行為の検出において、映像分析のみのAIでは大声でたむろしているといった行為を適切に検出できません。

マルチモーダルAIで映像と音を組み合わせて分析できれば、このような行為も適切に検出可能です。マルチモーダルAIの活用で、監視業務の効率化や防犯・セキュリティの高度化が期待できます。

｜画像と文章を融合させた生成AI

OpenAI社は、テキストに加え画像の意味も理解できるマルチモーダル基盤モデル「GPT-4」を発表しました。

画像認識、文章分類の生成などを行う従来の生成系AIでは、生成物はシステムごとに画像と文章で分けられているのが普通でした。しかし、画像と文章を融合させたマルチモーダルの生成AIの開発が急速に進歩しています。

画像認識と自然言語処理の技術を融合させたマルチモーダルAIの技術により、テキストから画像、画像からテキストといった双方での理解や生成が可能となりました。たとえば、入力された画像の内容を理解し、ジョークや台本を出力することもできます。

GPT-4を基盤にしている「ChatGPT」においても、Advanced Data Analysis（旧：Code Interpreter）で行うデータ解析結果をグラフやフローチャートなどの視覚データとして出力できるようになっています。

｜ホームロボットへの活用

米Amazon.comでは家庭用ロボット「Astro」を販売しており、警備や見守りの機能を重点においてサービスを展開しています。機能のアップデートを重ねていき、マルチモーダルAIに対応しました。

Astroは周囲環境を認識するために複数種類のセンサーを搭載しています。センサーから得られた様々なデータを通じて、対象物がどのような状態にあるか学習できます。

また、周囲環境の認識、障害物の検知などのためにセンサーを複数搭載しており、各部屋の対象物をカメラで捉えながら、その対象物に関する説明を聞くプロセスを通じて、対象物がどのようなものであるか、どんな状況にあるか学習できます。

Astroはユーザーが確認したい項目を学習して、異常があったら適切に通知できる機能を提供しています。たとえば、どのドアが玄関のドアであるか、どの窓が寝室の窓であるかを学習します。また、それらが開いているか閉まっているかといった現在の状態を認識します。

もし、閉めてはいけないドアが閉まっていたらアラートを出すといったことが可能です。

Astroが認識できていない情報に対しては、ユーザーからのフィードバックを通じて学習を深めていき、認識精度を高める能力も備えています。

｜マルチモーダルAIの今後の展望

マルチモーダルAIの精度は日々向上しており、活用場面も広がっています。今後はどのような分野で活用されるのか、期待の高まっている分野を5つご紹介します。

｜医療分野

医療分野では、診断の精度向上や病気予測への活用が見込まれています。

1人の患者にまつわるデータは、X線画像や超音波画像、患部を撮影した画像から、心音データ、検査結果、問診票やカルテに記載されたテキストデータまで、様々な種類のデータがあります。

マルチモーダルAIを使ってこれらのデータと過去の膨大なデータとを照合すれば、熟練した医師あるいはそれ以上の正確さで病気を発見したり、予測したりできると期待されています。

｜製造分野

工場などの製造現場ではすでに、マルチモーダルAIが異常検知システムとして役立っています。

また、マルチモーダルAIを搭載した産業用ロボットの研究・開発も急速で進められています。

今後は、異常検知や検品作業にとどまらず、部品の研磨作業や弁当の盛り付けといった繊細な作業から、従業員の勤怠管理やシフト管理といった管理業務まで、製造分野における幅広い業務にマルチモーダルAIが活用されることが見込まれます。

｜コミュニケーション

マルチモーダルAIの研究においては、長らく、画像データと音声データから感情を認識する研究が進められてきました。

今後、ディープラーニングによって一層精度が向上すれば、会話相手の表情や声から総合的に判断して感情を認識し、複雑な会話や状況に応じた自然なコミュニケーションができるようになると予想されています。

国内では自動運転の車内の見守りシステムに採用されている例もあり、今後は介護施設の利用者の話し相手や企業の受付・案内への応用が見込まれています。

｜マーケティング

マーケティング分野での活用可能性も広がっています。

マーケティングでは、3C・4C分析、5フォース分析、PEST分析、SWOT分析など、様々な分析手法が用いられています。また、分析対象も、自社・競合他社・自社製品・競合製品・顧客・社会・流通など、多岐にわたります。

マルチモーダルAIは、多種多様かつ膨大なデータを瞬時に処理できるため、人間では不可能なスピードでマーケティングに役立つ分析をリアルタイムに実行できます。

加えて、売り上げなどの定量的なデータのみならず、店舗に設置されたカメラの映像や音声から、顧客の表情や会話などの定性的なデータも総合的に分析・評価できる可能性も秘めています。

｜エンターテイメント

マルチモーダルAIは、画像データとテキストデータの指示に基づき新たな画像を生成したり、複数の画像データを組み合わせて新たな画像を生み出したりできます。

こうした技術を使って作られた画像や動画のなかには、アート作品として評価されているものも登場しています。

今後は、画像や動画、音楽、テキストなどのデータを基にゲームや映画を制作するなど、エンターテインメント作品におけるマルチモーダルAIの活用にも期待がかかっています。

｜まとめ

ディープラーニングによって、テキストや画像だけを処理していたシングルモーダルAIから、テキストと画像などを同時に処理できるマルチモーダルAIへと進化を遂げています。

昨今、話題となっている多くの生成AIもマルチモーダルAIを活用しています。

マルチモーダルAIの精度はますます向上していき、日常生活からビジネスに至るまで、様々な場面でより広く活用されることでしょう。

記事一覧→

目次