マルチモーダルAIとは?意味から身近な事例、ビジネスでの活用事例を詳しく紹介
最終更新日:2024年11月10日
AI(人工知能)の研究が急速に進められ、多くの業界で活用されるようになりました。中でも最近注目を集めているのが、自動運転や生成AI(ジェネレーティブAI)など最新の技術に使われている「マルチモーダルAI」です。
マルチモーダルとはテキストや画像、動画など複数の種類のデータを一度に処理できる技術を指します。複数の種類のデータを同時処理して複雑なタスクを解析できるのがマルチモーダルAIです。
2022年後半から急速にユーザー数を伸ばしたOpenAI社のChatGPTも、従来はテキストのみの入出力に対応するシングルモーダルのLLM(大規模言語モデル)でしたが、画像や動画をアップロードして分析にかけたり、画像や動画を出力したりするなどマルチモーダル化が進んでいます。
Googleが2023年12月に発表したLLMであるGeminiもマルチモーダルAIとなっており、画像認識が可能です。他にも、xAIの提供するGrokは画像生成が可能となっているなど、多くのLLMがテキストだけでなく、画像を認識したり、出力できるようになってきています。
こちらでChatGPTの基本的な仕組み、活用事例を詳しく説明しています。
本記事ではマルチモーダルAIについて詳しく解説し、実際のビジネスで活用されている事例を7つ紹介します。
AI Marketでは、
マルチモーダルAIとは?
マルチモーダルAIとは、テキスト・画像・音声・動画など複数の種類のデータを一度に処理できるAIの技術のことです。マルチモーダルという用語はマルチ=複数、モーダル=形式や手段を合わせた用語で、複数の形式や手段を組み合わせることを意味します。
マルチモーダルAIは、さまざまな種類の情報を利用して高度な判断ができるため、一般的なAIでは対応できないようなタスク処理が可能と期待されています。人間の脳の働きにより近い、さまざまな異なる種類の情報(モーダル)を同時処理して解析できるAIです。
シングルモーダルからマルチモーダルへ
現在の主流のAIは、テキスト、音声など単一のデータ形式に特化した領域での学習であるシングルモーダルAIです。シングルモーダルはAIの適用領域が限定的になってしまいます。
大手IT企業が自然言語処理と画像認識のマルチモーダルAIを開発しており、生成AIへの搭載が活況を呈しています。日本でも多くの企業で開発が進められ、今後よりマルチモーダルAIは身近な存在となるでしょう。
生成AI(ジェネレーティブAI)とは?詳しく説明していますので併せてご覧ください。
マルチモーダルAIの歴史
マルチモーダルAIとして研究が始まったのは1980年代半ばとされています。その頃には機械学習が注目を浴びるようになり、データから直接学習できるようになりました。
主流はシングルモーダルAIでしたが、マルチモーダルAIの可能性が初めて理論的に探求されいくつかの研究も生まれています。当時の具体的な研究には唇の動きの動画をテキストに変換するものなどがありました。
2000年以降には、ディープラーニングがAIの手法として登場し能力が大幅に向上しました。画像とテキストの処理能力が大幅に進化したため、組み合わせたマルチモーダルAIが可能となり具体的な応用も考えられるようになります。
2013年にはテキストと人間の顔の表情を認識する組み合わせの実現を目指した研究が進められました。テキストの入力で喜怒哀楽のさまざまな表情ができるよう研究が進められ、画面上のアバターの顔がテキストに応じて表現を作って話せるようになり、より人間に近づけるようなAIが登場しています。
2022年後半から大きな話題となっている多くのジェネレーティブAI(生成AI)もマルチモーダルAIを使っています。特に、テキストと画像を統合的に扱うVLMは、既に多くの産業分野で活用されています。
関連記事:「VLMとは?画像とテキストを統合処理する仕組み・メリット・デメリット・活用分野を徹底紹介!」
今後さらに複数の組み合わせによるマルチモーダルAIが登場するでしょう。
代表的なマルチモーダルAIモデル一覧
名称 | 開発元 | 特徴 |
---|---|---|
CLIP | OpenAI |
|
LLaVA | Microsoft, UC Davis |
|
Gemini | Google DeepMind |
|
GPT-4V | OpenAI |
|
DALL・E | OpenAI |
|
AI Marketでは、
マルチモーダルAIの活用事例7選
マルチモーダルAIをビジネスに活用している事例を7つ紹介します。
電子カルテとAIの融合による医療ビッグデータの多角的活用(NEC・理化学研究所・日本医科大学)
日本電気株式会社(NEC)と理化学研究所、日本医科大学は、医療分野での電子カルテとAIの融合の研究を進めています。さまざまな医療ビッグデータを統合的に解析するマルチモーダルAIを構築しました。
日本人男性が罹患する最も多いがんの一つ前立腺がんを対象とした研究で、病気の早期発見や治療計画の最適化を可能とします。また、医療費の削減や医療従事者の負荷の軽減が期待されています。
このAIシステムでは、複数種類の検査データから病気の状態や経過を統合的かつ多角的に判断や予測ができます。電子カルテのデータや、がんの組織画像などを用いてマルチモーダルAIが解析したところ、手術後から再発までの年数によりAIが捉えた予測因子のパターンに違いが見られたということです。既存手法と比べ、再発予測の精度を約10%向上させられました。
データの組み合わせにより、治療計画の最適化や早期発見が可能となり、効率的な医療提供の実現に向け一歩を踏み出しました。
こちらでマルチモーダル以外の医療業界でのAI活用事例を詳しく説明しています。
国産LLMの開発で完全自動運転の実現へ(Turing)
自動運転スタートアップのTuring株式会社は、あらゆる場所での自動走行が可能でハンドルの必要がない完全自動運転システムのレベル5自動運転の開発を2029年までの実現を目指し、技術の調査や検証をおこなっています。
自動運転の研究は世界的に活発におこなわれており、中心にはマルチモーダルAIが位置付けられています。人間が運転するときには、人やモノの位置、交通標識、気温やエンジン音などから状況把握して予測し、あらゆる判断や処理を同時におこなっています。
画像による運転システムの開発だけでなく、乗客とのコミュニケーションや救急車や踏切の警笛音など、音声や自然言語の入力も含めた自然言語処理の研究が進められています。そのためには、高度なLLM(大規模言語モデル)開発が欠かせません。
LLMとは?どんな仕組み?こちらの記事で詳しく説明していますので併せてご覧ください。
あらゆる場所での自動走行が可能でハンドルの必要がないレベル5での自動運転の実現の鍵はAIの進歩にかかっていると考えられており、マルチモーダル学習や強化学習などが必要です。
レベル5の自動運転には、以下4つの機能を獲得するための学習が必要であると考えられています。
- 「解釈」
- 「想像」
- 「決断」
- 「交渉」
上記を学習する有力な方法がマルチモーダル学習であり、カメラを中心とした画像による運転システムの開発だけでなく、音声や自然言語の入力も含めて自然言語処理の研究が進められています。そのためには、高度なLLM開発が欠かせません。
こちらで自動運転で不可欠なAI技術事例を詳しく説明しています。
AIによる防犯カメラモニタリング(NTTデータ)
株式会社NTTデータでは、防犯やセキュリティ分野において映像のみに限らず音などの別の情報を取り入れた高度な判断を可能としたマルチモーダルAIの開発に取り組んでいます。顧客へのヒアリングを通して、映像分析だけでは原理的に検出できない迷惑行為も存在することがわかったのが取り組みの端緒です。
大規模施設での防犯カメラのモニタリングは人手による作業は困難であるため、AIによる映像解析の支援が求められます。従来の映像解析AIは入力データが映像のみに限定されたものが一般的でした。しかし、ビルエントランス内での迷惑行為の検出において、映像分析のみのAIでは大声でたむろしているといった行為を適切に検出できません。
マルチモーダルAIで映像と音を組み合わせて分析できれば、このような行為も適切に検出可能です。マルチモーダルAIの活用で、監視業務の効率化や防犯・セキュリティの高度化が期待できます。
こちらでAIを活用した防犯カメラの導入事例を詳しく説明しています。
画像と文章を融合させた生成AI・LLM(Open AI)
米OpenAI社は、テキストに加え画像の意味も理解できるマルチモーダル基盤モデル「GPT-4」や「GPT-4o」を提供しています。画像認識、文章分類の生成などを行う従来の生成AIでは、生成物はシステムごとに画像と文章で分けられているのが普通でした。しかし、画像と文章を融合させたマルチモーダルの生成AIの開発が急速に進歩しています。
画像認識と自然言語処理の技術を融合させたマルチモーダルAIの技術により、テキストから画像、画像からテキストといった双方での理解や生成が可能となりました。例えば、入力された画像の内容を理解し、ジョークや台本を出力することもできます。
GPT-4を基盤にしているChatGPTにおいても、Advanced Data Analysis(旧:Code Interpreter)で行うデータ解析結果をグラフやフローチャートなどの視覚データとして出力できるようになっています。
また、GPT-4oではマルチモーダルをより進化させ、動画に写っている物の特定や、図形を見て数式の回答を出力するなど、マルチモーダル化が進化しています。
同じOpenAI社が提供している画像生成AIである「DALL・E 2」「DALL・E 3」は、テキストから画像を生成できます。GPT-4及びGPT-4oによってテキストの理解と生成を行い、その裏側でシームレスにDALL・Eが画像生成を担当することでマルチモーダルAIの可能性を大きく広げています。
こちらでChatGPTのビジネス利用事例を詳しく説明しています。
対話型AIの介護モニタリング(KDDI、NICT)
KDDI株式会社、国立研究開発法人情報通信研究機構(NICT)、NECソリューションイノベータ株式会社は、高齢者向けの対話システムAIを活用した介護モニタリングの実証実験をおこなっています。介護モニタリング支援のマルチモーダルAIシステムの「MICSUS」の実証実験を成功させました。
介護モニタリングとは、ケアマネージャーが高齢者の自宅などを訪問して、健康状態や生活状況の変化を確認する業務です。ケアマネージャーの業務全体の4分の1を介護モニタリングが占めています。
この実証実験で用いられた対話AIシステムはマルチモーダルAIを実装し、ぬいぐるみ型の専用端末とスマートフォンを活用して、高齢者の健康状態や生活状況の変化を確認しました。結果として、面談と記録業務に要する時間を7割削減できたということです。
こちらで介護業界でのAI活用事例を詳しく説明しています。
ホームロボットへの活用(Amazon)
米Amazon.comでは家庭用ロボットAstroを販売しており、警備や見守りの機能を重点においてサービスを展開しています。機能のアップデートを重ねていき、マルチモーダルAIに対応しました。Astroは周囲環境を認識するために複数種類のセンサーを搭載しています。センサーから得られた様々なデータを通じて、対象物がどのような状態にあるか学習できます。
Astroは周囲環境の認識、障害物の検知などのためにセンサーを複数搭載しています。そして、各部屋の対象物をカメラで捉えながら、その対象物に関する説明を聞くプロセスを通じて、対象物がどのようなものであるか、どんな状況にあるか学習できます。
Astroはユーザーが確認したい項目を学習して、異常があったら適切に通知できる機能を提供しています。例えば、どのドアが玄関のドアであるか、どの窓が寝室の窓であるかを学習します。また、それらが開いているか閉まっているかといった現在の状態を認識します。
もし、閉めてはいけないドアが閉まっていたらアラートを出すといったことが可能です。さらに、Astroに特定のドアや窓の状態を確認するよう依頼もできます。認識できていない情報に対しては、ユーザーからのフィードバックを通じて学習を深めていき、認識精度を高める能力も備えています。
マテリアルズ・インフォマティクス:複雑な材料データからさまざまな機能を予測(日本ゼオン)
産業技術総合研究所(産総研)、日本ゼオン株式会社などは共同で、複数のAIを用いて複雑な構造を持つ材料データを処理し、高速かつ高精度でさまざまな機能を予測できる技術を開発しました。このマルチモーダルAI技術は、さまざまな配合を持つ材料である複雑材料系でのマテリアルズ・インフォマティクスに対して適用できます。
画像データや分光スペクトルなどの異なる複数のデータを計測し統合することにより、従来のAIでは適用できなかった複雑材料系でも異なる特性を高精度で予測することが可能となりました。膨大な条件から選定、成形加工、評価といった材料開発のプロセスの大幅な高度化・大幅な所要時間の短縮につなげられたということです。
こちらでマテリアルズ・インフォマティクスの定義、材料開発でのメリット・課題を詳しく説明しています。
マルチモーダルAIについてよくある質問まとめ
- マルチモーダルAIとは?
マルチモーダルAIとは、テキスト・画像・音声・動画など複数の種類のデータを一度に処理できるAIの技術のことです。マルチモーダルという用語はマルチ=複数、モーダル=形式や手段を合わせた用語で、複数の形式や手段を組み合わせることを意味します。詳しくはこちらにジャンプ。
- マルチモーダルAIの歴史は?
マルチモーダルAIは以前から研究が進められていました。
- 1980年代半ばに機械学習が注目を浴びるようになり、データから直接学習できるようになる
- 2000年以降に、ディープラーニングがAIの手法として登場し能力が大幅に向上
- 2013年にテキストと人間の顔の表情を認識する組み合わせの実現を目指した研究が進められる
まとめ
本記事ではマルチモーダルAIを解説しました。テキストだけ、画像だけを処理していたシングルモーダルAIから、テキストと画像を同時に処理できるマルチモーダルAIへと進化を遂げています。
話題となっている多くの生成AIもマルチモーダルAIです。今後さらに複数の組み合わせによるマルチモーダルAIが登場するでしょう。ビジネスへの活用も加速し、適応できる範囲も広がるはずです。
AI Marketでは、
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp