【AI用語解説】マルチモーダルAI

最終更新日：2025年07月08日

記事監修者：森下佳宏｜BizTech株式会社代表取締役

マルチモーダルAI

マルチモーダルAIとは、複数の入力値（画像・動画、音声、テキストなどのデータ）を元に、AIが総合的に対象を識別する処理のことを指します。

画像から、音声から、という一つの入力値を元に判断するのではなく、画像と音声を組み合わせて、対象の判断を行うことから、より人間の感覚に近い処理ができるため、昨今注目を集めています。

例えば、建物の前のカメラが人間を映しているとき、画像認識だけであれば、「そこに人間がいる」という情報しか識別することができませんが、ここに音声認識のAIを加えることで、映っている人間が発している言葉も認識できるため、「人が助けを求めている」などの判断などもできるようになります。

このように、複数の入力値を元にAIが処理を行うことをマルチモーダルAIと言い、昨今開発が進んています。

OpenAI社の提供するChatGPT（GPT-4）は、画像やテキストなど、様々なインプット、アウトプットが可能なマルチモーダルAIです。

他にもAIの用語をご覧になりたい方は、下記のボタンからAI用語集一覧をご覧ください。

AI用語一覧を見る

作成・監修者

森下佳宏｜BizTech株式会社代表取締役

AI Market 運営、BizTech株式会社代表取締役｜2021年にサービス提供を開始したAI Marketのコンサルタントとしても、お客様に寄り添いながら、現場のお客様の課題ヒアリングや企業のご紹介を5年以上実施しています。これまでにLLM・RAGを始め、画像認識、データ分析等、1,000件を超える様々なAI導入相談に対応し、参加累計5,000人を超えるAIイベントを主催。AIシステム開発PM歴8年以上。AI Marketの記事では、AIに関する情報をわかりやすくお伝えしています。（JDLA GENERAL 資格保有）

𝕏：@ymorishita

AI Market 公式𝕏：@AIMarket_jp
Youtubeチャンネル：@aimarket_channel
TikTok：@aimarket_jp

運営会社：BizTech株式会社

掲載記事に関するご意見・ご相談はこちら：ai-market-contents@biz-t.jp

カテゴリ