【AI用語解説】マルチモーダルAI
最終更新日:2025年07月08日

マルチモーダルAI
マルチモーダルAIとは、複数の入力値(画像・動画、音声、テキストなどのデータ)を元に、AIが総合的に対象を識別する処理のことを指します。
画像から、音声から、という一つの入力値を元に判断するのではなく、画像と音声を組み合わせて、対象の判断を行うことから、より人間の感覚に近い処理ができるため、昨今注目を集めています。
例えば、建物の前のカメラが人間を映しているとき、画像認識だけであれば、「そこに人間がいる」という情報しか識別することができませんが、ここに音声認識のAIを加えることで、映っている人間が発している言葉も認識できるため、「人が助けを求めている」などの判断などもできるようになります。
このように、複数の入力値を元にAIが処理を行うことをマルチモーダルAIと言い、昨今開発が進んています。
OpenAI社の提供するChatGPT(GPT-4)は、画像やテキストなど、様々なインプット、アウトプットが可能なマルチモーダルAIです。

AI Market 運営、BizTech株式会社 代表取締役|2021年にサービス提供を開始したAI Marketのコンサルタントとしても、お客様に寄り添いながら、お客様の課題ヒアリングや企業のご紹介を実施しています。これまでにLLM・RAGを始め、画像認識、データ分析等、1,000件を超える様々なAI導入相談に対応。AI Marketの記事では、AIに関する情報をわかりやすくお伝えしています。
AI Market 公式𝕏:@AIMarket_jp
Youtubeチャンネル:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp
