【AI用語解説】マルチモーダルAI

最終更新日：2025年07月08日

AI用語集

マルチモーダルAI

マルチモーダルAIとは、複数の入力値（画像・動画、音声、テキストなどのデータ）を元に、AIが総合的に対象を識別する処理のことを指します。

画像から、音声から、という一つの入力値を元に判断するのではなく、画像と音声を組み合わせて、対象の判断を行うことから、より人間の感覚に近い処理ができるため、昨今注目を集めています。

例えば、建物の前のカメラが人間を映しているとき、画像認識だけであれば、「そこに人間がいる」という情報しか識別することができませんが、ここに音声認識のAIを加えることで、映っている人間が発している言葉も認識できるため、「人が助けを求めている」などの判断などもできるようになります。

このように、複数の入力値を元にAIが処理を行うことをマルチモーダルAIと言い、昨今開発が進んています。

OpenAI社の提供するChatGPT（GPT-4）は、画像やテキストなど、様々なインプット、アウトプットが可能なマルチモーダルAIです。

他にもAIの用語をご覧になりたい方は、下記のボタンからAI用語集一覧をご覧ください。

AI用語一覧を見る

記事作成・監修者

AI Market 編集部

AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI（人工知能）、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら

𝕏：@AIMarket_jp
Youtube：@aimarket_channel
TikTok：@aimarket_jp

運営会社：BizTech株式会社
弊社代表森下𝕏：@ymorishita
掲載記事に関するご意見・ご相談はこちら：ai-market-contents@biz-t.jp