【AI用語解説】マルチモーダルAI
最終更新日:2024年11月17日
マルチモーダルAI
マルチモーダルAIとは、複数の入力値(画像・動画、音声、テキストなどのデータ)を元に、AIが総合的に対象を識別する処理のことを指します。
画像から、音声から、という一つの入力値を元に判断するのではなく、画像と音声を組み合わせて、対象の判断を行うことから、より人間の感覚に近い処理ができるため、昨今注目を集めています。
例えば、建物の前のカメラが人間を映しているとき、画像認識だけであれば、「そこに人間がいる」という情報しか識別することができませんが、ここに音声認識のAIを加えることで、映っている人間が発している言葉も認識できるため、「人が助けを求めている」などの判断などもできるようになります。
このように、複数の入力値を元にAIが処理を行うことをマルチモーダルAIと言い、昨今開発が進んています。
OpenAI社の提供するChatGPT(GPT-4)は、画像やテキストなど、様々なインプット、アウトプットが可能なマルチモーダルAIです。
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp