最終更新日:2022-03-28
【AI用語解説】マルチモーダルAI

マルチモーダルAI
マルチモーダルAIとは、複数の入力値(画像・動画、音声、テキストなどのデータ)を元に、AIが総合的に対象を識別する処理のことを指します。
画像から、音声から、という一つの入力値を元に判断するのではなく、画像と音声を組み合わせて、対象の判断を行うことから、より人間の感覚に近い処理ができるため、昨今注目を集めています。
例えば、建物の前のカメラが人間を映しているとき、画像認識だけであれば、「そこに人間がいる」という情報しか識別することができませんが、ここに音声認識のAIを加えることで、映っている人間が発している言葉も認識できるため、「人が助けを求めている」などの判断などもできるようになります。
このように、複数の入力値を元にAIが処理を行うことをマルチモーダルAIと言い、昨今開発が進んています。

AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計500件を超える開発相談経験を活かし、AI(人工知能)に関する技術や、製品・サービスなどの紹介記事を提供しています。ご興味をお持ちの製品やサービスがありましたら、ぜひご相談ください。
