パナソニックHDとUCバークレー、階層的な画像認識が可能なマルチモーダル基盤モデル「HIPIE」開発
最終更新日:2024年10月11日
パナソニックHD(パナソニック ホールディングス株式会社)は、2023年11月21日、階層的な画像認識が可能なマルチモーダル基盤モデル「HIPIE」を、カリフォルニア大学バークレー校と共に開発したと発表した。
「HIPIE」は、大規模言語モデルにより画像理解の高度化を可能にしたモデルだ。任意のテキスト入力に応じてセグメンテーションタスクを遂行し、従来は複数のモデルが必要であったセグメンテーション/画像認識を一つのモデルで実現している。なお評価実験において「HIPIE」は、同日時点における世界最高性能を達成した。
<本ニュースの10秒要約>
- 大規模言語モデルによって階層的な画像認識を可能にした、マルチモーダル基盤モデル「HIPIE」
- 複数のモデルを用意する必要があったセグメンテーションや画像認識を、一つのモデルで実現
- 車載センサの危険検知など、階層的な画像理解が必要とされる場面でアノテーション負担を削減
「より良い暮らし」「より良い世界」の実現を目指すパナソニックHD
パナソニックHDは、実世界の幅広い事業領域において革新的な製品/サービスを生み出すため、AI/データ分析技術の研究開発・社会実装に取り組んでいる。画像認識/データ分析/ロボティクス/音声・言語/生体データ分析/AI・IoT基盤という分野を主軸として、様々な課題の解決に向けた研究開発を展開。イノベーションを通じた「より良い暮らし」「より良い世界」の実現を目指している。
画像認識領域において同社は、40年以上に渡るカメラの画像処理で培った技術を活かし、顔認証技術の開発・提供を展開。顔の特徴を学習するディープラーニング技術も応用し、顔の向き/加齢による経年変化/見切れ/照明変動などに影響されない認証を実現した。セキュアな個人情報管理対応と徹底した利用者目線のユーザビリティにより、同社の顔認証は世界最高水準の評価を獲得している。
これまで無視されてきた画像認識の「階層的な関係性」に注目
近年、画像認識AIの構築に要する時間/コストの削減手法として、大規模言語モデルを応用した研究に注目が集まっている。パナソニックHDもまた、画像認識と大規模言語モデルの関係に注目。特に、画像認識においてこれまで無視されてきた「階層的な関係性」の学習において、大規模言語モデルが有効であると考えた。
大規模言語モデルの事前知識を画像に取り込む際に、同一の物体領域に階層が異なる言語が存在した場合、これまではこの「階層的な関係性」は基本的に無視されていた。例えば、鼻/口/目は顔の一部分であり、顔は人の一部分となるが、この「階層的な関係性」が無視され、それぞれの領域と「鼻」「顔」「人」といった言語が1対1で対応する形のみで扱われてきた。
AIによるさらなる高度な画像理解には、この「階層的な関係性」こそ不可欠であるとパナソニックHDは判断。異なる粒度の階層的な表現を学習する技術を開発し、これまでは階層に応じて複数のモデルを用意する必要があったセグメンテーションや画像認識を一つのモデルで実現する「HIPIE」を構築するに至った。
様々な場面でアノテーション負担を削減、有効性に期待
「HIPIE」は、階層的な画像理解が必要とされる様々な場面において、現場のアノテーション負担を削減できる可能性がある。車載センサにおける危険検知や、ロボットにおける操作対象の認識、またドローンの地形分析や医療画像分析などで、その有効性が期待されている。
パナソニックHDは今後も、人々の暮らしや仕事の現場に役立つAI技術の研究・開発を推進するとしている。
参照元:PRTIMES
画像認識の仕組みや活用分野を詳しく知りたい方はこちら、また、画像認識に強い開発会社をお探しの方はこちらの記事をご参考ください。
基盤モデルとは?代表的なモデルは?こちらの記事で詳しく説明していますので併せてご覧ください。
AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp