Stability AI、8つの異なるマルチアングル映像を生成する「Stable Video 4D」を発表!
最終更新日:2024年07月26日
Stability AIは2024年7月25日、新たな動画生成AIモデル「Stable Video 4D」を発表した。このモデルは、単一の入力動画から8つの異なる視点の動画を生成する画期的な技術を実現。
約40秒で5フレームのマルチアングル映像を作り出し、ゲーム開発やビデオ編集、バーチャルリアリティなど幅広い分野での活用が期待されている。現在Hugging Faceで利用可能だが、さらなる改良と実用化に向けた取り組みが進行中だ。
<本ニュースの10秒要約>
- 単一動画から8つの異なる視点の動画を生成する新しい動画生成モデルの登場
- ゲーム開発やVRなど、マルチアングル映像を活用する産業分野での応用に期待
- 現在はHugging Faceで利用可能、今後も継続的な改良と実用化を目指す
Stable Video 4Dの概要と特徴
Stable Video 4Dは、Stability AIが開発した最新の動画生成AIモデルだ。このモデルの最大の特徴は、1つの入力動画から8つの異なる視点の動画を生成できる点にある。
ユーザーは希望する3Dカメラのポーズを指定でき、モデルはそれに従って新しい視点の動画を生成する。生成された動画は、被写体の包括的なマルチアングルの視点を提供し、動画内の被写体のダイナミックな3D表現を効率的に最適化するために使用できる。現在、8つの視点にわたって5フレームの動画を約40秒で生成することが可能だ。
技術的優位性と性能
Stable Video 4Dは、画像拡散モデル、動画拡散モデル、マルチビュー拡散モデルを組み合わせた技術を採用している。これにより、従来のアプローチとは異なり、複数の新しい視点の動画を同時に生成することが可能となった。
この技術革新により、空間軸と時間軸での一貫性が大幅に向上し、複数の視点とタイムスタンプにわたってオブジェクトの外観の一貫性を確保できるようになった。また、複雑なスコア蒸留サンプリング(SDS)を必要とせず、よりシンプルな4D最適化フレームワークを実現している。結果として、既存の技術と比較して、より詳細で入力映像に忠実、かつフレームやビュー間で一貫性のある新しいビュー映像を生成することが可能となった。
応用分野と今後の展望
Stable Video 4Dの応用分野は多岐にわたる。開発チームは特に、ゲーム開発、ビデオ編集、バーチャルリアリティなどの分野での活用を想定している。これらの分野の専門家は、複数の視点からオブジェクトを視覚化する能力から大きな恩恵を受け、製品のリアリティと没入感を高めることができると期待されている。
現在、Stability AIのチームはモデルの改良に積極的に取り組んでおり、学習に使用されている合成データセットを超えて、より幅広い実世界の動画を扱えるよう最適化を進めている。また、企業がこのモデルを採用し、独自の要件に合わせてさらなる微調整を行うことを奨励している。
今後も継続的な研究開発によって、リアルなマルチアングル動画を作成するこの技術の可能性が拡大していくことが期待される。
参照元:Stability AI
生成AI(ジェネレーティブAI)について詳しく知りたい方はこちらの記事もご参考ください。
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp