MetaのMovie Genとは?国内での提供状況・Soraとの違い・特徴・性能を徹底解説!
最終更新日:2025年07月23日

- Movie Genはテキストだけで最大16秒・1080pの動画と最大45秒の音声を一貫生成し、既存映像の編集や人物写真からの動画化にも対応
- 人間評価でRunwayやSoraなど主要モデルより高評価を獲得し、4タスクすべてで圧倒的な勝率を記録
- 2025年7月現在は一般公開されておらず、一部の映画制作会社や限られたパートナーにのみ提供中
Metaが開発したマルチモーダル動画生成AIモデル「Movie Gen」は、テキストをもとに高精度な動画や音声を自動生成・編集できる技術です。映像制作に必要だった複雑な工程や専門知識を必要とせず、ユーザーの発想をそのままビジュアルや音声として形にできるのが最大の特長です。
わずかな入力だけで、リアルで一貫性のある映像・音声コンテンツを誰でも直感的に作成可能となりコンテンツ制作のハードルを大きく引き下げます。
さらに、Movie Genは人物画像を使ったパーソナライズ動画の生成や既存映像の精密な編集機能も備えており、これまでにない表現力と柔軟性を提供します。
本記事では、Movie Genの基本概要から特徴、性能、現在の提供状況まで徹底的に解説します。
目次
Movie Genとは?
Movie Genでは、ユーザーが入力した簡単なテキストから、写実的で滑らかな動きのある動画や、その動画に合った音声(効果音・BGMなど)を一貫して生成できます。
また、既存の映像に対してもテキストで精密な編集指示を加えることができます。そのため、プロの映像編集者でなくとも直感的な操作で表現力豊かなコンテンツ制作が可能です。
MetaのCEOであるマーク・ザッカーバーグ氏は、同社の「Instagram」への機能統合を示唆しています。
Movie Genは国内で利用できる?
2025年7月現在、Movie Genは一般公開されておらず、Metaは一部の映像制作会社や選定されたクリエイターとのパイロットプログラムを通じて限定的に運用しています。
Meta公式ブログでも以下のように明言されており、API提供やSDK配布、Meta製品への組み込みも現段階では発表されていません。
“While we’re not planning to incorporate Movie Gen models into any public products until next year…”
日本語訳:「Movie Genモデルは来年まで一般向け製品に組み込む予定はない」
Meta AIそのものも日本を含む一部地域では利用制限がかかっており、地域によってはMeta AIサービスへのアクセス自体ができない状態です。
Movie Genの主な特徴
Movie Genは主に以下のような特徴を備えています。
マルチモーダルな生成能力
Movie Genは、テキストから映像を生成するだけでなく、既存映像の編集、人物画像をもとにしたパーソナライズ動画の生成、さらに音声(効果音やBGMなど)の生成までを一貫して行える統合型のマルチモーダルAIです。
この統合により、映像・音声・動作・構図が連動した、一貫性のあるメディア表現が可能となります。
また、Metaの過去の研究成果(Make-A-SceneやLlama Image)をベースにした第3世代のAIモデルとして、表現力と柔軟性が大きく進化しています。
高解像度かつ長尺の映像生成
Movie Genは最大16秒、1080p、毎秒16フレームの動画生成に対応しており、滑らかな動きと高解像度を両立します。
このフレームレートと長さは、他のテキスト生成AIを上回る水準で、カメラのパン、被写体の移動、空間表現など、複雑な演出にも適応でき、映像としての完成度が高く、ナレーション映像や演出重視のコンテンツにも対応可能です。
人物写真から自分だけの映像を作れる「パーソナライズ動画」
本人性や動きの整合性を損なわず、自然な演技を持たせたパーソナルコンテンツを作成できます。
精密な映像編集
処理はピクセル単位で正確に行われ、対象部分以外の構図を保ったまま変化を加えられます。そのため、編集経験のないユーザーでも高精度な映像調整が可能です。
グローバルな演出(色調や雰囲気)とローカルな修正(人物の動きや小道具の追加)を組み合わせた複雑な編集も直感的に行えます。
高精度な音声生成
13Bパラメータの音声モデルにより、以下のような複雑なシーンにも対応し、映像と自然に同期する音響体験を実現します。
- 雷鳴とオーケストラ音
- ATVのエンジン音
- スケボーの着地音
さらに「音声拡張技術」によって、長尺動画でもシーンに合った音声が自動で付与され、編集不要で高品質なサウンドを実現できます。
Movie Genの性能
Movie Genは、30Bパラメータの映像生成モデルと13BパラメータのMovieGen Audioという独自音声生成モデルを基盤として構築されています。
以下は、映像モデルおよび音声モデルの基本仕様です。
- 映像モデル:最大16秒間、1秒あたり16フレームの動画を高精度に生成
- 音声モデル:最大45秒間の高品質かつ高忠実度の音声(環境音、効果音、BGM)を出力
さらに、MovieGen Audioには動画との同期を保ったまま、任意の長さの動画に一貫した音声を提供する「音声拡張技術」も搭載されています。映像と音のアライメント、テキストとの整合性において業界最高水準の性能を発揮します。
以下は、Metaが実施した4つの主要タスクにおける人間によるA/B評価の結果をわかりやすくまとめた表です。
純勝率(Net Win Rate)が正の値であるほど、Movie Genが他モデルよりも好まれたことを示しています。
機能 | 比較対象モデル | Net Win Rate |
---|---|---|
映像生成 | Runway Gen3, OpenAI Sora, Kling 1.5 | +35.0 / +8.2 / +3.9 |
パーソナライズ動画生成 | ID-Animator | +64.7 |
映像編集 | Runway Gen3, Runway Gen3 Style | +86.7 / +19.4 |
音声生成 | PikaLabs Sound Gen., External Music Gen. API | +53.6 / +38.2 |
これらの結果は、Metaがモデル設計においてアーキテクチャ、トレーニング目標、データ設計、評価プロトコル、推論最適化など複数の技術を取り入れた成果であると報告されています。
MovieGenはSoraと何が違う?
動画生成AIとして最も有名なOpenAIのSoraとMovieGenは、何が違うのでしょうか。両者の特徴を比較してみましょう。
Meta MovieGen | OpenAI Sora | |
---|---|---|
主な強み |
|
|
想定される主な用途 |
|
|
Soraが「映画監督」のように高品質で長尺の映像作品を生み出すことを目指しているのに対し、MovieGenは「多才なコンテンツクリエイター」のように、SNSや広告など、よりインタラクティブな用途で力を発揮する統合型ツールと言えるでしょう。どちらが優れているかではなく、企業の目的や用途に応じて最適なツールを選択することが重要になります。
Movie Genに関するよくある質問まとめ
- Movie Genはいつから一般利用できるようになりますか?
2025年7月現在、Meta公式は「来年まで一般向け製品に組み込む予定はない」と発表しており、具体的な一般公開時期は未定です。
現在は一部の映画制作会社など限定パートナーのみが利用可能です。
- Movie Genで生成できる動画の最大長さと解像度は?
最大16秒間、1080p解像度、毎秒16フレームの動画生成が可能です。
音声については最大45秒間の高品質な効果音やBGMを生成できます。
まとめ
Movie Genは、Metaが開発したマルチモーダル生成AIであり、テキストから最大16秒・1080pの高精細な動画と、最大45秒の効果音・BGMを自動生成できる革新的なモデルです。
人物写真をもとにしたパーソナライズ動画や、既存映像の精密な編集、映像と音声の一貫した連動といった機能も搭載されています。従来の生成AIを大きく上回る表現力と柔軟性を実現しています。
2025年7月現在は一般公開されておらず、一部の映画制作会社やパートナー向けに限定提供されている段階です。しかし、今後正式にリリースされれば、映像制作・広告・教育・SNSコンテンツなど、幅広い領域での活用が期待されます。

AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
弊社代表 森下𝕏:@ymorishita
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp
