動画生成モデルWan2.2とは?特徴・性能・使い方・料金プランまで実際に使って検証解説!
最終更新日:2025年09月11日

- Wan2.2は、映像生成において高精細さと処理効率を両立した動画生成モデル
- MMoEアーキテクチャにより270億パラメータ規模の性能を14B相当の計算資源で実現
- 720p・24fps動画生成可能で単一GPU(RTX 4090)でも動作する高効率設計
Wan2.2は、映像生成分野で高い表現力と効率性を兼ね備えた動画生成モデルで、Mixture-of-Experts(MoE)アーキテクチャを採用し、大規模なデータ拡張と美学的要素の強化により、従来モデルを大幅に超える映像品質を実現しています。
この記事では、Wan2.2で、特徴、性能、料金プラン、使い方、活用事例など公式発表に基づく情報をわかりやすく解説します。
画像生成・動画生成に強いAI会社の選定・紹介を行います
今年度AI相談急増中!紹介実績1,000件超え!

・ご相談からご紹介まで完全無料
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
完全無料・最短1日でご紹介 画像・動画生成に強いAI会社選定を依頼
目次
Wan2.2とは?
Mixture-of-Experts(MoE)アーキテクチャを採用し、映像表現の精度と汎用性を高めることを目的に設計されており、テキストから動画、画像から動画、音声から動画といったマルチモーダルな生成に対応しています。
想定用途は映画や広告制作、学術研究、ゲームやアニメーションの開発など、多様なクリエイティブ領域に及びます。
Wan2.2の各モデルとできること
Wan2.2の各モデルの対応タスク、利用方法、解像度をまとめた表です。
モデル名 | 対応タスク | 解像度・長さ | 利用方法 | 備考 |
---|---|---|---|---|
Wan2.2-Speech to Video | 音声 → 動画 | ― | WanBox / GitHub | 音声情報を活用し、映像生成を可能にする。 |
Wan2.2-Image to Video | 画像 → 動画 | 5秒動画 / 480p・720p | WanBox / API / GitHub | 不自然なカメラ動作を抑え、安定した映像を生成。 |
Wan2.2-Text to Video | テキスト → 動画 | 5秒動画 / 480p・720p | WanBox / API / GitHub | MoEアーキテクチャで精密な映像生成を実現し、Wan-Bench 2.0で高性能を発揮。 |
Wan2.2-Text to Image | テキスト → 画像 | ― | WanBox / API | テキスト指示に応じた高品質な画像生成が可能。 |
Wan2.2-TI2V-5B | テキスト・画像 → 動画 | 5秒動画 / 720p・24fps | 単一GPU(RTX 4090など)で実行可能 | 高圧縮Wan2.2-VAEを採用し、高速かつ学術・産業利用の両方に適する。 |
Wan2.2の特徴
Wan2.2が備える主な特徴について、以下の項目ごとに詳しく説明します。
- 高速かつ高解像度の動画生成
- 拡張可能なMoEアーキテクチャ
- 制御可能な映像スタイル
- 大規模データによる汎用性強化
高速かつ高解像度の動画生成
Wan2.2は、高圧縮を可能にする独自のWan2.2-VAEを搭載し、720p・24fpsの動画を効率的に生成できます。
5Bモデル(TI2V-5B)はコンシューマー向けGPU(例:RTX 4090)でも動作可能で、研究用途から産業用途まで幅広く活用できる高速モデルとなっています。
拡張可能なMoEアーキテクチャ
Wan2.2は、動画生成拡散モデルにMixture-of-Experts(MoE)アーキテクチャを導入しています。
高ノイズ段階では全体構図を担当するエキスパート、低ノイズ段階では細部を磨き上げるエキスパートを使い分ける設計により、総計270億パラメータ規模の性能を発揮しながら、実行時には14B相当の計算資源で動作可能です。
これにより、大規模化と効率性を両立させています。
制御可能な映像スタイル
これにより、ユーザーは好みに応じた映像の雰囲気を生成しやすく、映画的な表現や芸術的な動画制作に適しています。
大規模データによる汎用性強化
Wan2.1と比較して、学習データは画像が約65.6%、動画が約83.2%増加しています。
この拡張により、動きの自然さ、意味理解、映像美の表現力が向上し、オープンソース・クローズドソースを含むモデル群の中でも最高水準の性能を実現しています。
参考記事:Wan公式サイト
Wan2.2の性能
以下のような性能を備えており、その内容を詳しく解説します。
MoEで効率的な学習を実現
Wan2.2は、拡散モデルにMixture-of-Experts(MoE)を導入し、ノイズ段階に応じて適切なエキスパートを切り替える設計を採用しています。
高ノイズ段階では全体構図を捉えるHigh-Noise Expertを利用し、低ノイズ段階では細部を仕上げるLow-Noise Expertを用いることで、処理の効率性と生成品質を両立しています。
上記の画像は、学習過程におけるバリデーションロスの推移が示されており、Wan2.2(MoE)が従来のWan2.1ベースのモデルよりも安定的に低いロスを維持していることが確認できます。
これにより、生成される映像の分布がより実際のデータに近づいていることが明らかになっています。
VAEで実現する高圧縮効率と高画質
Wan2.2には、新しい高圧縮設計のVAEが搭載されています。従来のWan2.1-VAEが情報圧縮率48であったのに対し、Wan2.2-VAEは64まで向上しており、圧縮効率が強化されています。
上記の画像は、複数のモデルと比較したPSNR、SSIM、LPIPSの数値が示されています。Wan2.2-VAEはPSNRで32.223、SSIMで0.922、LPIPSで0.022を記録し、特にLPIPSの値では全モデル中で最も良好な結果を示しています。
これにより、高い圧縮率を維持しつつも人間の知覚に近い映像品質を実現できることがわかります。
前モデルWan2.1やOpenAI Soraなど他動画生成モデルとの比較
上記は独自に開発されたベンチマーク「Wan-Bench 2.0」に基づいた、主要な商用モデルとの比較です。
評価は複数の観点から実施されており、項目は以下の通りです。
- 美的品質
- 動きの自然さ
- 文字描画
- カメラ制御
- 映像忠実度
- 物体の正確性
上記の画像では、Wan2.2-T2V-A14Bが総合的に優れたスコアを記録していることが示されています。特に、美的品質では85.3を達成し、動きの自然さにおいても52.0と他モデルを上回っています。
また、映像の忠実度では73.7、物体の正確性では78.2を記録し、自然で一貫した映像表現と高い描写精度を兼ね備えています。
これらの結果から、Wan2.2は美的品質や動的表現、テキスト描画において他のモデルを上回りつつ、映像全体としてバランスの取れた性能を備えていることが明らかになっています。
Wan2.2のライセンス・料金体系
Wan2.2はGitHubからダウンロード可能なオープンソースモデルとして提供されていますが、Webサービスの「Wan Box」経由でも利用することが可能です。
Wan Boxでは Free・Pro・Premiumの3つの料金プランが提供されています。
無料プランから利用を始められ、有料プランに移行するとクレジット数や同時処理数が増え、透かしなしのダウンロードや追加機能へのアクセスが可能になります。
以下の表は、それぞれのプランにおける月額料金と利用可能な機能の概要を整理したものです。
プラン | 月額料金 | 主な内容 |
---|---|---|
Free | US$ 0 | ・1つの動画タスクをクレジットで即時処理可能 ・同時に1つの動画送信が可能 ・同時に1つの画像送信が可能 ・クレジットを使わない無制限生成 |
Pro | US$ 5 / 月(年間契約で50%割引) | ・月300クレジット(最大1200画像または60動画) ・同時に最大2つの動画を即時処理可能 ・動画は3つまで同時送信可能 ・画像は3つまで同時送信可能 ・無制限生成、透かしなし画像・動画のダウンロード ・すべての画像スタイルパレットへのアクセス |
Premium | US$ 20 / 月(年間契約で50%割引) | ・月1200クレジット(最大4800画像または240動画) ・同時に最大4つの動画を即時処理可能 ・動画は8つまで同時送信可能 ・画像は5つまで同時送信可能 ・無制限生成、透かしなし画像・動画のダウンロード ・すべての画像スタイルパレットへのアクセス ・新機能への早期アクセス |
料金は、随時変更の可能性があるため、最新の料金は公式サイトにてご確認ください。
Wan2.2の使い方手順
Wan2.2は、WanBoxを中心としたWeb環境やAPI、GitHubを通じて利用できます。ここではWanBoxを使った一般的な利用手順を紹介します。
WanBoxにアクセスする
公式サイトからWanBoxにアクセスします。アカウントを作成またはログインすると、動画や画像の生成画面に進めます。
生成したいコンテンツに応じて、Speech to Video、Image to Video、Text to Video、Text to Imageといった機能を選択します。
プロンプトや素材を入力する
テキストを入力したり、画像や音声をアップロードすることで、生成に必要な素材を指定します。入力内容に応じて出力結果が変化します。
また、Wan 2.2 Plusを選択します。
「Generate」ボタンを押すと、Wan2.2が指定内容に基づいて動画や画像を生成します。プランによっては生成速度や同時処理数が異なります。
結果を保存・編集する
生成された動画や画像は、WanBox上でダウンロード可能です。有料プランでは透かしなしのファイル保存が可能で、さらに動画の結合や編集も行えます。
参考:Wan Box
Wan2.2を実際に使ってみた
この動画は、実際にWan Boxでテキストを入力して作成したものです。自転車を漕ぐ人物の動きが非常に滑らかに再現されており、ペダルを踏み込む足や上半身の揺れも自然に表現されています。
また、背景に映る車や歩行者も同時に動いており、全体として映像にリアリティと臨場感が加わっています。光の表現も優れており、街路樹の影や建物の明暗、人物の顔に差し込む自然光がシネマティックに描写され、映像全体の雰囲気を高めています。
都市の背景と人物の動作が違和感なく調和しており、Wan2.2の美学的制御と動きの自然さが効果的に発揮されています。
Wan2.2の活用事例
広告映像や映画制作、ゲームやアニメーションの開発、学術研究、SNSコンテンツ制作などが挙げられます。以下に、X(旧Twitter)などで報告されているWan2.2の活用例を紹介します。
Wan2.2を使った静止画からの動作生成
ローカルのWan2.2で静止画を指定したポーズで動かす
以前よりもキレイに3Dやモーキャプ使わずこんな感じで出来るようになってきたのは面白い
以前よりも簡単に出来るのもいい pic.twitter.com/6mcrd5TIKB— Hirokazu Yokohara (@Yokohara_h) August 18, 2025
Wan2.2による星空と街並みの映像表現
Wan2.2 pic.twitter.com/7AMbeEgRiC
— keshi (@keshiAIart) August 20, 2025
Wan2.2に関するよくある質問まとめ
- Wan2.2はどのような用途に活用できますか?
映画や広告制作、学術研究、ゲームやアニメーション開発、SNSコンテンツ制作など多様なクリエイティブ領域で活用可能です。
テキスト、画像、音声から動画生成ができるため、様々な制作ワークフローに対応できます。
- Wan2.2を使用するために必要なハードウェア要件は?
5BモデルであるTI2V-5BはRTX 4090などのコンシューマー向けGPUで動作可能です。
より大規模なモデルを使用する場合は、より高性能なハードウェアが必要になりますが、具体的な要件は公式情報を確認することをお勧めします。
まとめ
Wan2.2は、MoEアーキテクチャ・大規模データ拡張・美学的制御を取り入れたの動画生成モデルです。オープンソースとして公開されており、産業から研究、クリエイティブ分野まで幅広く応用が期待されます。
一方で、商用利用の料金体系や具体的な事例は未記載であるため、利用者はライセンス確認や実環境での検証を行いながら導入することが重要です。

AI Market 運営、BizTech株式会社 代表取締役|2021年にサービス提供を開始したAI Marketのコンサルタントとしても、お客様に寄り添いながら、お客様の課題ヒアリングや企業のご紹介を実施しています。これまでにLLM・RAGを始め、画像認識、データ分析等、1,000件を超える様々なAI導入相談に対応。AI Marketの記事では、AIに関する情報をわかりやすくお伝えしています。
AI Market 公式𝕏:@AIMarket_jp
Youtubeチャンネル:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp
