Googleの画像・動画生成AIサービス「Whisk」とは?できること・機能、特徴、使い方、Runwayとの違い、料金プランまで徹底解説!
最終更新日:2025年07月03日

- Whiskは、Gemini・Imagen 4・Veo 2を連携させた画像生成&動画化AIツールで、画像をもとに直感的かつプロンプト不要で高品質なビジュアル制作が可能
- Whisk Animateを使えば、生成した画像に自然な動きを加えたアニメーション動画も制作でき、SNS投稿やプレゼン資料にも活用可能
- 月10本までの動画生成は無料で利用でき、それ以上の利用や高度な連携機能はGoogle AI ProまたはUltraプランで拡張可能
Whiskは、Google Labsが2025年2月に発表した生成AIを活用した新しい画像生成・動画生成ツールです。
本ツールは、テキストプロンプトなしでも画像から画像を生成できる、Google独自のインターフェースを特徴としています。Googleの生成モデルである「Imagen」、「Gemini」、「Veo」を連携させることで、視覚的な直感操作だけでクリエイティブなビジュアルが生み出せる新体験を提供します。
本記事では、Whiskの概要からできること・主な機能、特徴、料金プラン、注意点、活用例までを徹底解説します。
これから画像生成AIを取り入れたい個人や企業はもちろん、既存の制作ツールに限界を感じているクリエイターの方にも、Whiskがもたらす全く新しい表現の可能性をご紹介します。
AI Marketでは
生成AIに強いAI会社をご自分で選びたい場合はこちらで特集していますので併せてご覧ください。
目次
Whiskとは?
Whiskは、Google Labsが提供する生成AIツールで、テキストによる複雑なプロンプトを使わずに、画像をもとに直感的な操作で新たな画像を生成できるクリエイティブツールです。
2025年2月12日より、日本を含む100以上の国と地域で試験運用が開始されました。Whiskでは、詳細なテキストプロンプトを入力することなく、画像をアップロードするだけで生成プロセスが開始される点が大きな特徴です。
モデル(Subject)、背景(Scene)、スタイル(Style)などの要素を複数の画像から選択・組み合わせるだけで、誰でも簡単にオリジナルのビジュアルを作成できます。
Whiskでできること・主な機能
画像の3要素を分析・分類して生み出す画像生成
Whiskでは、ユーザーがアップロードした参照画像や選択した参照画像をもとに、新しい画像を自動生成することができます。
生成の際、Whiskは画像内の「モデル(Subject)」「背景(Scene)」「スタイル(Style)」の3要素をそれぞれ分析・分類します。
ユーザーは、これらの要素を一つずつ自由に選択・組み合わせることが可能で、それぞれの要素が相互に干渉しながら、独自のビジュアル作品を生成します。
例えば、異なるスタイルの背景とお気に入りのモデルを融合させることで、既存の写真やイラストにはない新しい表現を生み出すことができます。
Whiskは、単に画像を模倣するのではなく、アップロードされた画像の「本質的な特徴」を抽出し、それをもとに新たな構成を試みます。そのため、単純なコピーではなく創造的なアレンジが可能となっており、ユーザーの意図を柔軟に反映させる仕組みとなっています。
なお、生成時にテキストでプロンプトを入力し、画像を生成することも可能です。
アップロード画像から視覚特徴を理解したキャプションによる画像生成
Whiskの画像生成は、Geminiによって実行される自動キャプション生成を起点とすることも可能です。
アップロードされた画像からGeminiが視覚的特徴を理解し、詳細な説明文(キャプション)を生成します。一般的にVLM(Vision Language Model)と呼ばれる機能です。
この説明は内部的にImagenへと引き継がれ、生成画像のベースとなるプロンプトとして活用されます。
生成後の画像に対しては、ユーザーが手動でプロンプトを編集・修正することも可能です。例えば、「帽子の色を青に変えてほしい」「背景に夕焼けを追加してほしい」といった細かな変更指示を与えることで、出力結果を精緻に調整できます。
Whiskでは、この修正工程を「Refine」機能として提供しており、初期のイメージを保ちながら自然な改変が行えるよう設計されています。
Whisk Animateによる動画生成
Whisk Animateは、Whiskで生成された静止画に動きを加えて短いアニメーション動画として出力できる機能です。
静止画を単なる完成形として扱うのではなく、さらなる表現の広がりを可能にする拡張機能として位置づけられています。
この機能では、Googleの動画生成モデル「Veo」が活用されており、Whiskで制作した画像に対して「キャラクターが歩く」「背景が流れる」「カメラがパンする」などのモーションガイドを指示することで、自然で動きのある映像を生成できます。
Whisk Animateでは、画像ごとに個別の動きを設定できるため、ストーリー性を持ったコンテンツ制作や、視覚的に印象的なプレゼンテーション素材の作成にも活用でき、生成されたアニメーション動画はダウンロードや共有が可能で、SNS投稿やプロトタイプ制作など多様な用途に展開できます。
Whiskの特徴
プロンプト不要の視覚的操作
Whiskの大きな特徴のひとつは、従来の生成AIとは異なり、複雑なテキストプロンプトを入力する必要がないという点です。ユーザーは画像を数枚アップロードするだけで、Whiskがそれらを解析し、キャプションと生成画像を自動的に生成します。
これにより、プロンプト記述に不慣れなユーザーでも、直感的な操作のみで高品質なビジュアルコンテンツを制作することが可能になります。
また、Whiskは「プロンプトを学ぶ必要がない」ことを目指して設計されており、リファレンス画像と組み合わせるだけで多数のバリエーションを生成・探索できる点も魅力です。
テンプレートの多様性
Whiskには、ユーザーがすぐに使えるテンプレートがいくつも用意されています。特に、日本市場向けには、「カプセルトイ」「お弁当」といった日本文化に着想を得たテンプレートが追加されており、季節イベントや地域性を反映したビジュアル制作が可能です。
さらに、期間限定のテンプレートも随時提供されており、例えばバレンタインに合わせた特別テンプレートなども展開されました。これらのテンプレートは、モデル・背景・スタイルといった要素が予めセットされており、ユーザーは最小限の操作で完成度の高い画像を短時間で生成できます。
Whiskのテンプレートは、単にテーマを提供するだけでなく、創造の方向性やインスピレーションの出発点として機能します。そのため、ユーザーがゼロから全てを設計する必要はなく、スムーズな創作を支援する環境が整っています。
搭載されているモデルの性能について
Whiskでは、画像の理解にマルチモーダルモデル「Gemini」を用い、画像生成にはGoogleの画像生成モデル「Imagen」、動画生成には動画生成モデル「Veo」がそれぞれ使用されています。
Whiskの生成プロセスは、「画像→テキスト→画像(I2T→T2I)」という構造で、Geminiが画像をキャプション化し、そのキャプションをImagen 4に入力することで高精度な画像生成を実現しています。
下記は、Imagen 4のモデル性能です。
モデルカードでは、生成品質や構成の忠実性に関する検証結果が示されており、特に創造的な表現で高評価を得ています。
GenAI-Benchでは、Imagen 4は平均Eloスコア1091を記録し、Midjourney 6・DALL·E 3・Firefly 4を上回る評価を獲得しています。
また、評価マトリクスにおいてもほとんどの他モデルに対して勝率50%超を達成しており、人間の主観的評価でも高い優位性が確認されています。処理レイテンシも短く、生成速度と品質のバランスに優れたモデルです。
Whiskの料金プラン
Whiskは現在、Google Labsによる試験運用ツールとして無料で提供されており、画像生成などの基本機能は、18歳以上のユーザーがlabs.google/fxにアクセス可能な地域(※英国を除く)で利用できます。
Whiskでの静止画生成には課金が必要なく、誰でも画像をアップロードしてすぐに制作を始められます。
一方で、生成した画像にアニメーションを加えて短い動画を作成する「Whisk Animate」には利用上限があります。
Whisk AnimateはG1対応国(日本を含む)にて、毎月10本まで無料で動画生成が可能です。この上限は月ごとに自動リセットされ、未使用分が翌月に繰り越されることはありません。
10本を超えて動画を生成したい場合や、より高度な機能を利用したい場合には、「Google AI Pro」または「Google AI Ultra」への加入が必要です。これらの有料プランでは、Whisk Animateの生成上限が拡張されるだけでなく、VeoやGemini、NotebookLMなど他のAIツールとの連携も強化されます。
法人の場合は、Google AI Ultra for Businessの登録が必要です。
Whiskの使い方
Whiskは、labs.google/whisk にアクセスし、18歳以上のGoogleアカウントでログインすることで利用できます。
1.画像や要素をアップロード
画像をドラッグ&ドロップで追加するか、「おまかせ」や「サイコロを振る」機能で参考画像を自動生成し、Whiskにアイデア出しを任せることもできます。
2.キャプションの自動生成
Geminiが画像を分析し説明文(キャプション)を生成します。
3.画像の生成
作成された説明文をもとに、Imagen 4が画像を生成します。(Imagen 3でも生成可能)

4.画像の編集・再生成
「Refine」機能で色や背景などを調整し、納得のいくまで再生成できます。
5.動画への変換
Whisk Animateを使えば、生成した画像をアニメーション動画として出力できます。
WhiskとRunwayの違い
WhiskとRunwayは、どちらも生成AIを用いた映像制作ツールですが、用途やユーザー層、機能に大きな違いがあります。
以下の表では、それぞれの特徴をわかりやすく比較しています。
項目 | Whisk | Runway |
---|---|---|
主な用途 | 画像生成および短尺動画(Veo 2)への変換 | プロダクション品質の動画生成(映画・広告、VFXなど) |
入力形式 | 画像(被写体、シーン、スタイル) +必要に応じてテキストプロンプト | 画像(必須)+テキストプロンプト |
生成プロセス | 画像→Geminiが説明文作成→Imagen 3で画像生成→Veo 2で動画化(任意) | 画像とプロンプト→Runwayモデルが直接動画を生成 |
対象ユーザー | ライトユーザー・初心者 | 映像クリエイター・広告制作者・高精度な映像制御が必要な人 |
料金 | 月10本の動画生成は無料、 追加はGoogle AI Pro/Ultraプランで上限拡大 | Standard(月額12ドル)以上の有料プランで利用可能 |
代表的な連携モデル | Gemini、Imagen 3、Veo 2 | Runway独自のGen-4モデルなど |
Whiskは、画像から直感的にアイデアを発展させたいユーザー向けで、操作性が高く、プロンプトの知識がなくても使えるのが特徴です。
一方でRunwayは、映像制作の現場でも通用する高精度な動画生成が可能で、プロフェッショナル向けの機能が豊富に備わっています。
関連記事:「【高性能動画生成AI】Runway Gen-4とは?特徴やできること、料金や使い方、Soraとの違いまで徹底解説」
使う上での注意点
Whiskは画像から一部の特徴のみを抽出して生成するため、生成結果が元画像と大きく異なることがあります。外見的な要素(髪型・肌の色・体格など)が意図と異なる場合は、プロンプトを手動で調整する必要があります。
また、Whiskの生成物にはSynthIDによるデジタル透かしが埋め込まれています。
商用利用は可能?
Whiskで生成したコンテンツは、商用利用が可能と判断できます。
商用利用についての明確な言及はないものの、Whiskに適用されるはGoogle利用規約では、2025年7月時点で以下のような記載となっており、所有権を持って利用が可能です。
ユーザーのコンテンツはユーザーに帰属します。つまり、コンテンツに含まれるユーザーの知的所有権はすべてユーザーが保持します。 引用:Google
ただし、Googleのその他規約に違反しないよう注意することが必要です。
Whiskの活用例
Whiskでは、生成した静止画を「Whisk Animate」を使って短い映像作品として活用することも可能です。
実際にWhisk Animateを用いて、生成された画像に動きを加えたアニメーション動画を作成してみました。
授業でプレゼンする日本人男子大学生
集中治療室で日本人の医師がオペをしている
キャンプ場でBBQをしている家族
Whiskに関するよくある質問まとめ
- Whiskは完全に無料で使用できるのか?
2025年7月時点で、静止画の生成は無料で利用可能だが、動画生成機能「Whisk Animate」は月10本まで無料で、それ以上の利用には有料プランへの加入が必要となる。
また、18歳以上のGoogleアカウントが必要で、英国を除く対応地域でのみ利用できる。
- Whiskの生成画像の品質はどの程度のレベルか?
Imagen 4を使用しており、GenAI-Benchで平均Eloスコア1091を記録し、Midjourney 6・DALL·E 3・Firefly 4を上回る評価を獲得している。
処理レイテンシも短く、生成速度と品質のバランスに優れたモデルとなっている。
まとめ
Whiskは、プロンプト不要の視覚的操作と、高性能なマルチモーダルAI(GeminiとImagen 3)の連携によって、直感的かつ多彩な画像生成を可能にする新しい生成AIサービスです。
ユーザーのクリエイティブな発想を支援し、シンプルな操作で高品質なアウトプットを得ることができます。現在は試験運用段階ですが、すでに多くのテンプレートや機能が提供されており、今後の展開にも注目が集まっています。
AI Marketでは
生成AIに強いAI会社をご自分で選びたい場合はこちらで特集していますので併せてご覧ください。

AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
弊社代表 森下𝕏:@ymorishita
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp
