Stable Diffusionのimg2imgとは?機能や使い方を実例で説明!品質を上げる生成のコツを徹底解説
最終更新日:2024年11月05日
画像生成AIを使用したことがあるでしょうか?まだ画像生成を使用したことがない方であれば、「画像生成って難しそう」「プロンプトの書き方がよくわからない」と思ったことはありませんか?
画像生成AIとは?どのように使う?こちらの記事で詳しく説明しています。画像生成以外の生成AIの種類についてはこちらで詳しく説明していますので併せてご覧ください。
使用したことがある方であっても、「思った通りの画像が生成できない」「参考にしたいイメージ画像はあるのにうまくプロンプトで表現できない」といったことで悩んだことがあると思います。
そんな方におすすめなのが、Stable Diffusionの「img2img」です。この記事では
画像生成がうまくいかずに悩んでいる方や、これから画像生成を初めて見たいという方は、是非最後までご覧ください。
AI Marketでは
画像生成システムに強いAI開発会社を自力で選びたい方はこちらで特集していますので併せてご覧ください。
目次
Stable Diffusionのimg2imgとは?
Stable Diffusionの「img2img」とは、アップロードした画像から新たな画像を生成するStable Diffusionの1つの機能です。Stable Diffusionは、入力されたテキストをもとに画像を生成するDiffusion Modelを搭載した画像生成AIです。
作成したい画像に関する単語を入力することで画像を生成することができます。しかし、テキストから画像を生成するStable Diffusionでは、一から思い通りの画像を生成するためにプロンプトを考え調整するための時間がかかってしまうなど難しい面もあります。
それに比べて、Stable Diffusionのimg2imgは、アップロードした画像にプロンプトを加えて新たな画像を生成することができるため、テキストから画像を生成するよりもイメージ通りの画像を生成しやすくなります。その他にも、画像の一部分や画像サイズを変更するなどの細かな編集することも可能です。
img2imgの活用シーン
Stable Diffusionのimg2imgを活用することで、様々なメリットが期待できます。例えば、商品開発における試作品のイメージ作成や、広告制作におけるクリエイティブ案の作成などに活用できます。
例えば、既存の商品画像をimg2imgに入力し、プロンプトで色やデザインを変更することで、新商品のバリエーション案を短時間で多数作成できます。
また、広告画像の作成においても、img2imgを活用することで、多様なパターンのクリエイティブ案を効率的に作成できます。SNS広告などでは、細かなバリエーションを作成してA/Bテストを行うことが重要ですが、img2imgを活用すれば、手間をかけずに多様なバリエーションを作成できるでしょう。
さらに、img2imgは画像の一部分や画像サイズを変更するなどの編集も可能です。例えば、商品画像の背景を変更したり、人物の服装を変更したりすることで、様々なシーンに合わせた画像を作成できます。こうした画像編集をimg2imgで自動化することで、制作コストを大幅に削減できる可能性があります。
AI Marketでは
Stable Diffusionのimg2imgの始め方
Stable Diffusionのimg2imgを始める場合、ユーザーが自分のローカルPCに環境を構築し「Stable Diffusion Web UI」で生成する方法とStable Diffusionが使用できるウェブブラウザでDreamStudioやleonardo.aiなどのサービスにサインインして生成する方法があります。
Stable Diffusion Web UIで始める場合は以下の特徴があります。
- 生成回数に制限がない
- 自分でカスタマイズできる
- 環境構築を行わなければならない
- 高スペックなGPUやメモリが必要
一方で、ウェブブラウザで始める場合の特徴は以下の通りです。
- PCのスペックに関係な生成できる
- Googleアカウントなどですぐに始めることができる
- カスタマイズや細かな設定ができない
- 生成する回数に制限がある
- 一部機能を使用するためには有料になる
Stable Diffusion web UIは、カスタマイズ性や自分好みの細かい設定が行え、無制限で画像を生成できるというメリットがある反面、環境構築や動作環境を整えるためのハードルが高いというデメリットがあります。
これに対してウェブブラウザ版は、PCのスペックに関係なく簡単に画像生成を体験することが可能となっています。ただし、生成回数の上限があることや、Stable Diffusion web UIとカスタマイズや機能の違いといった制限があります。
環境構築ができる、生成するPCのスペックが高いといったユーザーはStable Diffusion web UIの方が使い勝手が良くおすすめですが、環境構築が難しい・制限があっても簡単に始めたいという初心者やユーザーにとってはウェブブラウザ版が使いやすいでしょう。
関連記事:「Stable Diffusion Web UIとは?メリット・基本操作・生成テクニックを徹底解説!」
図解!img2imgの基本の機能、使い方
img2imgの基本的な使い方について解説していきます。今回は簡単でPCのスペックに依存しないウェブブラウザを使用する方法で解説しています。使用するのはStability.ai社が公式に提供する「DreamStudio」です。
DreamStudioにアクセスし画像をアップロードする
DreamStudioのサイトにアクセスします。 アクセスをしたあとに「Upload image」で生成元となる画像をアップロードします。
アップロードすると以下のようになります。これでimg2imgの機能が使用できるようになります。
「Image strength」はアップロードした画像をどの程度残すかを指定します。Image strengthを強くしすぎてしてしまうとプロンプトがほとんど反映されないので注意してください。
スタイルを決める
Stable Diffusionではプロンプトで入力せずとも生成する画像のスタイルを決めることができます。img2imgでも同様の機能があり、アップロードした画像をユーザーがイメージする画像のテイストに簡単に変更することが可能です。
プロンプトとネガティブプロンプトを入力する
画像をアップロードした後は、プロンプトとネガティブプロンプトを入力します。アップロードした画像をイメージ通りに変更したい場合や、画像の一部を修正したい場合には、プロンプトを入力する必要があります。
また、クオリティの高い画像を生成するためには最低限のプロンプト・ネガティブプロンプトが必要となります。何も入力しない場合、クオリティの悪い画像が生成される場合がありますので注意してください。
画像サイズを変更する
「Settings」でサイズを変更することができます。初期設定は「1:1(1084×1084)」となっています。「Image count」の下にある 「Advanced」をクリックすると、直接サイズを変更することもできます。
Image countで生成する画像枚数を決める
「Image count」を変更すると生成する画像を変更することができます。数字が多いほど同じプロンプトで生成されるパターンが多くなります。
ただし、Dream Studioでは生成する画像の枚数によってクレジットを消費する点に注意してください。無料のクレジットを消費した場合、新たにクレジットを購入する必要があります。
Prompt strengthを調整する
「Prompt strength」は、プロンプトにどれだけ忠実に従って画像を生成するかを表す値で、大きいほどプロンプトの指示どおりの画像を生成します。しかし、値が大きすぎると画像が破綻してしまうので注意が必要です。
Generation stepsを調整する
Generation stepsは画像を生成する際のステップ数を決めます。ステップ数は、画像生成の際のノイズ除去の回数を決める値のことで、値が大きいほど細かいノイズを除去します。
ノイズを除去する回数を多くすることで、より質の高い画像を生成することができますが、ステップ数が多いほど生成に時間がかかってしまいまいます。
生成する
すべて設定したら、「Dream」ボタンを押して画像を生成します。ボタンのところにクレジット数が表示されており、生成するタイミングで、表示されているクレジットを消費します。
img2imgでクオリティを上げる4つのコツ
img2imgで、思った通りの画像を出力するにはいくつかコツがあります。
クオリティを上げるプロンプトを設定する
画像のクオリティを上げるためのプロンプトを入力することで、生成する画像の質が良くなります。実際にクオリティを上げるためによく使われるプロンプトは以下のようなものがあります。
- masterpiece
- best quality
- 4k
- 8k
「masterpiece」や「best quality」は、有名なプロンプトであり、これら2つセットで入力するだけでクオリティの高い画像生成をすることができます。特にこだわりがない場合は、入力しておくとよいでしょう。他にも「ultra detail」「high detail」という、画像全体を細かく描写することができるプロンプトもあります。
プロンプトを入力する場合としない場合では、生成する画像の質が大きく変化します。
また、イメージ通りの画像を生成するためには、強調構文として括弧書きにする手法もあります。高いクオリティで、イメージ通りに生成するために意識しておくと良いでしょう。
ネガティブプロンプトを必ず入力する
ネガティブプロンプトは、生成される画像に反映したくないものを指定します。プロンプトで生成内容を入力するため、ネガティブプロンプトは不要にも思えますが、表示したくないものを除外するためにネガティブプロンプトを入力することが大事です。
また、特に反映したくない条件がなかったとしても、生成する画像のクオリティをあげるためにネガティブプロンプトは重要です。クオリティを上げるためによく使用するネガティブプロンプトは以下のようなものがあります。
- low quality
- worst quality
- bad quality
これらを入力することで「低品質」を反映しないという意味となります。
ネガティブプロンプトも括弧書きをすると中に入っているプロンプトの倍率を指定できるようになります。で強調することができます。クオリティに関して括弧書きをする場合は、「:1.4」などと表記すると、プロンプトの効力が1.4倍になるという効果もあります。
ネガティブプロンプトもクオリティの高いイメージ通りの画像を生成するための要素になりますので、特に指定がなくとも必ず入力しておきましょう。
モデルを設定する
Stable Diffusionをローカルのパソコンなどにダウンロードして使用できる「Stable Diffusion web UI」では、生成AIのモデルを選択することが可能です。追加学習をさせ様々な調整がしてあるモデルを使用することで、よりイメージに合う画像を生成することが可能となります。
モデルにも、リアルに近い画像を生成できるものや女性の画像に特化したもの、アニメ系やイラスト系に特化したものなど様々なものがあります。これらのモデルはプラットフォームで無料公開してあるものも多く、ユーザーが自由に自分好みのモデルをダウンロードしweb UIで使用することができます。
なかなかイメージ通りの画像が生成できない場合は、イメージに合うモデルをCivitaiやHugging Faceなどで探しダウンロードしてみるとよいでしょう。
Stable Diffusionのモデルとは?どこでダウンロード?こちらの記事で詳しく説明していますので併せてご覧ください。
LoRAを活用する(上級者向け)
LoRAは、Stable Diffusionのような大規模な生成モデルに対して、少量のデータで追加学習を行う手法です。
具体的には、特定のスタイルや要素(例:アニメ調、油絵調など)を含む画像を数十〜数百枚程度用意し、それらを使ってStable Diffusionモデルの一部を追加学習します。この追加学習されたモデルを「LoRAモデル」と呼びます。
LoRAモデルを使うことで、元のStable Diffusionでは出力が難しかった特定のスタイルや要素を、img2imgで思い通りに反映させやすくなります。例えば、アニメ調のキャラクター画像を多数使ってLoRAモデルを作れば、アニメ調の画風でimg2imgの出力をコントロールできるようになります。
LoRAモデルの作成には、ある程度の機械学習の知識が必要ですが、ネット上では予め作成されたLoRAモデルを公開しているケースも多くあります。そうしたLoRAモデルを活用することで、プロンプトの調整などに頼らずとも、img2imgで思い通りの画像を出力しやすくなるでしょう。
LoRAは、Stable Diffusionのimg2imgを事業活用する上で非常に有用な技術だと言えます。特定の画風やスタイルに特化した画像生成を実現したい場合は、ぜひLoRAの活用を検討してみてください。
Stable Diffusionのモデルとは?どこでダウンロード?こちらの記事で詳しく説明していますので併せてご覧ください。
実演!img2imgで白猫が森を散歩するアニメ調画像生成
実際にimg2imgで画像を生成していきます。今回は上記のような森林の画像を使用します。
簡単な設定で生成
今回は、この画像に猫を追加し、画像全体をアニメ調にしてみたいと思います。上記画像のようにプロンプトに「cat」のみを入力し、スタイルで「Anime」を選択して出力をします。
以下のような画像が生成されました。これだけでもイメージに近い画像が生成されています。
プロンプトとネガティブプロンプトを設定してクオリティを上げる
クオリティに関するプロンプトやネガティブプロンプトを入れていない状態でしたので、上記のように入力しました。生成された画像は以下の通りです。
簡単な設定に比べるとより画質が綺麗になり、クオリティの高いアニメ調になりました。
プロンプトで画像をさらに編集
さらに上記のように猫の色を「白」に変更してみたいと思います。
猫が白くなりました。しかし、元の画像の雰囲気と少し離れてしまったので、「Image strength」(元画像の雰囲気を残す強さ)を強くしてみます。
55%だと少しイメージから遠くなってしまったので調整します。
Image strengthを49%に少し下げて、Prompt strengthを20から30に変更しました。
これでほぼイメージ通りの変更ができました。
このように細かな調整を繰り返すことで、よりイメージに近いものを生成していくことができます。調整もプロンプトで特に指定せずに直観的に行えるため、何度も微調整することができます。
Stable Diffusionの「img2img」についてよくある質問まとめ
- Stable Diffusionのimg2imgとは?
img2imgは、アップロードした画像をベースに、プロンプトで指定した内容で画像を生成するStable Diffusionの機能です。元画像のスタイルを変更したり、人物や動物を追加したりできます。
- img2imgを使うメリットは何ですか?
テキストのみからイメージ通りの画像を生成するよりも簡単に、元画像に近い画像を生成できます。商品開発における試作品イメージ作成や、広告のバリエーション作成などに活用できます。
- img2imgでクオリティの高い画像を生成するコツは?
クオリティアップのプロンプト(”best quality”, “masterpiece” など)を使う、ネガティブプロンプトで不要な要素を除外する、適切なモデルを選ぶ、LoRAで追加学習したモデルを使うなどの方法があります。
まとめ
Stable Diffusionのimg2imgは、初めて画像生成AIを使用するユーザーや、イメージに近いに画像があるけどもっと手を加えたい・オリジナリティを出したいユーザーにはとても使用しやすいツールです。イメージに近い画像をもとに画像を生成できるため、一からプロンプトを書いて生成するよりも簡単です。
例えば、元の画像をアップロードしてスタイルを変更したい場合や、風景の画像に人物や動物・物体などを挿入したい場合などはとても便利です。また、一度テキストプロンプトで生成した画像の細かい編集をしたい場合などにもimg2imgを使用することで簡単に行うことができます。
スペックの高いPCを持っており、制限なく自由に使用したい場合は、ローカルで環境を構築するStable Diffusion web UIがおすすめです。一方、初めて生成するユーザーや簡単に使用したいユーザーはウェブブラウザ版を使用するのがおすすめです。ウェブブラウザ版にも、様々な種類があり細かな機能が違うので、好みに合うものや使用しやすいものを探すとよいでしょう。
Stable Diffusionのimg2imgは、画像生成が簡単に行えるツールです。
AI Marketでは
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp