Stability AI、史上最強のAI画像生成モデル「Stable Diffusion 3.5」を発表 – 商用利用可能な大規模・高速・中型の3モデルを無償提供へ
最終更新日:2024年10月25日
Stability AIは2024年10月22日、同社の画像生成AI「Stable Diffusion」の最新バージョン「Stable Diffusion 3.5」を発表した。80億パラメータの大規模モデル「Large」、高速処理に特化した「Large Turbo」を即日公開し、26億パラメータの「Medium」を10月29日にリリース予定だ。
全モデルが一般のハードウェアで動作し、年間収益100万ドル未満の企業は商用利用も無料。Hugging Faceですでにダウンロード可能で、GitHubでは推論コードも公開されている。
目次
<本ニュースの10秒要約>
- 80億パラメータの大規模モデルと高速処理版、26億パラメータの中型モデルの3種類を提供し、一般ハードウェアでの実用性を重視した設計
- カスタマイズ性を重視した開発により、ファインチューニングやLoRA、アプリケーション開発など、幅広い用途での活用が可能に
- 年間収益100万ドル未満の企業は商用利用も無料で、生成したメディアの所有権も保持可能な柔軟なライセンス体系を採用
3つのモデルバリエーションと特徴
Stable Diffusion 3.5は、研究者から大企業まで幅広いユーザーに対応する3つのモデルを提供する。
「Large」は80億パラメータを持つ基本モデルで、1メガピクセルの高解像度画像生成に対応し、プロフェッショナルな用途に最適だ。
「Large Turbo」はLargeの蒸留版で、わずか4ステップで高品質な画像を生成できる高速モデルとなっている。
10月29日にリリース予定の「Medium」は26億パラメータで、改良されたMMDiT-Xアーキテクチャにより、0.25~2メガピクセルの解像度に対応し、一般消費者向けハードウェアでの利用を想定している。
カスタマイズ性を重視した開発アプローチ
開発では、Query-Key Normalizationをトランスフォーマーブロックに統合し、ファインチューニングや開発の簡素化を実現した。同一プロンプトでも異なるシードで出力にばらつきが生じる可能性があるが、これは幅広い知識ベースと多様なスタイルを維持するための意図的な設計だ。
特にMediumモデルでは、品質、一貫性、マルチ解像度生成能力を向上させるためのアーキテクチャ調整を実施している。
ライセンスと利用可能なプラットフォーム
Stability AI Community Licenseの下で、非営利目的での利用は無料で、年間収益100万ドル未満の企業も商用利用が可能だ。
生成されたメディアの所有権も制限なく保持できる。モデルはHugging Faceでセルフホスティング用のウェイトを提供するほか、Stability AI API、Replicate、DeepInfra、ComfyUIなど、複数のプラットフォームからアクセスできる。
AI Market の見解
Stable Diffusion 3.5は、高度な画像生成能力と実用性を両立させた画期的なリリースだ。特に注目すべきは、大規模モデルでありながら一般ハードウェアでの動作を実現した技術的成果と、商用利用を含む柔軟なライセンス体系だ。
カスタマイズ性を重視した設計により、様々な産業での応用が期待でき、AI画像生成市場の民主化を大きく進展させる可能性がある。一方で、出力のばらつきという特徴は、産業応用における品質管理の課題となる可能性もあり、用途に応じた適切なモデル選択が重要となるだろう。
参照元:Stability AI
LLMについて詳しく知りたい方はこちらの記事もご参考ください。
AIに関するご相談はAI Marketへ
AI Marketでは
メルマガ会員登録(無料)
AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp