2023年10月22日、Stability AIがついに「Stable Diffusion 3.5」をリリースしました。この新しいバージョンには、「Stable Diffusion 3.5 Large」や「Stable Diffusion 3.5 Large Turbo」などのモデルが含まれており、さらに「Stable Diffusion 3.5 Medium」のリリースも控えています。これらのモデルは、商業利用・非商業利用ともに無料で利用でき、一般のハードウェアで動作することが可能です。
【無料配布中】「企業版AIの導入アプローチ」
ChatGPT、Copilot、ExabaseといったAI関連ツールが多くサービス提供される中で、企業におけるAI導入アプローチを俯瞰的に整理しています。どのようなタイプのツールがあり、結局何を使ったら良いのか、シンプルかつ感覚的に、かつ短時間で理解されたい方におすすめです。
Stable Diffusion 3.5の概要
「Stable Diffusion 3.5」は、Stability AIが開発した画像生成AIの最新モデルです。このシリーズには、「Stable Diffusion 3.5 Large」、「Stable Diffusion 3.5 Large Turbo」、そして「Stable Diffusion 3.5 Medium」の3つのバリエーションが含まれています。
「Stable Diffusion 3.5 Large」は80億のパラメータを持ち、プロフェッショナルなシーンにも対応可能な高品質な出力を実現します。「Stable Diffusion 3.5 Large Turbo」は、この「Large」モデルの蒸留版であり、より少ないステップで高速に高品質な画像を生成できる点が特徴です。「Stable Diffusion 3.5 Medium」は26億のパラメータで、一般消費者向けのハードウェアでも容易に使用できるように設計されており、カスタマイズが簡単に行えます。
これらのモデルは、Stability AI Community Licenseの下で商業・非商業のいずれでも無料で利用可能です。年間収益が100万ドル未満のスタートアップ企業やクリエイターにとって、無料で利用可能である点が大きなメリットです。また、Hugging Faceからモデルをダウンロードできるほか、GitHubでは推論コードも公開されており、研究者や開発者にとって使いやすい環境が整っています。
Stable Diffusion 3.5の特徴
「Stable Diffusion 3.5」は、柔軟性と性能において市場で最も有望な画像生成モデルの一つとなっています。プロンプトの準拠度と表現の品質を評価する指標においてオープンソースにおいて既存のトップモデルであるFluxを一部上回っています。
また、3D、写真、絵画、線画など、幅広いスタイルの画像を生成することができ、クリエイターが求めるあらゆるスタイルの画像を生成することが可能です。特定の人物の画像だけでなく、多様な肌の色や特徴を持つキャラクターなど、世界中の多様性を反映した画像を生成することができ、これによりクリエイターの想像力を最大限に引き出します。
カスタマイズ性にも優れており、特定のクリエイティブニーズを満たすために簡単にファインチューニングが可能で、カスタマイズされたワークフローに基づくアプリケーションを構築することも簡単です。さらに、「Stable Diffusion 3.5 Large Turbo」や「Medium」モデルでは、一般の消費者向けハードウェアで動作するよう最適化されており、高負荷な処理を必要とせずに効率的に利用できます。これにより、幅広いユーザー層が利用しやすくなり、一般的なハードウェアでも高品質な生成結果を得ることができます。
③「Stable Diffusion 3.5」について一言
Stable Diffusionはオープンソースの画像生成モデルです。OpenAIのDALL-Eとは異なり、基本的には開発者向けにリリースされているものになります(厳密にはHugging FaceというAIプラットフォームでアプリとしても利用することはできますが)。
フラッグシップモデルとしては同じくオープンソースとしてリリースされているFluxがありますが、グラフを見ると今回のStable Diffusion 3.5 Largeはそれを上回る性能(Prompt Adherenceにおいて)を示しており、今後のデファクトを争う競争が繰り広げられていることが窺えます。