Stable Diffusionとは、テキストや画像データをもとに新たな画像を生成するAI技術です。2022年8月にイギリスのスタートアップ企業Stability AIによって公開され、無料かつオープンソースで提供されたことで、多くのユーザーに利用されるようになりました。高品質な画像を生成できるだけでなく、商用利用が可能な点も特徴の1つです。
Stable Diffusionではイラストや写真のようなリアルな画像を作成するために、事前に学習済みのAIモデルを活用します。テキストを入力するだけで簡単に画像を作れるため、デザイナーやクリエイターだけでなく、誰でも手軽に利用できます。さらに、オリジナルの画像を生み出せるだけでなく、既存の画像をもとに新しいビジュアルを作成することも可能です。
Stable Diffusionとは
Stable Diffusionとは、入力されたテキストや画像データをもとに画像を生成するAIの1つです。2022年8月にイギリスのスタートアップ企業Stability AIにより公開され、既存の画像生成AIと比較して高品質な画像を生成できることに加え、オープンソースとして提供され、誰でも無料で利用できたことから画像生成AIが広く認知されるようになりました。
他の画像生成AIと異なり、無料で利用できるうえ、作成枚数に制限がない点が特長です。学習済みモデルを活用すれば、アニメ調からリアルな人物画まで、幅広い画像を短時間で生成できます。
Stable Diffusionは、ユーザーが入力するテキストを中心に画像を生成する仕組みを採用しています。提供されるインターフェースは直感的に操作でき、カスタマイズオプションも充実しています。入力するテキストの質が高いほど、より精度の高い画像を作成しやすくなります。
画像生成AIとは
画像生成AIは、ChatGPTのような文章生成AIと同様に、入力されたテキストをもとにオリジナルの画像を作成する技術です。例えば、「夕暮れの山々の風景」と入力すると、それに合った画像が自動で生成されます。
技術の進歩により、生成される画像は写真のようにリアルなものが増えています。代表的な画像生成AIにはStable DiffusionやMidjourneyがあり、デザイン業界にも大きな影響を与えています。
従来では自作できなかったユーザーや高品質な画像を有料で入手していた人々にとって、画像生成AIは大きなメリットをもたらしていますが、一方で、クリエイターやカメラマンにとっては、新たな競争の要因ともなっています。
画像生成AIは、入力するテキストの長さや単語の数が多いほど、イメージに近い画像を生成しやすくなるため、プロンプトエンジニアリングと呼ばれる専門職が生まれ、より高度な画像を作成する技術が発展しています。
Stable Diffusionでできること
Stable Diffusionでは大きく、次の3つを行うことができます。
- テキストから画像の生成:入力したテキスト(プロンプト)をもとに、新しい画像を生成できます。
- 画像から画像の生成:サンプル画像を基に新たな画像を作成することも可能です。テキストと画像を組み合わせることで、より具体的なイメージに近い画像を生成できます。
- 拡張機能の活用:生成した画像の解像度を向上させることもできます。
Stable Diffusionと一般的な画像生成AIの違い
Stable Diffusionとほかの画像生成AIには、費用や所有権の有無などの違いがあります。
所有権
Stable Diffusionで生成した画像には基本的に権利が発生しません。公序良俗に反しない限り、作成した画像を自由に使用できます。商用利用も可能とされています。
ただし、学習に使用するモデルによってはライセンスの問題が発生し、商用利用が制限されるケースもあります。そのため、利用する際には事前にライセンス条件を確認することが重要です。
無料で誰でも利用できる
Stable Diffusionが登場するまでは、多くの画像生成AIが有料で提供されており、生成回数に制限があるのが一般的でした。そのため、画像生成AIの知名度も限られたものでした。
Stable Diffusionと同時期にリリースされたMidjourneyも注目を集めましたが、こちらはコードが非公開でした。一方、Stable DiffusionはStability AIによってオープンソースとして提供されており、無料で利用できます。
画像のクオリティが高い
Stable Diffusionは、訓練済みのAIモデルを搭載した画像生成AIです。ユーザーが欲しい画像を単語レベルで入力することで、さまざまな画像を生成できます。
訓練済みモデルとは、大量のデータを活用して学習が完了したAIモデルのことです。このモデルを活用することで、これまでの画像生成AIと比較して、入力されたテキストデータからより効率的に適切な画像を推測し、生成することが可能になっています。
Stable Diffusionの使い方
Stable Diffusionは、潜在拡散モデルを搭載したシステムであり、オープンソースAIとして公開されています。そのため、Web上の環境で利用することも、ローカル環境にインストールして使用することも可能です。
利用方法として、主に次の2種類があります。
- Webアプリケーションを利用する:Hugging FaceやDream StudioなどのWebサービスを活用し、ブラウザ上で画像を生成する方法です。インストール不要で手軽に利用できます。
- ローカル環境で動作させる:自身のPCにStable Diffusionをインストールし、独自の環境で画像生成を行う方法です。カスタマイズの自由度が高く、より高度な調整が可能です。
このあと紹介するのは、Webアプリケーションを利用する方法です。ブラウザ上で簡単に操作できるため、誰でも気軽に画像生成AIを体験できます。
DreamStudio

DreamStudioは、Stability AIが開発・運営するStable Diffusionのオープンβ版として提供されていたWebアプリケーションです。プロンプトを入力するだけで、簡単に画像を生成できます。
UIが使いやすいことでも評価されていますが、現在ではDreamStudioは閉鎖され、無料期間を過ぎると原則課金する必要があります。
参考:https://stability.ai/stable-assistant
Clipdrop

Clipdropは、Stability AIが提供するWebサービスで、Stable Diffusionを活用して簡単に画像を生成・編集できます。
Stable Diffusionを利用したWebツールは複数ありますが、開発元であるStability AIが直接提供しているため、信頼性が高く、生成される画像のクオリティも優れています。無料で利用できるうえ、プロンプト入力だけでなくネガティブプロンプト(除外したい要素を指定する機能)も使用できるため、より理想に近い画像を生成しやすいのが特徴です。
Fotographer.ai

Fotographer.aiは、商品写真の作成に特化した画像生成サービスです。サンプル画像をアップロードし、希望するイメージを入力するか、テンプレートを選択することで、短時間でクリエイティブな商品写真を生成できます。
商用利用を目的とした画像作成に適しており、AIを活用した自動生成機能によって、手軽に高品質な商品画像を作成できます。
Hugging Face

Hugging Faceは、AI関連のモデルやデータセットを共有・活用できるオープンソースプラットフォームです。特に自然言語処理(NLP)の分野で注目され、多くのAI開発者や研究者が利用しています。
2024年2月時点で、50万以上のモデルが公開されていますが、サイトの構成がやや複雑なため、初心者には少しとっつきにくいかもしれません。
Hugging Faceでは、Stable Diffusionを含むさまざまなAIツールを提供しており、特に次のライブラリが広く使われています。
- Transformers(自然言語処理向け)
- Diffusers(画像や音声データ向け)
- Datasets(データセット管理用)
上記のライブラリを活用することで、より高度なAIモデルを活用した画像生成が可能になります。
参考:https://huggingface.co/spaces/stabilityai/stable-diffusion
Mage.space

Mage.spaceは、アメリカのOllano社が提供する画像生成プラットフォームで、Stable Diffusionを活用したWebサービスです。
基本的な利用は無料ですが、有料プランに登録すると、より多くの学習済みモデルにアクセスでき、より高度な画像生成が可能になります。初心者でも直感的に使える設計になっており、特に簡単に画像を作成したい場合におすすめです。
画像生成のコツ
先に入力したプロンプトが優先される
Stable Diffusionでは、入力したテキストの順番が画像の生成結果に影響します。特に重要なキーワードは先に入力することがポイントです。
プロンプトとは、AIに特定の動作を促す指示のことです。Stable Diffusionでは、どのような画像を作りたいのかをキーワードで指定しますが、最初に入力したプロンプトほど優先されます。
そのため、同じキーワードを使用しても、順番を変更するだけで生成される絵柄が変わることがあります。一般的なプロンプトの順番としては、次の順に並べることが多いです。
- イラスト全体の要素
- 登場人物
- 登場人物の服装や髪型など外見の特徴
- 構図
この順番でなくても問題ありませんが、思うような画像が作れない場合は、強調したい要素を前半に配置するなどの工夫が必要です。
重要な部分を強調する
特に重視したいプロンプトは、括弧を使うことで強調できます。単語の横に数字を付けることで、より強く指示を出すことも可能です。思うような画像が作れない場合は、強調の度合いを調整することで改善できる可能性があります。
単語数は制限する
Stable Diffusionでは、入力された単語の数をカウントしています。単語の区切りとして使用するカンマや数字もカウントされるため、プロンプトは75単語以内に抑えるのが理想的です。
Stable Diffusionでは、75単語を1単位として処理する仕様になっており、75単語を超えると、その後の単語の重要度が低くなります。プロンプトの単語数が多すぎると、指示が分散してしまい、生成結果に影響を与えるため、短く的確にまとめることが重要です。
ネガティブプロンプトを使う
思い通りの画像を生成するためには、ネガティブプロンプトを活用するのも有効です。ネガティブプロンプトとは、生成したくない要素を明示的に指定するプロンプトのことです。
毎回ネガティブプロンプトを入力するのが面倒な場合は、拡張機能のEasyNegativeを活用するのもおすすめです。拡張機能を利用すると一定の条件で自動的にネガティブプロンプトが適用され、より効率的に画像を生成できます。
Stable Diffusionを商用利用する場合の注意点
著作権問題
画像生成AIで作成した画像について、多くのサービス提供企業は著作権を主張せず、ユーザーが自由に利用できるとしています。しかし、画像生成AIは膨大なデータを学習することで画像を生成できる仕組みになっています。つまり、AIが画像を生成するためには基となる大量のデータが必要です。
この「学習に使用されたデータ」をめぐり、AIアートの著作権問題が発生する可能性があります。日本の著作権法では、著作権者の利益を不当に害しない限り、AIが著作物を学習目的で利用することは認められています。そのため、現時点で責任を問われるのはユーザーではなく、AIサービスを提供している企業側と考えられます。ただし、今後の法改正によって状況が変わる可能性もあるため、注意が必要です。
原則として商用利用は可能
Stable Diffusionは、生成された画像について権利を主張しないことを公式に発表しています。個人情報の流出や誤った情報の拡散など、人に危害を与えるケースを除き、商用利用も認められています。
ライセンスに「CreativeML Open RAIL-M」と記載されている場合、基本的に商用利用が可能です。ただし、特定のモデルや学習データのライセンスによっては、商用利用が制限されることもあるため、事前に確認することが重要です。
商用利用できないケース
原則的には商用利用できるStable Diffusionですが、商用利用が認められていない画像やモデルを使用した場合には商用利用はできません。
商用利用が認められていない画像を使用した場合
Stable Diffusionのimg2img(Image to Image)機能を使用する際は注意が必要です。img2imgとは、既存の画像をもとに新たな画像を生成する機能で、画像の一部を変更したり、似たような画像を作成したりできます。
例えば、他社が公開しているロゴをダウンロードし、img2imgを使用して加工した場合、元のロゴの著作権を持つ企業から著作権侵害として訴えられる可能性があります。そのため、img2imgを商用利用する際には、元となる画像がフリーライセンスかどうかを事前に確認してください。
商用利用が認められていないモデルを使用した場合
Stable Diffusionは、すでに訓練済みのモデルが提供されていますが、追加学習(ファインチューニング)を行うことで、特定のスタイルに特化した画像を生成することも可能です。
例えば、アニメ風の画像を生成するために、特定のアニメキャラクターのデータを学習させたモデルを使用するケースが考えられます。この場合、学習に使用されたデータの著作権に問題があると、商用利用が認められない可能性があります。
追加学習を行う場合は、そのモデルが商用利用可能かどうかを事前に確認することが必要です。商用利用が認められていないモデルを使用して利益を得た場合、権利者から法的措置を取られる可能性があります。
倫理的な問題に注意
Stable Diffusionは非常に高性能なAIですが、倫理的な問題にも注意が必要です。不適切な画像の生成が可能であるため、以下のようなコンテンツを避けることが求められます。
- 暴力的な表現
- 過激な性的表現
- 差別的な内容
- 実在の人物を無断で使用した画像
- 商標や著作物を無断で使用した画像
AIが生成した画像であっても、法的・倫理的な問題が発生する可能性があります。商用利用する際は、生成された画像の内容を十分に確認し、適切な利用を心がけてください。
最後に
Stable Diffusionは、誰でも手軽に高品質な画像を生成できるAI技術です。無料で利用できるだけでなく、オープンソースとして提供されているため、さまざまなカスタマイズが可能です。テキストを入力するだけで多様な画像が作れるため、デザインやコンテンツ制作において有用なツールとなるでしょう。
また、商用利用も可能ですが、著作権やライセンスには注意が必要です。特に、img2img機能を使用する場合や特定のモデルを追加学習する場合には、使用するデータの権利関係を事前に確認することが重要です。不適切な画像の生成や、倫理的な問題にも十分配慮しながら、適切に活用することが求められます。