[Stable Diffusion] ゼロから始める画像生成AI

絵心なしでもトップページとかで使うイラストを作成できる

時代の変化が恐ろしいです。
「Detroit: Become Human」の世界感が現実味を帯びてきました

サイト運営をしてる人だと、やはり使用する画像は気になるところです
当たり前ですがネットに転がってる画像を勝手に使うのは著作権的にNGなので、絶対にやめましょうね。

人物イラストなら「かわいいフリー素材集 いらすとや」、風景イラスト/画像なら「イラストAC」「フォトック」等、無料で提供して頂けるサイトもありますが、検索や使用に制限があったりと、自分のイメージ通りの画像というのはフリー素材では、なかなか見つからないものです。

私の場合もゲーム攻略の場合はゲーム画像がいっぱいあるのでそこまで気にならないのですが、ブログノウハウ(本記事)のような題材だと文字ばっかりになりがちですから、Stable Diffusionを使うことで使用できる画像の幅が広がれば、と思っています。

本記事作成時点での知識ほぼ0なので、最終的に「自分の想定の様には使えなかった、終了」となる可能性もあります。

目次

知識0から、できることなどを聞いてみる(chat GPT)

Stable Diffusionについて基礎的なこと
Stable Diffusionについて、「できること」などをできるだけ専門用語を使わずに教えてください。また、無料版/有料版などはありますか?

Stable Diffusionとは、スマートフォンなどのモバイルデバイスにおいて、ネットワークの信号が安定した状態で伝わるようにする技術のことです。

この技術は、ネットワークの不安定さや混雑などによって生じる通信エラーを軽減し、データ通信の速度や安定性を向上させることができます。これにより、ウェブページの読み込み速度が向上したり、ストリーミング動画の再生がスムーズになるなど、ネットワーク上でのデータ通信の品質が向上することが期待されます。

Stable Diffusionは、無料版と有料版が存在します。有料版では、より高度な機能やサポートが提供される場合があります。ただし、具体的な料金や提供されるサービスは、提供元によって異なります。

Stable Diffusionの画像制作AIに限定して、上記のことを教えてください。またPCで利用することも可能ですか?

Stable Diffusionの画像制作AIに関しては、現在特定の製品やサービスが存在するわけではありません。ただし、AIによる画像制作技術に関しては、最近ではGAN(Generative Adversarial Networks)と呼ばれる手法が注目されています。

GANは、データの生成において優れた性能を発揮することが知られており、画像の生成においても高い品質を実現することができます。これらの技術を利用した画像制作AIが、将来的にStable Diffusionの一部として提供される可能性はあります。

また、PCでの利用に関しては、AIによる画像制作技術は一部の高性能なGPUを必要とするため、PCでの利用も可能ですが、高性能なハードウェアが必要となる場合があります。しかし、クラウド上で提供される場合もあり、その場合はPCのスペックに依存することなく、高品質な画像制作が可能になります。

勘違いしてましたが、Stable Diffusion自体は、画像制作AIのことではなくネットワーク技術の総称だったんですね。
基礎的な知識は教えてもらいましたが、一体いつの情報なんでしょうか?
そういえばchatGPTは高性能な自動応答AIですが参照する情報は結構古いんですよね…

できるだけ新しい情報が欲しいのですが、上記の情報はいつのものですか?西暦と月数で教えてください。

前回回答した情報の知識カットオフは、2021年9月でした。最新の情報に基づくと、Stable Diffusionという用語については、現在特定の製品やサービスが存在するわけではありません。

また、AIによる画像制作技術に関しては、最近ではGANの他にも、CLIP(Contrastive Language-Image Pre-Training)などの手法が注目されています。これらの技術を利用した画像制作AIが、将来的にStable Diffusionの一部として提供される可能性はあります。

さらに、PCでの利用に関しては、AIによる画像制作技術は一部の高性能なGPUを必要とするため、PCでの利用も可能ですが、高性能なハードウェアが必要となる場合があります。ただし、クラウド上で提供される場合もあり、その場合はPCのスペックに依存することなく、高品質な画像制作が可能になります。

このように、参照している情報が古いのが、chatGPTの最大の弱点です。
今回は2021.9情報とのことで、細かいサービスに関してはアテにはならないですね。
ここで終わってもいいのですが、Stable Diffusionに関してはオープンソースと聞いた気がして食い違っているので、その点も追加で聞いてみます。

Stable Diffusionはオープンソースと聞いたのですが、本当に無料版/有料版というのがあるのでしょうか?。

ご指摘いただきありがとうございます。Stable Diffusionについて調べたところ、オープンソースのプロジェクトとして公開されているものは見当たりませんでした。私の前回の回答には誤りがあり、混乱を招いてしまったことをお詫び申し上げます。

Stable Diffusionという用語自体は、モバイル通信技術に関連したものとして、いくつかの論文や記事で言及されています。ただし、具体的な製品やサービスとしては確認できませんでした。

画像制作AIに関しても、オープンソースで公開されているものが多数ありますが、Stable Diffusionとは直接的な関係はないようです。

以上を踏まえ、私の前回の回答には誤りがありましたことを再度お詫び申し上げます。

ちょっとググってみたところこんな記事が見つかりました


なるほど、2022.8にオープンソース化したので、2021.9時点の情報しかなかったchatGPTには引っかからなかったんですね。
期待していた(現在使われているサービスに関する)情報は入手できませんでしたが、基礎的な部分は知ることが出来たので、chaptGPTに関しては今回はこの辺りでお役御免としましょう。
ここ1~2年で大きく変化したような事柄に関してはやはり苦手分野のようです。

使用方法の選択

大きく3種類あるようです。

Stable Diffusion(画像生成AI)の使用分類

① 自分のPCにインストールして使う

オープンソース化されていることもあり、無料で無制限に使えるようです。
問題はPCの必要スペックが高いこと
筆者のPCで動くかは怪しいですが、モノは試しということでやってみようと思います。
今のところはお試しなので、そこまで大量に使う予定もありませんし(フラグ)。

② Stable Diffusionを内包したアプリを使う

多分これが一番楽です。
webからアクセスするだけなのでGPU等のマシンパワーも必要なし。
ただ、外部サービスなので品質はピンキリですし、無料部分/有料部分の問題もあるので実際に使ってみないとなんとも。

③ クラウドにインストールして使用する

基本的には有料のイメージでしたが、googleを始め無料サービスもいくつかある(そしてpro版も)。
自分の環境へのインストールだけでも難しそうなのに、クラウド上へのインストールが初心者にできるのか、それが一番の問題。
筆者の手に余るのが見て取れるので今回はこれは最終手段です。

①自分のPCにインストールして使う

今回の本命。
速度面は多少我慢するので、これで動けば問題ないのですが。
上手くいかなかれば、②③も試してみます。

今回使用したPCのスペック

重要なのは「専用ビデオメモリ(VRAM)」。
webで調べたところ、専用ビデオメモリは最低でも8~16G程度はあった方がいいとのことで、スペック的にはギリギリ。
最近PCは変えたのですが、GPUに関してはもう少し上にした方がよかったかもしれません。
対人FPSゲームはあまりやらないので、まさかGPUが求められる作業をすることになるとは…

自分のPCにstable diffusion WEB-UIを導入する流れ

色々検索していたら、youtubeで導入画像付きで紹介して下さっている動画が見つかりました。
「フォルダ名に全角はNG」とかの初心者目線情報を意識してくれてるのは親近感を感じます。

参考にさせて頂いた動画

タイムリーに当記事の10日ほど前に初心者向けの動画を上げて下さっていた方がいました。
日進月歩の分野なので、直近での解説動画はありがたいです。

この項目に関しては、ほぼこの動画の通りやっただけなので、説明に関しては端的に。
詳しくは動画の通りにやれば基本的に問題ないと思います。

pythonのダウンロードとインストール(ver.3.10.6)

ダウンロードページに行き、ダウンロード&インストールする。

gitのダウンロードとインストール

ダウンロードページに行き、ダウンロード&インストールする。

Stable Diffusion(任意の名前)のフォルダでコンソール画面を開き、コマンド入力

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
モデルデータのダウンロードと指定場所に配置

ダウンロードページに行き、ダウンロード後に指定のフォルダに置くだけです。
置く場所を間違えないようにしましょう。
今回使用している「anything-v4.5-pruned.safetensors」は二次元的な絵が得意なモデルとのことです。

webui-user.batを起動

running on local urlが表示されたら、そのurlを開く(初回はかなり時間がかかります)。

終わったら下記のローカルウェブサイトに移動して使いましょう。
http://127.0.0.1:7860 ※異なるかもしれないので各自で確認
これで起動完了です。

「Stable Diffusion checkpoint」を変更する

モデルを入れただけではダメです。
初期では「v1-5-pruned-emaonly.safetensors」になっていると思うので、「anything-v4.5-pruned.safetensors」に変更するのを忘れずに(ここだけは動画になかったかも)。
最初これをしてなくて、気持ちが悪い顔が何個も生成されたりと、軽くホラーな画像が生成されてしまいました。
もし「anything-v4.5-pruned.safetensors」が見当たらなかったら入れるフォルダを間違えています。

stable diffusion WEB-UI を実際に使ってみる

プロンプト

best quality,a girl

おー、できましたね!

風景はどうかな。

best quality,castle,Strikingloo’s Garden

個人的には写実的な風景の方がいいので、プロンプトをいじってみましょう。

プロンプト

very beautiful forest landscape, extremely detailed

ネガティブプロンプト

flat color, flat shading, low res, signature, watermark, username, artist name, text

こちらは「くろくまそふと」様の調整を参考にさせてもらいました。
上手くいじれば、トップページの画像とかにも使えそうですね。

最後に

丁寧な動画解説があったので、初心者の自分でも問題なく画像生成ができました

今回は、3通り提示した方法のうち、自分のPCだけで完結する方法を試したので制限なく使えることになります。
GPUのスペックは上で示したように
nvidia GeForce RTX 3060 Ti /VRAM8G

これで下記のようなイラストの生成は1枚約10秒程度なので、本格的に使いまくるのでなければこの位のスペックでも大丈夫そうです。
制限のある外部アプリや、導入が難しそうなクラウドサービスを使わずとも趣味レベルなら問題なさそうです。

上で使ったプロンプトの一部をforest ⇒ aurora に変えただけですが、思いのほかいいのが出来ましたね。
これトップに飾ろうかな。

本当に動画の通りやればできるので、興味を持たれた方は、「Stable Diffusion web UI」一度触ってみることをオススメします。
GPUによって生成速度は変わりますが、自分の思ったような画像ができるまで遊ぶだけでも面白いですね。
人物イラスト、背景イラスト、(ほぼ)写真なイラスト、なんでもござれ

ちなみにpromptのことを「呪文」というらしいです。
ちょこちょこ呪文探しの旅をしてみましょうかね。

コメント

コメントする

目次