Copilot さんや ChatGPT さんなどの生成 AI サービスが、Comfy UI などでローカルで生成した絵を実写化するその実力を思い知り、いよいよ v1.0 が公開された Anima で下絵を描き、これを実写化するという一つの方向を今、模索しています。
アニメ・イラストに強い画像生成AI「Anima」の正式版がついに登場、タグ・自然言語両対応でSDXLやIllustrious系モデルが動作するPCなら余裕でローカル実行可能ひとまず、Anima でのプロンプト修行は、いったん置いといて、Copilot さんや ChatGPT さんに実写化をお願いして拒否られたとき、Comfy UI を使ってローカルで何とか実写化をする方法も、へ移行で模索していたのですが、これならいけそうと言う目処が立ちました。
Qwen Image Edit
それが Comfy UI にも標準テンプレートとして用意されている Qwen Image Edit を使った「Illustration to realism」(日本語で「イラストから写実へ」となっている)というフロー。
まずは論より証拠、Copilot さんや ChatGPT さんが作ってくれた絵と比較です。




Copilot さんや ChatGPT さんに比べると、背景の実写化は甘いですが、人物はかなりなレベルだと思います。
ただ標準テンプレートをそのまま使っても最初は上手くいきませんでした。
そこでまず Comfy UI に標準で付いてくるフローに使われているモデルが古かったので、以下のように入れ替えてました。
| テキストエンコーダ (TextEncoders) | qwen_2.5_vl_7b_fp8_scaled.safetensors | そのまま |
| モデル (DiffusionModels) | qwen_image_edit_2509_fp8_e4m3fn.safetensors | Qwen-Image-Edit-2511-FP8_e4m3fn.safetensors |
| Lora | Anything2RealAlpha.safetensors | anything2real_2601_A_final_patched.safetensors |
| Lora | Qwen-Image-Edit-2509-Lightning-8steps-V1.0-bf16.safetensors | Qwen-Image-Edit-2511-Lightning-8steps-V1.0-bf16.safetensors |
| VAE | qwen_image_vae.safetensors | そのまま |
特に Anything2Real という Lora がキモで、実は 10 回くらいガチャを引いても最初は一度も当たらないことがざらだったのですが、これを置き換えると劇的に生成精度が上がりました。
その他のモデルや Lora はどれくらい効果があるのか比較していないのですが、とりあえず Qwen-Image-Edit-2511-FP8_e4m3fn.safetensors/Qwen-Image-Edit-2511-Lightning-8steps-V1.0-bf16.safetensors はこちらから拝借しました。
これらにプラスして、やたら汗っかきだったりびしょ濡れだったり、ひどいときは雨降ってたりする絵が続出したので、ネガティブプロンプトに「wet skin」と入れて、さらに改善。
それでも入力する絵によって、ハマる絵とそうでない絵があって、なかなかズバッと 1 発で出ませんが、10 回ガチャ引けば 2 ~ 3 枚はいけてる絵を出してくれるようになりました。
もともと Copilot さんや ChatGPT さんが作ってくれないときのためのものなので、今後も時間があれば、改善を続けていくとして、基本路線はこれでいこうと思います。
Anima のプロンプト修行は継続中…
Z Image Turbo の威力があまりに強烈だったので、この路線で実写化を考えていたのですが、もう使えるものは何でも使う方針で行きます。ちなみに 896×1152 くらいのサイズで元絵を作っていたので、これをフル HD クラスまで大きくするときは、これも Comfy UI にも標準テンプレート Upscale Z Image Turbo 2K を使っています。
概ね方向性としては目処がついたので、Anima のプロンプト修行に励もうと思いますが、一応、現時点の成果を一枚…
まずは元絵と、これを Qwen Image Edit で実写化したものから。


ちなみに、これを Copilot さんや ChatGPT さんに実写化を丸投げしたしたものがこちら…


どれも素晴しいのですが、質感には差はあり、ただこれは実写化を依頼するときのプロンプトで調整もできそうです。しかし、メイクなどルックスは日本人の好みだと ChatGPT さんに軍配かな? w
今、Stable Diffusion を触り始めた頃の楽しさが蘇りつつあります (o^^o)