本文將介紹 Stable Diffusion 使用的主要模型及其用法。
1 模型下載
Stable Diffusion (簡(jiǎn)稱SD) 模型主要從 Huggingface, github, Civitai 下載。
Huggingface:主要提供主流 AI 繪畫模型下載。
github:也有一些小模型放在 github 下供下載使用。
Civitai:AI藝術(shù)共享平臺(tái),可下載海量SD開源模型(推薦)。
2 模型類別
SD 支持不同類型的模型,比如:基礎(chǔ)模型,Lora,ControlNet,VAE,CLIP等。模型擴(kuò)展名一般為ckpt,safetensors,pt,pth等。下面介紹幾種最重要的模型。
3 基礎(chǔ)模型
3.1 介紹
基礎(chǔ)模型一般包含完整的 TextEncoder、U-Net、VAE。
模型大小一般為2-8G,真實(shí)風(fēng)格模型相對(duì)2D風(fēng)格模型更大。
目前最新的模型是 SDXL 1.0(約占8G顯存),最常用的模型是 SD 1.5(約占4G顯存)。
需要手工下載后,復(fù)制到 models/Stable-diffusion/ 目錄下,才可識(shí)別和使用。
3.2 推薦
- v1-5-pruned-emaonly:默認(rèn)模型,偏真實(shí)風(fēng)格,可從 huggingface 下載
- bluePencilXL_v010.safetensors:最新版 SDXL 1.0 模型
- anythingV3_fp16.ckpt:2D 動(dòng)畫風(fēng)格
- Counterfeit:接近真實(shí)場(chǎng)景的二次元風(fēng)格(2.5D),氛圍感很好,老式動(dòng)慢風(fēng)格
4 Lora模型
4.1 介紹
Lora是一種較小的繪畫模型,一般體積在幾十到幾百兆左右。它是對(duì)大模型的微調(diào)。生成圖片時(shí)只能選擇一個(gè)大模型,但可選擇多個(gè)Lora。
Lora解決的問題是:?jiǎn)蝹€(gè)模型難以覆蓋不同風(fēng)格,而基礎(chǔ)模型又太大,普通設(shè)備無法訓(xùn)練,Lora可分別針對(duì):主體,風(fēng)格,動(dòng)作訓(xùn)練增補(bǔ)模型,與基礎(chǔ)模型配合使用,以改進(jìn)具體功能。
Lora只需要少量的數(shù)據(jù)就可以訓(xùn)練(如幾十張標(biāo)注的相片),比訓(xùn)練大模型要簡(jiǎn)單很多,用戶可以用自己的數(shù)據(jù)訓(xùn)練Lora,也可在 Civitai 進(jìn)行下載,下載后放到 SD的 models/Lora/ 目錄下即可使用。
4.2 推薦
- Detail Tweaker LoRA:增強(qiáng)/減少細(xì)節(jié),保持整體風(fēng)格/人物; 可結(jié)合各種基礎(chǔ)模型(包括動(dòng)畫和現(xiàn)實(shí)模型)。
- GHIBLI_Background:吉卜力風(fēng)格(類似宮崎駿動(dòng)畫風(fēng)格),治愈系畫風(fēng)的建筑和景觀(背景)。
5 VAE模型
5.1 介紹
VAE是變分自編碼器,負(fù)責(zé)將潛空間的數(shù)據(jù)轉(zhuǎn)換為正常圖像。
在SD中切換 VAE,可看作切換濾鏡,它在生成圖片過程中配合主模型使用,起到調(diào)色和微調(diào)的作用,比如有些模型色調(diào)不夠清晰明亮,可考慮加 VAE 一起使用。
切換模型時(shí),對(duì)應(yīng)的VAE有時(shí)會(huì)自動(dòng)下載;手動(dòng)下載VAE模型,需要復(fù)制到 models/VAE/ 目錄下,然后在 WebUI 界面上設(shè)置:Setting選項(xiàng)卡->左邊選 Stable Diffusion->SD VAE
5.2 推薦
mse-840000:通用 VAE
ClearVAE:動(dòng)漫 VAE
6 ControlNet模型
6.1 介紹
AI 繪圖的主要問題是畫面不可控,只能通過多次嘗試,再篩選的方式出圖,很難達(dá)到可預(yù)期的穩(wěn)定輸出,ControlNet 主要解決這一問題。其主原理是:利用額外網(wǎng)絡(luò)對(duì)基礎(chǔ)模型做微調(diào)。
ControlNet可以提取圖片的線稿、人的資態(tài)、風(fēng)景等難以用 prompt 描述的元素。在生成圖片時(shí)疊加各種效果,比如給圖A中的人設(shè)置圖B中的姿式。它包括預(yù)處理和疊加模型,預(yù)處理是從圖片A中提取行為,疊加模型將該行為應(yīng)用到圖片B的生成中。相對(duì)于圖生圖,ControlNet 提供的信息更為純粹。
具體原理見論文 2023年2月 :https://arxiv.org/abs/2302.05543,
6.2 安裝
- 安裝 ControlNet 插件(目前星最高的插件):
WebUI界面->Extension 選項(xiàng)卡->Available選項(xiàng)卡->Load from按鈕->Order選按Star排序->安裝 sd-webui-controlnet 插件,正常安裝后在 Installed選項(xiàng)卡中可以看到 - 下載模型
預(yù)處理器會(huì)自動(dòng)從 HuggingFace 下載;模型需要另外安裝,模型下載地址:
https://huggingface.co/lllyasviel/ControlNet/tree/main/models
目前有8個(gè)模型可供下載,每個(gè)模型大小都在5G左右,和之前相比做了一些合并。
6.3 主要功能
- 資態(tài)約束:Openpose(可根據(jù)參考圖設(shè)置:表情,手指、身體資態(tài))
- 空間深度約束:Depth(對(duì)空間場(chǎng)景深度的還原,含人體)
- 抽取線條和還原:Canny 用于還原外型特征;SOFTEDGE/HED 整體邊緣檢測(cè),識(shí)別大概輪廓;比CANNY約束??;SCIBBLE 涂鴉,比SOFTEDGE更自由,可根據(jù)簡(jiǎn)單涂鴉生成圖片(注意:畫線稿時(shí)不要加陰影,如果使用白底黑線,需要用 invert 預(yù)處理器)
- 物品類形約束:Seg
- 風(fēng)格約束:Normal
6.4 使用方法
- 上傳圖片
- 在界面左下點(diǎn)開 ControlNet 折疊界面
- 上傳待參考的圖片(如上傳一張線稿)
- 選擇模型
- 選擇類型 Control Type,比如 canny,選中后列出該類別對(duì)應(yīng)的所有可用的預(yù)處理和模型
- 選預(yù)處理 Preprocess,比如 canny,預(yù)處理器將從圖片中讀取信息;然后點(diǎn)右邊的爆炸圖標(biāo),可預(yù)覽其處理效果。
- 選擇 ControlNet 模型,比如 control_sd15_canny,用于生成圖像。
- 設(shè)置參數(shù)
- 注意一定要勾選 Enable,否則 ControlNet 不起作用。
- 生成圖
- 點(diǎn)擊右上角的生成按鈕生成圖像
6.5 注意
- 測(cè)試 ControlNet 效果時(shí),需要固定 Seed,以保證每次生成的基礎(chǔ)圖是一樣的
- 第一次使用涂鴉功能時(shí),可嘗試xdog模式,它的效果更好
7 其它模型
其它模型,比如恢復(fù)面部細(xì)節(jié)的 CodeFormer,利用圖片生成提示詞的 CLIP & DeepBooru,一般第一次使用時(shí)都會(huì)自動(dòng)下載模型到 models 的對(duì)應(yīng)子目錄中,需要耐心等待。如果下載不成功,請(qǐng)根據(jù)后臺(tái)提示下載文件,然后復(fù)制到對(duì)應(yīng)目錄。
8 注意事項(xiàng)
- 如果想真正把SD應(yīng)用起來,一定要使用 Lora和ControlNet,Lora負(fù)責(zé)指定具體的主體和場(chǎng)景,ControlNet負(fù)責(zé)更好地控制畫面。
- 基礎(chǔ)模型需要與其上的 VAE,Lora 版本一致,否則無法使用
- 基礎(chǔ)模型與其上的 VAE,Lora 風(fēng)格盡量(動(dòng)畫/真實(shí))一致
- 使用 ControlNet 時(shí)被修改的圖片和參考圖片最好風(fēng)格一致,動(dòng)畫人物和真人比例不一致可能造成問題
9 參考
SDXL模型b站視頻
耗時(shí)7天,終于把15種ControlNet模型搞明白了!
Stable Diffusion進(jìn)階教程!超詳細(xì)的 ControlNet 實(shí)用入門指南