SDXL時代,Stable Diffusion的界面設(shè)計
SDXL相對于之前生態(tài)良好的SD1.5,無需進(jìn)行過多的微調(diào),就可以達(dá)到讓人驚艷的效果,原因在于參數(shù)的數(shù)量提升,量變成質(zhì)變。然而,為什么沒有快速普及?如何破局?
使用難度
這種質(zhì)量的提升,帶來好處的同時,也帶來兩個方面的使用難度,一是硬件難度,普通的8G顯存顯卡不是很能流暢運行,二是SDXL有兩個模型需要使用,實際上是兩套流程配合,當(dāng)下可以極好匹配兩套流程的界面是專業(yè)向的 ComfyUI,然而,專業(yè)向就代表著拒絕了大多數(shù)人。
對于硬件難度,花錢提升電腦可以解決。
但是軟件學(xué)習(xí)難度,就攔住了很多人。讓一個沒怎么接觸 AI 繪圖的人面對節(jié)點式編程,顯然會打擊初學(xué)者的入門積極性。
ComfyUI
本人很喜歡這種自定義工作流的界面,可以方便的復(fù)用,甚至想著加入編程節(jié)點更好(有時候去給作者提個建議),我自己也寫了一些自用的節(jié)點。
不過,ComfyUI對于新手來說,暫且排除吧,很多人需要尋找一個易于操作的界面。
SD WEBUI
使用 A111 的SD WEIUI ,一直是SDXL出來之前的主流,然而一代版本一代神,SDXL出來已久,它對SDXL的支持還不是很完善。這涉及到代碼架構(gòu)的問題,不是那么輕易就轉(zhuǎn)換的。
如果后續(xù)軟件架構(gòu)調(diào)整以匹配SDXL,界面邏輯完善,依托于其良好的插件生態(tài),也許會不錯。
不過,即便如此,WEIUI因為對SDXL的支持,堆積的參數(shù)也差不多是翻倍的情況(因為兩套流程),對于入門者,還是學(xué)習(xí)門檻高的?;蛟S,放棄后一套精修的流程也是一條路?
(截止至九月初,controlnet跟進(jìn)了,refiner只能和base同參數(shù))
SwarmUI(SD官方)
這套WebUI是匹配comfyui的,試圖打通節(jié)點式編程和WebUI界面的屏障(但webui的接口也有),目前正在發(fā)展階段。
之前ComfyUI也有一個叫做Comfybox的界面,SwarmUI和其類似,但SwarmUI支持更多功能,官方試圖做一個大而全的平臺。
以體驗而言,截止到2023年8月底,這套UI還不是那么接近普通用戶,而對于理解各類參數(shù)的專業(yè)用戶,有點何不用ComfyUI的感覺。
總而言之,官方出品,如果繼續(xù)優(yōu)化,未來可期。
Fooocus
不得不說,項目的作者為SD的普及做了巨大貢獻(xiàn),在公開了ControlNet的訓(xùn)練方式后,作者轉(zhuǎn)而為SDXL打造了這個開源軟件。
這是一個擁有極簡界面的文生圖工具,作者融合了WEBUI和ComfyUI的優(yōu)勢,且優(yōu)化了顯存的使用和圖片的生成速度,4G顯存也可以使用。
顯然,這是一個對標(biāo)MidJourney的軟件,作者在問題回復(fù)里提到,這個項目專注于打造文生圖軟件,沒有加入ControlNet的計劃(2023年8月看到的)。這就是極致,個人很稱贊這種做法。
不過,需要ControlNet進(jìn)行圖面控制的設(shè)計工作者不得不考慮其他界面了。
(截止至九月初,有分支做了controlnet和圖生圖等支持,不過界面還不是很完善)
設(shè)計工作界面的設(shè)計
設(shè)計工作需要的界面是什么樣的?太簡單的,如Fooocus,缺少必要的圖面控制,太復(fù)雜的,如ComfyUI,讓初學(xué)者望而卻步。
個人的初步判斷是,一個功能尚可而且方便入門的界面,大概是WEBUI的簡化版,或者說是Fooocus的復(fù)雜版。
界面主要考慮文字和圖片雙重控制。
文字,很簡單,只有兩種:
-
正向提示詞
-
反向提示詞
提示詞可以多語言輸入,支持中文和英文,甚至其他語言,而且可離線部署。
圖片控制方面,就比較多樣了,基于圖片的控制手段,我暫且歸位四類:
-
圖生圖,以重繪的方式來控制,
-
ControlNet,在生成階段介入進(jìn)行控制,
-
Clip Vision,在提示詞階段介入控制,
-
還有一種被放在SD WEBUI的ControlNet中的參考圖控制,ComfyUI有reference節(jié)點對應(yīng)。
以用戶角度而言,如果SD是一個高級助理,對于生產(chǎn)一張圖片,我需要怎么讓助理明白我要什么呢?
首先,我通過語言告訴它我要什么樣的圖,然后最好給它一張圖作為我語言的補充。這對應(yīng)于提示詞和Clip vison(我稱之為視覺提示詞)。
接著,我還會告訴它我需要多少張圖,告訴它這些條件參考到多少程度就可以了,也就是明確給它發(fā)揮的空間,這對應(yīng)于圖片數(shù)量和CFG scale。
有時候我需要控制圖片的線條、輪廓、景深、人物動作等內(nèi)容怎么辦,那就是用ControlNet(控制網(wǎng))。
各個條件太多了,如何平衡各個條件的權(quán)重?那么就在大多數(shù)圖片控制里都加一個權(quán)重。
如果用戶覺得這些功能不夠用怎么辦?比如訓(xùn)練了一個LORA要加載。不要急,給個高級功能的開關(guān)。
總而言之,致敬了Fooocus的極簡,又加入了必要的圖片控制參數(shù)。
作為一個非編程人員,經(jīng)過向 AI 學(xué)習(xí)以及咨詢專業(yè)人士,一兩周時間完成了這個界面,并且完美鏈接了comfyui的后端。
供其他界面設(shè)計者參考。
界面參考
