在上一篇文章中,我們達(dá)成了一個(gè)共識(shí):在云端大模型時(shí)代,一張模糊的真人實(shí)拍圖,比精準(zhǔn)的 OpenPose 骨架圖更懂“物理規(guī)則”。
但這并不意味著我們可以隨便去 Pinterest 上下載幾張時(shí)尚大片扔給 AI。事實(shí)上,如果你這么做了,大概率會(huì)得到一張只有氛圍感、但肢體結(jié)構(gòu)完全崩壞的廢片。
當(dāng)我們把一張照片定義為“動(dòng)作參考”時(shí),它的屬性就變了。它不再是給人欣賞的攝影作品,它是寫給機(jī)器閱讀的“視覺代碼”。
給人類看的照片,講究光影層次、構(gòu)圖曖昧;但給 AI 看的照片,“好看”往往是致命的毒藥。
我們需要建立一套全新的、甚至有些“反審美”的選圖標(biāo)準(zhǔn)。
一、 剪影優(yōu)先:比“像”更重要的是“不粘連”
人類攝影師喜歡指導(dǎo)模特做一些有互動(dòng)感的動(dòng)作:雙手交叉抱胸、手托下巴、雙腿交疊。這些動(dòng)作在人眼看來很有層次感,因?yàn)槲覀兊拇竽X天生具備強(qiáng)大的“深度知覺”,能輕易分清哪是手,哪是胸。
但在 AI 的編碼器里,世界是被拍扁的。
當(dāng)一張照片里,模特穿著深色衣服,把手放在胸前時(shí),AI 看到的往往不是“手搭在胸口”,而是一塊“長(zhǎng)了手指的胸肌”。它分不清色塊的邊界,于是它會(huì)試圖把手和身體“融合”在一起。這就是為什么你的 AI 角色經(jīng)常會(huì)出現(xiàn)“手陷入身體里”或者“胳膊斷了一截”的恐怖畫面。
所以,在構(gòu)建 AI 動(dòng)作庫時(shí),我們必須執(zhí)行一個(gè)極其嚴(yán)苛的“肢體分離原則”:
一張好的有效的動(dòng)作參考圖,肢體與軀干之間必須有清晰的區(qū)分。
這導(dǎo)致了一個(gè)有趣的現(xiàn)象:動(dòng)作庫里的姿勢(shì),往往看起來并不優(yōu)雅,甚至有些僵硬和夸張。
我們需要模特把腋下打開,把雙腿分開,把手掌遠(yuǎn)離面部。這些在傳統(tǒng)攝影中被視為“沒感覺”的平鋪直敘,恰恰是 AI 最喜歡的“清晰代碼”。只有把四肢像零件一樣拆開展示,AI 才能在重繪時(shí),把它們組裝成你想要的任何優(yōu)雅姿態(tài)。
為了結(jié)果的自然,輸入的姿勢(shì)必須是“刻意”的。

二、 特征中性:越“丑”的衣服越好用
在做動(dòng)作參考時(shí),我們很容易陷入一個(gè)誤區(qū):我想生成一個(gè)賽博朋克的女戰(zhàn)士,所以我找了一張拿著光劍、穿著機(jī)甲的 Coser 照片做參考。
結(jié)果呢?AI 不僅學(xué)了動(dòng)作,還把 Coser 身上那些復(fù)雜的機(jī)甲碎片、發(fā)光的線條,一股腦地貼到了你的角色身上。你的角色原本設(shè)定是穿校服的,現(xiàn)在可能變成了混合兩個(gè)圖像的各自特點(diǎn)的融合圖。
這就是參考圖帶來的“視覺噪音”的污染。
AI 的注意力機(jī)制是非常難以捉摸的。當(dāng)參考圖的服裝紋理過于豐富(比如蕾絲、格子、復(fù)雜的褶皺)時(shí),AI 會(huì)誤以為這些紋理是“動(dòng)作結(jié)構(gòu)”的一部分。
因此,一個(gè)合格的動(dòng)作庫模特,應(yīng)該是“隱形”的。
這就是為什么我建立的標(biāo)準(zhǔn)庫里,模特穿的都是最丑、最基礎(chǔ)的灰色緊身衣。
緊身:為了讓 AI 看清肌肉的走勢(shì)和關(guān)節(jié)的折疊,而不是看清布料的垂墜。
素色:剝奪 AI 對(duì)紋理的注意力,強(qiáng)迫它只能關(guān)注“這個(gè)人在做什么”。
在參考圖維度上,信息的“貧乏”就是最大的“豐富”。 我們必須人為地把參考圖里的“風(fēng)格信息”降到最低,把你不想讓 AI 抄走的細(xì)節(jié)全部抹平,它才會(huì)乖乖地只抄走你想要的那個(gè)動(dòng)作。

三、 極致對(duì)比(Contrast):人為制造“視覺焦點(diǎn)”
很多生活照之所以不能用,是因?yàn)楸尘疤S富了。
你站在樹蔭下拍了一張?zhí)S的照片,地上的影子斑駁陸離。人眼能一眼看出哪里是腳,哪里是樹影。但在 AI 眼里,那塊黑色的影子可能就是你的“第三條腿”。
AI 的視覺識(shí)別本質(zhì)上是在做“語義分割”。如果背景不夠干凈,AI 就得消耗大量的算力去猜“主體在哪里”。一旦它猜錯(cuò)了,你的圖就崩了。
所以,動(dòng)作庫的第三條法則就是:把“摳圖”的工作在物理世界先做完。
我們拍攝動(dòng)作庫時(shí),幾乎只用純白或淺灰背景,并且打光要硬,要讓人物邊緣像刀切一樣銳利。
我們不是在追求攝影藝術(shù)中的“空氣感”或“融入環(huán)境”,我們是在追求“標(biāo)本感”。我們要像制作昆蟲標(biāo)本一樣,把人物從環(huán)境中無情地剝離出來,貼在一個(gè)絕對(duì)干凈的背景板上。
只有這樣,AI 才能在毫秒之間,毫不猶豫地鎖定住那個(gè)動(dòng)作,而不是把背景里的垃圾桶也當(dāng)成你身體的一部分畫出來。

為了美,請(qǐng)先擁抱“枯燥”
重新審視我們的 AI 動(dòng)作庫,你會(huì)發(fā)現(xiàn)它毫無美感可言。
里面裝滿了穿著灰色秋衣秋褲的人,在慘白的背景下,做著四肢大開的奇怪體操。這些圖如果發(fā)到 Instagram 上,一張贊都騙不到。
但正是這些枯燥、刻意、甚至有些丑陋的圖片,構(gòu)成了 AI 寫真最堅(jiān)實(shí)的工業(yè)地基。
因?yàn)樗鼈兪羌兇獾摹肮δ苄詧D像”。它們犧牲了作為照片的獨(dú)立審美價(jià)值,換取了作為 AI 參考的高保真度。
在 AI 創(chuàng)作的世界里,只有輸入?yún)⒖紙D的足夠“無聊”,輸出的才能足夠“驚艷”。