這兩天我集中用 GPT-Image-2 跑了一批商業(yè)海報(bào)提示詞,主題并不復(fù)雜:未來(lái)科技感、電商轉(zhuǎn)化風(fēng)、豎版宣傳海報(bào)、角色主視覺(jué)、頂部留標(biāo)題區(qū)、底部留按鈕區(qū)??瓷先ブ皇浅R?guī)生圖任務(wù),但實(shí)際跑下來(lái),我最大的感受是:GPT-Image-2 的進(jìn)步,已經(jīng)不只是“畫(huà)得更好”這么簡(jiǎn)單,而是開(kāi)始真正理解“我要拿這張圖去干什么”。
以前我們?cè)u(píng)價(jià)一個(gè)生圖模型,往往會(huì)看三件事:細(xì)節(jié)夠不夠、光影強(qiáng)不強(qiáng)、風(fēng)格像不像。但到了 GPT-Image-2 這一代,判斷標(biāo)準(zhǔn)明顯變了。它最有價(jià)值的地方,不只是“出圖精致”,而是對(duì)任務(wù)意圖的理解能力更強(qiáng)了。當(dāng)我在提示詞里寫(xiě)“高轉(zhuǎn)化電商風(fēng)中文豎版海報(bào)”“頂部預(yù)留大面積標(biāo)題區(qū)”“中部突出主視覺(jué)人物”“底部預(yù)留按鈕區(qū)域”時(shí),它不再只是機(jī)械地堆科技元素,而是會(huì)盡量往“可用版式”上靠。
這點(diǎn)非常關(guān)鍵。因?yàn)楹芏嗯f模型雖然能畫(huà)出炫酷畫(huà)面,但畫(huà)出來(lái)的圖常常只適合看,不適合用。人物占滿(mǎn)畫(huà)面、背景信息過(guò)雜、沒(méi)有留白、文字根本沒(méi)地方放。結(jié)果就是:第一眼很驚艷,第二步就廢了,設(shè)計(jì)師仍然得重搭一張版。而 GPT-Image-2 這次最明顯的變化,是它開(kāi)始具備一種接近“視覺(jué)任務(wù)理解”的能力。你不是在單純讓它作畫(huà),而是在給它一個(gè)更接近真實(shí)商業(yè)需求的 brief。
我這次連續(xù)測(cè)試了三類(lèi)風(fēng)格。第一類(lèi)是藍(lán)紫賽博沖擊風(fēng),關(guān)鍵詞是高密度 HUD、霓虹能量線(xiàn)條、數(shù)字粒子、科技光束、強(qiáng)對(duì)比、強(qiáng)沖擊。第二類(lèi)是銀藍(lán)極簡(jiǎn)高級(jí)風(fēng),強(qiáng)調(diào)低飽和、通透感、留白、官網(wǎng)主視覺(jué)氣質(zhì)。第三類(lèi)是黑金高端奢華風(fēng),重點(diǎn)是深黑金屬、金色能量紋路、克制但昂貴的視覺(jué)氛圍。放在以前,這三類(lèi)需求通常意味著三套完全不同的風(fēng)格控制邏輯,模型經(jīng)常會(huì)出現(xiàn)串味:極簡(jiǎn)不夠干凈,黑金容易臟,賽博容易亂。但 GPT-Image-2 在這方面的表現(xiàn)比預(yù)期穩(wěn)得多,尤其是材質(zhì)語(yǔ)言和整體氣質(zhì)的統(tǒng)一性,已經(jīng)明顯高于很多只會(huì)“堆效果”的模型。
更值得注意的是,它對(duì)“商業(yè)海報(bào)感”的理解正在變強(qiáng)。比如“人物站在中央偏下位置”“畫(huà)面適合后期加字”“不要求完整大段可讀文字”“信息層級(jí)明確”,這些并不是傳統(tǒng)意義上純視覺(jué)描述,而是設(shè)計(jì)工作流里的表達(dá)。GPT-Image-2 對(duì)這些話(huà)的響應(yīng),不再像以前那樣隨機(jī)。它會(huì)真的給你留出一塊相對(duì)完整的區(qū)域,讓標(biāo)題和賣(mài)點(diǎn)有地方落。雖然還不能說(shuō)完全等同于設(shè)計(jì)師,但至少已經(jīng)從“畫(huà)面制造機(jī)”往“任務(wù)型視覺(jué)生成工具”邁了一步。
當(dāng)然,它也遠(yuǎn)沒(méi)到完美。
第一,中文文本依然不是強(qiáng)項(xiàng)。如果你強(qiáng)行要求它把“奧特曼圖片生成-2 中轉(zhuǎn)滿(mǎn)血API”“圖片生成低至2分”這類(lèi)完整文案直接準(zhǔn)確寫(xiě)在圖上,翻車(chē)概率依舊不低。它能生成“像文字的東西”,甚至有時(shí)會(huì)給你一種“差不多能看”的錯(cuò)覺(jué),但真正放大細(xì)看,還是容易出現(xiàn)錯(cuò)字、變形字、偽文字。所以現(xiàn)階段最穩(wěn)的做法依然是:讓模型負(fù)責(zé)底圖和氛圍,文字交給后期排版。
第二,提示詞越像設(shè)計(jì) brief,效果越好;越像堆形容詞,反而越容易失控。 這次我最深的一個(gè)經(jīng)驗(yàn)是,別把所有辭藻一股腦砸進(jìn)去。真正有效的提示詞,不是“酷炫、震撼、未來(lái)、高級(jí)、炸裂”這類(lèi)空泛修飾,而是明確告訴模型:主體是誰(shuí)、站在哪里、畫(huà)面需要留哪里、這張圖最終要服務(wù)什么用途。換句話(huà)說(shuō),GPT-Image-2 更像一個(gè)“理解需求”的模型,而不是“聽(tīng)關(guān)鍵詞拼圖”的模型。
第三,它對(duì)風(fēng)格遷移的邊界更敏感了。 當(dāng)提示詞里帶有明確 IP 指向、品牌感過(guò)強(qiáng)或者風(fēng)格版權(quán)痕跡明顯時(shí),模型有時(shí)會(huì)主動(dòng)往更泛化、更原創(chuàng)的方向偏。這從合規(guī)角度是可以理解的,但也意味著:如果你想要的是“某個(gè)經(jīng)典角色的神似感”,最好改寫(xiě)成“某種氣質(zhì)”“某種材質(zhì)”“某種敘事氛圍”,而不是直接把全部視覺(jué)指令壓在 IP 名字上。
那為什么我會(huì)說(shuō),它正在把生圖模型帶到一個(gè)新階段?
因?yàn)檫^(guò)去我們對(duì)生圖的期待,核心是“會(huì)不會(huì)畫(huà)”;而現(xiàn)在開(kāi)始變成“會(huì)不會(huì)理解任務(wù)”。這不是一個(gè)小差別。前者決定了圖好不好看,后者決定了圖能不能進(jìn)入真實(shí)工作流。電商、設(shè)計(jì)、運(yùn)營(yíng)、內(nèi)容團(tuán)隊(duì)真正需要的,從來(lái)不只是壁紙式作品,而是能直接進(jìn)入海報(bào)、封面、Banner、落地頁(yè)的半成品視覺(jué)資產(chǎn)。GPT-Image-2 最讓我看到希望的地方,就是它正在縮短“提示詞—底圖—設(shè)計(jì)可用”之間的距離。
如果用一句話(huà)總結(jié)這次實(shí)測(cè),我會(huì)這么說(shuō):GPT-Image-2 的突破,不是把圖片生成得更像照片,而是把生成過(guò)程變得更像一次真實(shí)的視覺(jué)協(xié)作。 它還不能取代設(shè)計(jì)師,也不能完全取代后期,但它已經(jīng)不再只是一個(gè)負(fù)責(zé)“出張圖看看”的模型,而是開(kāi)始具備“幫你搭出一個(gè)可用視覺(jué)方案”的能力。
這就是我為什么覺(jué)得,它把生圖模型帶到了一個(gè)新階段。不是因?yàn)樗鼪](méi)有缺點(diǎn),而是因?yàn)樗谝淮巫屛颐黠@感覺(jué)到:生成式圖像,正在從“炫技工具”變成“生產(chǎn)工具”。