聲明:本文僅代表個(gè)人觀點(diǎn),與其它個(gè)人或組織無(wú)關(guān)。文中對(duì)社區(qū)守護(hù)者聯(lián)盟管理者 任真 的發(fā)言引用已獲得許可,其內(nèi)容僅供參考,文中對(duì)其進(jìn)行了不影響原意的修改,以切合書(shū)面語(yǔ)風(fēng)格。
動(dòng)機(jī)
昨天我在社區(qū)守護(hù)者聯(lián)盟客服群看到了這樣一件事:一名作者的文章被鎖定,申訴被駁回,給出的理由是文章內(nèi)容由 AI 生成。
審核方給出的證據(jù)是一張 AI 生成內(nèi)容檢測(cè)工具的截圖,上面顯示文章有 95% 概率由 AI 生成。
借此機(jī)會(huì),我詢問(wèn)了官方對(duì)于 AI 生成內(nèi)容的看法,得到的回復(fù)如下:
簡(jiǎn)書(shū)是原創(chuàng)平臺(tái),不接受使用人工智能創(chuàng)作的內(nèi)容,沒(méi)有權(quán)重與是否推文之分。如果被其它用戶舉報(bào),查證屬實(shí)后會(huì)進(jìn)行處理。
——任真
于是我繼續(xù)追問(wèn),如果只使用 AI 生成大綱,然后自己完成內(nèi)容撰寫(xiě)呢?沒(méi)有人給出意見(jiàn)。
之后,我又詢問(wèn)了他們使用工具的來(lái)源,并通過(guò)搜索找到了對(duì)應(yīng)工具,對(duì)相同文段進(jìn)行了檢測(cè),確認(rèn)檢測(cè)結(jié)果屬實(shí)。
注意,結(jié)果屬實(shí)不代表結(jié)果正確,只意味著結(jié)果沒(méi)有被惡意篡改。
于是圍繞這個(gè)問(wèn)題,我們進(jìn)行了一番討論,期間我提出要和社區(qū)商議這一問(wèn)題,沒(méi)有人明確表態(tài),至此,我打算寫(xiě)篇文章聊聊這個(gè)話題。
于是在討論結(jié)束后我表示了自己的計(jì)劃,并申請(qǐng)到了相關(guān)發(fā)言的使用許可。
另外,上述提到被鎖的文章在經(jīng)過(guò)多工具比對(duì),并對(duì)作者其它文章進(jìn)行檢測(cè)后判定為人工創(chuàng)作內(nèi)容,現(xiàn)已解鎖。
問(wèn)題
從這一事件中,我們找到了幾個(gè)疑問(wèn)點(diǎn)。
首先,平臺(tái)以使用 AI 創(chuàng)作為由對(duì)作者進(jìn)行鎖定文章、限制發(fā)文等處罰是否合規(guī)?如果是,這一規(guī)定是否與監(jiān)管因素有關(guān)?還有哪些因素導(dǎo)致了這一規(guī)定的設(shè)立?
對(duì)于 AI 內(nèi)容對(duì)人工創(chuàng)作帶來(lái)的沖擊,簡(jiǎn)書(shū)目前如何應(yīng)對(duì)?其它平臺(tái)如何應(yīng)對(duì)?幾種應(yīng)對(duì)方式孰優(yōu)孰劣?
AI 生成內(nèi)容檢測(cè)工具的原理是什么?是否準(zhǔn)確?
作為創(chuàng)作者,我們是否要使用 AI 輔助創(chuàng)作?
AI 創(chuàng)作的內(nèi)容版權(quán)歸屬于誰(shuí)?
AI 內(nèi)容的泛濫會(huì)影響自身發(fā)展嗎?
平臺(tái)能不能管?是不是必須管?為什么要管?
首先,作為互聯(lián)網(wǎng)平臺(tái),簡(jiǎn)書(shū)有權(quán)利在法律允許范圍內(nèi)對(duì)用戶的創(chuàng)作行為做出規(guī)定,并對(duì)違規(guī)行為進(jìn)行相應(yīng)處理,因此本事件中簡(jiǎn)書(shū)并無(wú)過(guò)錯(cuò)。
關(guān)于合規(guī)問(wèn)題,我找到了網(wǎng)信辦發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》,這份文件目前已經(jīng)審議通過(guò),將在 2023 年 8 月 15 日起施行。
關(guān)于內(nèi)容合規(guī),《辦法》中的規(guī)定如下:
第四條 提供和使用生成式人工智能服務(wù),應(yīng)當(dāng)遵守法律、行政法規(guī),尊重社會(huì)公德和倫理道德,遵守以下規(guī)定:
(一)堅(jiān)持社會(huì)主義核心價(jià)值觀,不得生成煽動(dòng)顛覆國(guó)家政權(quán)、推翻社會(huì)主義制度,危害國(guó)家安全和利益、損害國(guó)家形象,煽動(dòng)分裂國(guó)家、破壞國(guó)家統(tǒng)一和社會(huì)穩(wěn)定,宣揚(yáng)恐怖主義、極端主義,宣揚(yáng)民族仇恨、民族歧視,暴力、淫穢色情,以及虛假有害信息等法律、行政法規(guī)禁止的內(nèi)容;
而這一規(guī)定在簡(jiǎn)書(shū)用戶協(xié)議中已有涵蓋,此事件中作者發(fā)布的內(nèi)容也并未違反該款規(guī)定。
由此可見(jiàn),簡(jiǎn)書(shū)平臺(tái)的這一規(guī)定并非監(jiān)管強(qiáng)制要求。
不知道大家是否記得社區(qū)守護(hù)者聯(lián)盟宣布禁止非伯樂(lè)推薦詩(shī)歌上榜的公告:
由于詩(shī)歌類內(nèi)容文字較少,且可以通過(guò)機(jī)器進(jìn)行自動(dòng)生成,同時(shí)也存在部分用戶利用三行詩(shī)擼鉆的行為......
——公告:關(guān)于文章未滿 800 字以及非伯樂(lè)推薦詩(shī)歌內(nèi)容不能上榜的規(guī)定調(diào)整
這一規(guī)定發(fā)布于 2022 年 7 月,早于 ChatGPT 為代表的大語(yǔ)言模型興起的時(shí)間,但在那時(shí),已經(jīng)有大量工具可以通過(guò)簡(jiǎn)單的韻腳匹配和小型神經(jīng)網(wǎng)絡(luò)進(jìn)行詩(shī)歌生成了。
社區(qū)想要打擊的是「低成本、高度自動(dòng)化創(chuàng)作獲取收益」以及「利用大量非原創(chuàng)文章占據(jù)排行榜高位,影響榜單發(fā)揮其應(yīng)有功能」的行為。
注意,這里的「原創(chuàng)文章」特指「由人類作者自己創(chuàng)作,且未使用任何自動(dòng)生成工具輔助,未大量引用他人內(nèi)容的文章」,關(guān)于 AI 生成內(nèi)容的版權(quán)問(wèn)題,我們會(huì)在后文進(jìn)行討論。
簡(jiǎn)書(shū)文章收益排行榜的收益分配遵循齊夫定律,因此收益的長(zhǎng)尾現(xiàn)象較為嚴(yán)重,使用大量稍低質(zhì)量的文章可以較穩(wěn)定地獲取尾部收益,是一種可行的擼鉆手段,而這一行為會(huì)降低平臺(tái)的整體文章質(zhì)量(推薦算法中獲贊量 / 獲鉆量不是唯一決定因素),繼而影響平臺(tái)的發(fā)展。
同時(shí),由于簡(jiǎn)書(shū)允許用戶使用真實(shí)貨幣交換簡(jiǎn)書(shū)資產(chǎn),繼而提升自身權(quán)重,而對(duì)社區(qū)的觀察表明,高權(quán)重且創(chuàng)作頻率較高,內(nèi)容偏文學(xué)性的作者更容易得到同樣高權(quán)重作者的關(guān)注,因此在原創(chuàng)文章中夾雜 AI 生成文章,從而利用高權(quán)重用戶人脈登上排行榜是可行的。
這一行為將影響榜單內(nèi)容質(zhì)量,與通過(guò)自動(dòng)化工具生成詩(shī)歌、撰寫(xiě)「內(nèi)容價(jià)值相對(duì)較低」的日記類、句子摘抄類文章帶來(lái)的負(fù)面影響類似。同時(shí),此類文章也會(huì)導(dǎo)致由 LP 理事會(huì)小贊助力、社區(qū)多合伙人助力的文章難以登上排行榜低位,從而影響相關(guān)作者和組織的收益,使其通過(guò)點(diǎn)贊助力對(duì)社區(qū)做出貢獻(xiàn)的意愿下降。
綜上所述,簡(jiǎn)書(shū)有權(quán)力管,上級(jí)沒(méi)有要求必須管,但為了社區(qū)的良性發(fā)展不得不管。
簡(jiǎn)書(shū)怎么管?其它平臺(tái)怎么管?怎么管更好?
簡(jiǎn)書(shū)
簡(jiǎn)書(shū)官方賬號(hào)、任真(社區(qū)守護(hù)者聯(lián)盟管理者)、LP 理事會(huì)都沒(méi)有對(duì) AI 創(chuàng)作內(nèi)容發(fā)布明確的管理規(guī)定,簡(jiǎn)書(shū)用戶協(xié)議中也未對(duì)此做出要求。根據(jù)對(duì)社區(qū)的觀察,我們推測(cè)的管理規(guī)則如下:
檢測(cè)條件:發(fā)布文章后機(jī)器審核不包含 AIGC 檢測(cè),僅在向官方專題投稿、被官方組織推文、文章登上收益排行榜,或接到用戶主動(dòng)舉報(bào)時(shí)才會(huì)進(jìn)行檢測(cè),且目前不確定檢測(cè)是否為全量。
檢測(cè)標(biāo)準(zhǔn):使用公開(kāi)的 AI 內(nèi)容檢測(cè)工具進(jìn)行判定,暫不確定是否僅使用一款工具進(jìn)行檢測(cè),但若主動(dòng)要求復(fù)議,將對(duì)文章進(jìn)行多工具聯(lián)合比對(duì),并同時(shí)檢測(cè)作者近期發(fā)布的其它文章。
處罰措施:違規(guī)文章將被鎖定,大量使用 AI 文章獲取收益將被臨時(shí)禁止發(fā)布文章和點(diǎn)贊,對(duì)嚴(yán)重行為可能處以臨時(shí)封禁或永久封禁處罰,若對(duì)應(yīng)文章被官方組織擬推薦,將取消推薦排期,并可能影響其后續(xù)被相關(guān)組織推薦的資格。可能影響在社區(qū)官方組織的職位和稱號(hào)。
(目前僅能找到一例相關(guān)的違規(guī)記錄:對(duì)于用戶 @南潯難尋 利用 A I文章投稿伯樂(lè)專題并被推薦上榜的處罰)
申訴 / 復(fù)議方式:簡(jiǎn)書(shū) App 內(nèi)申訴、在社區(qū)守護(hù)者聯(lián)盟客服群直接提出、發(fā)郵件到 help@jianshu.com。
免責(zé)方式:在文章中聲明內(nèi)容使用 AI 創(chuàng)作可不因用戶主動(dòng)舉報(bào)受到處罰,由于官方未提供相關(guān)選項(xiàng),這一行為不會(huì)影響文章在推薦引擎中的權(quán)重,但該文章將無(wú)法被官方專題收錄、無(wú)法被官方組織推文。目前不確定由社區(qū)高權(quán)重用戶自發(fā)點(diǎn)贊上榜是否會(huì)使作者和點(diǎn)贊者受到處罰。
那其它平臺(tái)如何管理 AI 生成內(nèi)容?
知乎
知乎是國(guó)內(nèi)的 UGC / PGC 創(chuàng)作平臺(tái),其內(nèi)容以文字為主,多采用問(wèn)答形式。
知乎在發(fā)布回答 / 文章時(shí)允許作者主動(dòng)聲明使用了 AI 創(chuàng)作,相關(guān)內(nèi)容開(kāi)頭將被標(biāo)注相應(yīng)提示,不確定此聲明是否會(huì)對(duì)推薦權(quán)重造成影響。
對(duì)于未主動(dòng)聲明的疑似 AI 創(chuàng)作內(nèi)容,其推薦權(quán)重將受到影響。
用戶可在舉報(bào)內(nèi)容時(shí)選擇「擾亂社區(qū)秩序 - AI 生成內(nèi)容」選項(xiàng),該舉報(bào)分類將導(dǎo)致內(nèi)容進(jìn)入復(fù)審。
回答場(chǎng)景中未主動(dòng)聲明的 AI 創(chuàng)作內(nèi)容將被折疊,展示在問(wèn)題頁(yè)最下方,附有「疑似 AI 創(chuàng)作」折疊提示。
在 AI 生成內(nèi)容集中出現(xiàn)的場(chǎng)景,平臺(tái)將介入進(jìn)行干預(yù)。
平臺(tái)將打擊批量發(fā)布 AI 生成內(nèi)容的賬號(hào)。
參考資料:
- 關(guān)于應(yīng)用 AIGC 能力進(jìn)行輔助創(chuàng)作的社區(qū)公告
- 如何看待知乎回答自動(dòng)標(biāo)注:可能包含AI創(chuàng)作內(nèi)容?
嗶哩嗶哩
嗶哩嗶哩是國(guó)內(nèi)的 UGC / PGC 創(chuàng)作平臺(tái),內(nèi)容以視頻為主。
官方未對(duì)生成式人工智能創(chuàng)作的內(nèi)容表態(tài),但曾在 2021 年發(fā)布過(guò)關(guān)于 AI 換臉內(nèi)容的相關(guān)規(guī)定,原因在于該項(xiàng)技術(shù)的潛在風(fēng)險(xiǎn)。
對(duì)于疑似使用 AI 合成技術(shù)的視頻,其標(biāo)題下方將出現(xiàn)「該視頻疑似使用智能合成技術(shù),請(qǐng)謹(jǐn)慎識(shí)別」的提示。
此類內(nèi)容將不會(huì)參與推薦,同時(shí)禁止其在排行榜和熱門(mén)位置展示。
參考資料:
StackOverflow
StackOverflow 是國(guó)外的軟件開(kāi)發(fā)問(wèn)答平臺(tái),在相關(guān)領(lǐng)域擁有極高的知名度。
StackOverflow 的臨時(shí)政策禁止用戶向 ChatGPT 等大語(yǔ)言模型輸入內(nèi)容,并將其回復(fù)不加檢查地發(fā)布到平臺(tái)上,此政策對(duì)平臺(tái)中的全部?jī)?nèi)容有效,但用戶的個(gè)人簡(jiǎn)介除外。
即使內(nèi)容沒(méi)有技術(shù)性錯(cuò)誤,若被核實(shí)為 AI 生成,也將受到處罰。
官方給出的原因是 AI 生成內(nèi)容的正確率過(guò)低,但措辭看上去足夠?qū)I(yè),發(fā)布相關(guān)內(nèi)容的用戶可能沒(méi)有相關(guān)專業(yè)知識(shí) / 不愿驗(yàn)證 AI 生成的內(nèi)容是否正確,因此這些內(nèi)容將損害其他用戶的權(quán)利,并降低平臺(tái)的內(nèi)容質(zhì)量。
管理員可在不事先警告的前提下將違反這一規(guī)定的用戶封停最多 30 天。
StackOverflow 中的管理員不一定是其員工,通過(guò)回答問(wèn)題等方式,普通用戶也可以積累足夠的信譽(yù)分,從而成為管理員,擁有對(duì)站內(nèi)內(nèi)容和用戶的部分管理權(quán)限。
參考資料:
- Temporary policy: Generative AI (e.g., ChatGPT) is banned
- Why posting GPT and ChatGPT generated answers is not currently acceptable
Pixiv
Pixiv 是國(guó)外的插畫(huà)創(chuàng)作與分享平臺(tái),同時(shí)具有約稿(付費(fèi)私人創(chuàng)作、可買(mǎi)斷版權(quán))功能,在美術(shù)創(chuàng)作愛(ài)好者和專業(yè)畫(huà)師群體中擁有極高的知名度。
Pixiv 對(duì) AI 生成內(nèi)容的定義包括生成后略加修改的作品,以及大部分或完全使用 AI 生成故事情節(jié)等內(nèi)容創(chuàng)作的作品,但不包括僅使用 AI 提供靈感,由用戶參考 AI 畫(huà)作人工完成的作品。
Pixiv 不禁止發(fā)布 AI 生成內(nèi)容,作者在發(fā)布作品時(shí)可主動(dòng)聲明其為 AI 創(chuàng)作內(nèi)容,聲明后的作品將帶有對(duì)應(yīng)標(biāo)簽,瀏覽 / 搜索作品時(shí)可選擇過(guò)濾 AI 生成內(nèi)容,且此類內(nèi)容僅可參與 AI 作品專用排行榜排名。
在生成式 AI 剛剛興起時(shí),Pixiv 允許將 AI 生成作品投遞到付費(fèi)約稿區(qū)域,但由于大量用戶使用 AI 創(chuàng)作投稿,從而獲得大量收益,自 2023 年 5 月 29 日起,不再允許使用 AI 作品投遞付費(fèi)約稿,作者在投稿前需在個(gè)人主頁(yè)設(shè)置承諾不投稿 AI 生成作品。
參考資料:
- AI 生成作品是什么?
- AI 生成作品顯示設(shè)置是什么?
- 投稿作品的 AI 生成作品設(shè)置是什么?
- 約稿方案的 AI 生成作品設(shè)置是什么?
- Pixiv 約稿針對(duì) AI 生成作品的今后應(yīng)對(duì)措施
除 StackOverflow 禁止 AI 生成內(nèi)容外,各平臺(tái)對(duì) AI 普遍持接受態(tài)度。
除簡(jiǎn)書(shū)外,其它接受 AI 生成內(nèi)容的平臺(tái)均允許作者聲明內(nèi)容為 AI 創(chuàng)作。
我們不可能強(qiáng)制所有人不使用 AI,即使是 StackOverflow,也允許作者在人工審核內(nèi)容,確保其正確可信后發(fā)布到平臺(tái)上。
各平臺(tái)用戶對(duì) AI 生成內(nèi)容的接受程度不同,如 AI 繪畫(huà)模型 Stable Diffusion 剛剛發(fā)布時(shí)曾引起繪圈作者的抵制,Pixiv 還未對(duì)此表態(tài)時(shí)曾被大量用戶聲討。
若簡(jiǎn)書(shū)想要以較為開(kāi)放的姿態(tài)迎接 AI 生成內(nèi)容,首先需要對(duì)相關(guān)規(guī)則進(jìn)行完善,在充分征求社區(qū)意見(jiàn)后公開(kāi)告知,力求達(dá)到與 800 字上榜限制相當(dāng)?shù)闹取?/p>
同時(shí),允許作者主動(dòng)標(biāo)注 AI 生成內(nèi)容,通過(guò)已有的每日發(fā)文數(shù)量限制減少審核壓力,同時(shí)允許讀者在首頁(yè)信息流 / 搜索頁(yè)面過(guò)濾 AI 生成內(nèi)容,專題也應(yīng)支持設(shè)置為不接受 AI 生成內(nèi)容投稿,對(duì)于已聲明 AI 創(chuàng)作的文章,在投稿頁(yè)面對(duì)專題進(jìn)行過(guò)濾。
在無(wú)法控制 AI 生成內(nèi)容質(zhì)量時(shí),可考慮與詩(shī)歌內(nèi)容相同的處理方案,即普遍禁止該類文章上榜,高權(quán)重用戶點(diǎn)贊 AI 生成內(nèi)容時(shí)進(jìn)行警告,對(duì)上榜的 AI 生成文章,可同時(shí)處罰作者和對(duì)熱度貢獻(xiàn)較大的點(diǎn)贊者。
對(duì)于官方組織,應(yīng)給出合理的 AI 內(nèi)容判定手段,力求對(duì)推薦上榜文章進(jìn)行全量檢測(cè),這就引出了我們的下一個(gè)問(wèn)題:
AI 生成內(nèi)容檢測(cè)工具的原理是什么?是否準(zhǔn)確?
AI 檢測(cè)工具也是 AI,是一種識(shí)別 AI 的 AI,可以認(rèn)為是「生成對(duì)抗網(wǎng)絡(luò)(GAN)」中的「判別器」。
什么是「生成對(duì)抗網(wǎng)絡(luò)」?拿 AI 繪畫(huà)舉個(gè)例子,我們可以讓兩個(gè) AI 互相 PK,這兩個(gè) AI 分別叫「生成器」和「判別器」。
生成器的任務(wù)是生成足夠逼真的圖片,讓判別器認(rèn)為這張圖片是真實(shí)的。
判別器的任務(wù)是識(shí)別出不真實(shí)的圖片。
于是生成器和判別器不斷進(jìn)化,最終版本的生成器就是我們使用的作畫(huà) AI。
AI 檢測(cè)工具的原理類似,通過(guò)使用大量的人類創(chuàng)作內(nèi)容和 AI 生成內(nèi)容進(jìn)行訓(xùn)練,讓 AI 具有識(shí)別內(nèi)容是否為 AI 生成的能力。
機(jī)器學(xué)習(xí)問(wèn)題主要分兩部分:分類問(wèn)題和回歸問(wèn)題。
分類問(wèn)題的輸出是一個(gè)類別,例如讓 AI 識(shí)別手寫(xiě)數(shù)字、識(shí)別貓和狗。
回歸問(wèn)題的輸出是一個(gè)或一系列數(shù)據(jù)點(diǎn),例如用 AI 預(yù)測(cè)圍棋勝率、預(yù)測(cè)股票漲跌。
AI 生成內(nèi)容檢測(cè)就屬于分類問(wèn)題。
而提高分類準(zhǔn)確率最有效的途徑之一,就是增大訓(xùn)練數(shù)據(jù)量。
數(shù)據(jù)從哪里來(lái)?人類數(shù)據(jù)簡(jiǎn)單,選一些無(wú)版權(quán)的作品即可,AI 內(nèi)容呢?當(dāng)然是從各種生成式 AI 本身來(lái)。
如何批量獲取 AI 數(shù)據(jù)?寫(xiě)程序自動(dòng)化。
但大批量使用生成式 AI 是收費(fèi)的,雖然 ChatGPT 等模型的調(diào)用成本已經(jīng)很低,但想要獲取到足夠的數(shù)據(jù)量,依然有較高的成本消耗,除了自己訓(xùn)練生成式 AI 的公司(他們一般會(huì)訓(xùn)練對(duì)應(yīng)的檢測(cè)模型用于數(shù)據(jù)清洗等用途,而且他們最懂自己的模型缺陷在哪里),沒(méi)有人可以規(guī)避這個(gè)成本。
同時(shí),由于生成式 AI 模型的復(fù)雜性,檢測(cè)模型也要擁有較大的規(guī)模,而大規(guī)模模型訓(xùn)練的算力成本是很高的。
ChatGPT 在 2022 年 11 月發(fā)布,大語(yǔ)言模型這個(gè)行業(yè)興起才不到半年,擁有足夠動(dòng)機(jī)、掌握充足算力并有意愿將成果公開(kāi)的公司寥寥無(wú)幾。
由此,我們可以推斷出目前 AI 生成內(nèi)容檢測(cè)模型的準(zhǔn)確率依然受限,上文知乎的案例中也有大量用戶反饋?zhàn)约旱膬?nèi)容被誤判。
簡(jiǎn)書(shū)想要檢測(cè) AI 內(nèi)容,大量使用 AI 自動(dòng)化是行不通的,一方面會(huì)導(dǎo)致更多的鎖文和申訴駁回問(wèn)題,另一方面會(huì)被他人惡意利用,使用 AI 檢測(cè)工具批量檢測(cè)社區(qū)核心作者的文章,對(duì)檢測(cè)工具誤判為 AI 生成內(nèi)容的文章進(jìn)行舉報(bào),從而影響這些文章的流通,同時(shí)降低作者的創(chuàng)作熱情。
人工檢測(cè)不可或缺,數(shù)據(jù)基礎(chǔ)也是重要的一環(huán),通過(guò)對(duì)文章自動(dòng)保存歷史的分析,可以識(shí)別出復(fù)制大段文字后少量修改這種典型的「AI 輔助創(chuàng)作」行為,但這一手段可通過(guò)使用第三方創(chuàng)作軟件進(jìn)行規(guī)避,同時(shí)也會(huì)誤傷部分作者,需要謹(jǐn)慎考慮。
作為創(chuàng)作者,我們是否要使用 AI 輔助創(chuàng)作?
簡(jiǎn)短回答:It depends.(不一定)
但這個(gè) Depend 的因素與簡(jiǎn)書(shū)的受眾有關(guān)。
如果生成式人工智能革命在五年前爆發(fā),那時(shí)簡(jiǎn)書(shū)還是一個(gè)技術(shù)分享為主的平臺(tái),那我肯定會(huì)說(shuō) Yes,并提醒你注意審查 AI 生成的內(nèi)容。
StackOverflow 2023 開(kāi)發(fā)者年度報(bào)告 調(diào)查了開(kāi)發(fā)者對(duì) AI 技術(shù)的看法,在 89184 份有效數(shù)據(jù)中,有 70% 的開(kāi)發(fā)者表示他們已經(jīng),或者打算使用 AI 來(lái)輔助開(kāi)發(fā),而在初學(xué)者中,這一比例是 82%。
現(xiàn)在,簡(jiǎn)書(shū)已經(jīng)變成一個(gè)低門(mén)檻、面向大眾的創(chuàng)作平臺(tái),技術(shù)內(nèi)容占比正在不斷下滑,雖然簡(jiǎn)書(shū)本身是一個(gè)年輕化的社區(qū),但并非所有人都對(duì) AI 持接受態(tài)度。
如果拋開(kāi)平臺(tái)的規(guī)則限制,我會(huì)鼓勵(lì)文學(xué)類創(chuàng)作者使用 AI 生成小片段,并在其基礎(chǔ)上進(jìn)行潤(rùn)色,但不建議用它生成長(zhǎng)篇文章。受模型可存儲(chǔ)的信息限制,AI 的記憶也是暫時(shí)的,隨著對(duì)話的深入,它會(huì)忘記剛開(kāi)始的內(nèi)容。
對(duì)于專業(yè)類文章,由于 AI 在理論知識(shí)上經(jīng)常出現(xiàn)「我不懂,我回答的不對(duì),但我看起來(lái)是個(gè)專家」的情況,我更建議作者使用 AI 輔助創(chuàng)作文章的引言和后記部分,主體內(nèi)容依然以人工創(chuàng)作為主,畢竟如果需要整合網(wǎng)絡(luò)上的參考資料,將有意義的信息喂給 AI 還是有點(diǎn)復(fù)雜的一件事。
對(duì)于詩(shī)歌創(chuàng)作,我不建議大家使用 AI。詩(shī)歌是傳遞情感的工具,而不是遵循韻腳規(guī)則機(jī)械生成的文字,使用 AI 生成詩(shī)歌內(nèi)容沒(méi)有情感意義,不能引發(fā)讀者共鳴,但在想不出合適單字時(shí)讓 AI 幫幫忙未嘗不可。
回到平臺(tái)規(guī)則限制的框架中來(lái),對(duì)于上述內(nèi)容,如果你使用了 AI,強(qiáng)烈建議你在文章開(kāi)頭進(jìn)行聲明,同時(shí)由于大家的接受程度差異,這可能會(huì)導(dǎo)致你的讀者流失,也有可能因?yàn)樘雎试黾佑绊懳恼峦扑]。
作為創(chuàng)作者,對(duì)方?jīng)]表態(tài),就視為不接受 AI 生成內(nèi)容,寫(xiě)文章穩(wěn)妥一點(diǎn),評(píng)論文章大膽一點(diǎn),參與活動(dòng)謹(jǐn)慎一點(diǎn),簡(jiǎn)書(shū)生活才能輕松愉快一點(diǎn)。
作為專題管理者和活動(dòng)舉辦者,也該找個(gè)機(jī)會(huì)和團(tuán)隊(duì)成員商議一下,對(duì)于不會(huì)推薦上榜的文章,是否允許使用 AI 創(chuàng)作,這類文章是否參與獎(jiǎng)勵(lì)評(píng)定,提早制定規(guī)則并公開(kāi)總是好的。
另外,現(xiàn)在有一些通過(guò)個(gè)人知識(shí)庫(kù)數(shù)據(jù)訓(xùn)練小型生成式 AI 模型的項(xiàng)目,有技術(shù)能力,且自己積累了一些原創(chuàng)內(nèi)容的簡(jiǎn)友可以嘗試一下,通過(guò)使用正確的基模型,在自己原創(chuàng)內(nèi)容的基礎(chǔ)上進(jìn)行訓(xùn)練,可以獲得相對(duì)貼近自己知識(shí)領(lǐng)域的生成結(jié)果,同時(shí)也能規(guī)避我們即將談到的問(wèn)題——版權(quán)風(fēng)險(xiǎn)。
AI 創(chuàng)作的內(nèi)容版權(quán)歸屬于誰(shuí)?
事先聲明:本文作者并非法律相關(guān)從業(yè)者,以下內(nèi)容僅供參考,不構(gòu)成法律建議。
這個(gè)問(wèn)題目前還處在爭(zhēng)論中,我國(guó)《著作權(quán)法》規(guī)定創(chuàng)作的主體必須是人,因此使用極少量的提示詞,甚至直接復(fù)制粘貼現(xiàn)有提示詞生成的內(nèi)容,是存在較大版權(quán)風(fēng)險(xiǎn)的。
與此相對(duì)的另一個(gè)極端,如果你從零開(kāi)始搭建神經(jīng)網(wǎng)絡(luò)模型,使用在公有領(lǐng)域數(shù)據(jù)訓(xùn)練的基模型,用自己的原創(chuàng)文章數(shù)據(jù)進(jìn)行調(diào)優(yōu),最后生成的內(nèi)容當(dāng)然是屬于自己的,因?yàn)椤冈O(shè)計(jì)并驗(yàn)證模型」也是你在創(chuàng)作過(guò)程中付出的腦力勞動(dòng)。
而在這兩者之間,我們?nèi)粘D芙佑|到的 AI 模型,主要版權(quán)風(fēng)險(xiǎn)并非在于人機(jī)對(duì)創(chuàng)作貢獻(xiàn)的占比,而是模型本身——這個(gè)模型是否完全使用免版權(quán)的內(nèi)容進(jìn)行訓(xùn)練?如果不是,那使用它會(huì)面臨一定版權(quán)風(fēng)險(xiǎn)。
當(dāng)然,如果你的內(nèi)容并不會(huì)被印制出版,也并非商業(yè)用途,聲明由 AI 創(chuàng)作可以規(guī)避一小部分風(fēng)險(xiǎn)?,F(xiàn)行法律并沒(méi)有明確規(guī)定「使用他人作品進(jìn)行 AI 訓(xùn)練,并生成完全不同的內(nèi)容」是否構(gòu)成對(duì)原作品的「衍生創(chuàng)作」。
另外,發(fā)布 AI 的公司也可能有自己的限制,如百度文心一言生成的內(nèi)容,其著作權(quán)歸屬于百度公司。
總之,風(fēng)險(xiǎn)無(wú)法避免,如果你需要保證自己作品的絕對(duì)安全,請(qǐng)不要使用 AI 創(chuàng)作。
AI 內(nèi)容的泛濫會(huì)影響自身發(fā)展嗎?
在研究上文 StackOverflow 的案例時(shí),我看到了這樣一種說(shuō)法:如果放任 AI 內(nèi)容流入平臺(tái),將導(dǎo)致現(xiàn)有的、完全由人類創(chuàng)作的語(yǔ)料庫(kù)受到污染,致使 AI 無(wú)法持續(xù)學(xué)習(xí),繼而阻礙其迭代。
這是一個(gè)很有意思的切入點(diǎn),如果以此展開(kāi),可以寫(xiě)一篇科幻小說(shuō)了,不過(guò)我們還是從技術(shù)角度探討這個(gè)問(wèn)題,語(yǔ)料庫(kù)受到自身生成的內(nèi)容污染,是否會(huì)阻止 AI 進(jìn)化?
會(huì),但不絕對(duì)。「AI 會(huì)自己找到出路」。
真實(shí)的互聯(lián)網(wǎng)環(huán)境太復(fù)雜,我們先設(shè)置一些邊界條件:
- 世界上只存在一種 AI,且這個(gè) AI 只有一種神經(jīng)網(wǎng)絡(luò)模型
- 語(yǔ)料庫(kù)可以被完全獲取,不存在隱藏的內(nèi)容,無(wú)論其是否為人類所作
- 語(yǔ)言一定會(huì)隨時(shí)間持續(xù)改變,并產(chǎn)生新的詞匯和句法
物理學(xué)中有一個(gè)名詞叫做熵,簡(jiǎn)單解釋就是物質(zhì)的混亂程度,且存在一條基本公理:在一個(gè)獨(dú)立的系統(tǒng)中,熵會(huì)自發(fā)增加。
那我們可以仿照熵來(lái)定義「語(yǔ)料數(shù)據(jù)中可被 AI 提取并利用的最大信息量」,稱為 X。
根據(jù)邊界條件三,隨著語(yǔ)言的發(fā)展,X 的值會(huì)不斷增加。
同時(shí),定義當(dāng)前 AI 實(shí)際提取并利用的信息量,稱為 Y。
顯然,由于算力有限,Y 只能無(wú)限接近 X。
當(dāng)語(yǔ)料庫(kù)中 AI 生成的,信息量為 Y 的數(shù)據(jù)占比增加,X 值的導(dǎo)數(shù)(變化速率)將放緩。
理論部分結(jié)束,得到結(jié)論:在這個(gè)框架下,AI 內(nèi)容占比的增多將導(dǎo)致其自身進(jìn)化放緩。
但如果我們拿掉邊界條件一,允許世界上存在多種 AI,且允許希望 AI 持續(xù)迭代的人優(yōu)化其模型,同時(shí)賦予其近乎無(wú)限的算力,則 Y 值會(huì)隨著模型優(yōu)化,更快逼近 X,模型優(yōu)化帶來(lái)的收益,在 X 不斷增長(zhǎng)時(shí)或許可以抵消有效數(shù)據(jù)占比減小的影響。
如果我們拿掉邊界條件二,使部分內(nèi)容無(wú)法被 AI 獲取,由于無(wú)法被獲取的內(nèi)容是隨機(jī)的,并不存在選擇性,因此對(duì) AI 進(jìn)化無(wú)影響。
也就是說(shuō),部分平臺(tái)禁止以 AI 目的抓取其內(nèi)容,在這個(gè) AI 本身具有足夠強(qiáng)泛化(將其它領(lǐng)域知識(shí)進(jìn)行整合)能力,且算力增長(zhǎng)可基本覆蓋訓(xùn)練需要的情況下是無(wú)效的。
而提升 AI 模型的泛化性,是人工智能領(lǐng)域的重要研究方向。
也許會(huì)有人研究 AI 研發(fā)公司的數(shù)據(jù)抓取邏輯,使用大量無(wú)效數(shù)據(jù)污染數(shù)據(jù)集,達(dá)到合法阻止 AI 發(fā)展的目的?上文提到的檢測(cè)模型對(duì)此效果如何?有沒(méi)有可能訓(xùn)練出一種對(duì)現(xiàn)有 AI 生成內(nèi)容進(jìn)行改寫(xiě),使其通過(guò) AI 生成內(nèi)容檢測(cè)的新 AI?
我們不知道未來(lái)會(huì)走向何處,但我們于 AI 而言已不再是獨(dú)立的個(gè)體。
引用「AI 孫燕姿」事件中孫燕姿本人評(píng)論的一段話:「你并不特殊,并且你可被計(jì)算」。
后記
一篇有點(diǎn)跑題,有點(diǎn)專業(yè)的文章,從簡(jiǎn)書(shū)社區(qū)的一個(gè)現(xiàn)象聊到其它平臺(tái)的做法,談了談簡(jiǎn)書(shū)本身需要改進(jìn)的地方,給了大家一點(diǎn)拙劣的建議,簡(jiǎn)單說(shuō)了下版權(quán)問(wèn)題,最后用并不嚴(yán)謹(jǐn)?shù)淖C明給了一個(gè)不確定的結(jié)果。
看了眼右下角,已經(jīng)七千字了,本來(lái)打算四千字結(jié)束的。
簡(jiǎn)書(shū)上一千多字的文章最受歡迎,如果推薦算法把完讀率和閱讀時(shí)間納入考量的話(這是大概率的事),這估計(jì)又是一篇沒(méi)人看的文章。
也罷,面對(duì)未來(lái)的洪流,你選擇什么航向取決于自己。
我選右滿舵,翻就翻了,至少背浪那一面相對(duì)平靜點(diǎn)。
future = model.predict(data) if confidence_in_ai > 0.5 else human.think(present)