獨(dú)家|GenAI年中回顧,2024網(wǎng)絡(luò)內(nèi)容審核的API實(shí)戰(zhàn)指南

GenAI,即生成式人工智能,正在不斷推動各個領(lǐng)域的創(chuàng)新和發(fā)展。

一、年中回顧

2024 年被稱為視頻生成技術(shù)的爆發(fā)之年,各類 GenAI 在全球范圍引領(lǐng)了一波又一波的潮流,真稱得上是神仙打架。讓我們共同回顧 2024 上半年的 GenAI 有哪些主要表現(xiàn),并討論,大量 AI 生成內(nèi)容的涌現(xiàn),又對互聯(lián)網(wǎng)內(nèi)容安全的格局產(chǎn)生了哪些影響?

1.AI 生成視頻

北京時間 2 月 16 日凌晨,OpenAl 發(fā)布文本生成視頻的 AI 模型 Sora,瞬時刷屏科技圈,成為 2024 年開年“頂流”。Luma AI 首發(fā)了視頻生成模型 Dream Machine,可以通過文字或圖片生成高質(zhì)量的逼真視頻,API 對全球免費(fèi)開放。谷歌推出視頻生成模型 Veo,可以對光照、鏡頭語言、視頻顏色風(fēng)格等進(jìn)行設(shè)定,支持長視頻生成。此外,谷歌團(tuán)隊發(fā)布 110 億參數(shù) Genie「精靈」,用一張草圖就能創(chuàng)造出一個虛擬世界。

在國內(nèi),生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了視頻大模型「Vidu」,支持一鍵生成 16 秒高清視頻,還能虛構(gòu)超現(xiàn)實(shí)主義畫面。騰訊和清華大學(xué)、香港科技大學(xué)聯(lián)合推出全新圖生視頻模型"Follow-Your-Click”,可以讓圖片中原本靜態(tài)的區(qū)域動起來,一鍵轉(zhuǎn)換成視頻。極佳科技聯(lián)合清華大學(xué)自動化系,發(fā)布超長時長、高性價比、端側(cè)可用的 Sora 級視頻生成大模型視界一粟 YiSu。6 月,快手 AI 團(tuán)隊自研“可靈”視頻生成大模型,引發(fā)國內(nèi)外熱議,其生成的視頻分辨率高達(dá) 1080p,時長最高可達(dá) 2 分鐘(幀率 30fps),且支持自由的寬高比。

2.AI 生成圖像

2024 年,GenAI 在生成圖像方面取得了新進(jìn)展。

Mistral AI 推出了全新專家混合(MoE)大模型 Mixtral 8x22B 磁力鏈接,模型參數(shù)規(guī)模高達(dá) 1760 億。Stability AI 開源了全新文本生成圖像模型 Stable Cascade,大幅度降低了對推理、訓(xùn)練的算力需求。谷歌推出 Imagen 文生圖模型,具備更高的細(xì)節(jié)調(diào)整功能、逼真的光線和更少的干擾,能夠從草圖快速生成高分辨率圖像。Adobe 發(fā)布了 Firefly 圖像生成模型的最新版本——Firefly Image3,聲稱具有“攝影細(xì)節(jié)”的圖像生成能力。騰訊混元團(tuán)隊聯(lián)合中山大學(xué)、香港科技大學(xué),聯(lián)合推出全新圖生視頻模型“Follow-Your-Pose-V2”。七火山科技正式發(fā)布Etna文生視頻模型,支持從簡單文本到高質(zhì)量視頻的轉(zhuǎn)換。

3.AI 生成音樂

今年,音樂創(chuàng)作呈現(xiàn)出了人機(jī)協(xié)作的趨勢,AI 能創(chuàng)造更加豐富、多元的音樂作品。

騰訊發(fā)布多模態(tài)音樂生成模型 M2UGen,融合了音樂理解和多模態(tài)音樂生成任務(wù),支持圖片、視頻生成音樂。網(wǎng)易云音樂旗下一站式 AI 音樂創(chuàng)作工具“網(wǎng)易天音平臺”,具備詞、曲、編、唱、混等音樂創(chuàng)作全流程的 AI 創(chuàng)作輔助功能。昆侖萬維的“天工 3.0”基座大模型與“天工 SkyMusic”音樂大模型正式開啟公測。

Adobe 推出了新的生成式 AI 實(shí)驗項目——Project Music GenAI Control,允許用戶使用文本提示生成音樂,然后直接編輯音頻,無需跳轉(zhuǎn)到專門的編輯軟件。Stability AI 發(fā)布 AI 音頻模型 Stable Audio Open,支持文本生成鼓點(diǎn)、樂器等音效。Al 初創(chuàng)公司 Suno推出 V3 音樂生成模型,只需幾秒即可生成 2 分鐘的爆款音頻。ElevenLabs 推出文本生成歌曲產(chǎn)品 ElevenLabs Music,用戶僅通過文本提示就能生成各種音效、短樂器曲目、音景和角色聲音。Pika發(fā)布 Sound Effects 功能,可以給生成的視頻自動配音效。

4.AI 生成 3D 模型

生成式 AI 的浪潮席卷而來,科技公司正在沖擊 AIGC 的下一個突破口——3D 生成。

Luma AI 發(fā)布了一個文生 3D 模型的項目——Genie1.0,只需要輸入一句文字提示,就能在 10 秒內(nèi)生成四個高保真的 3D 模型。初創(chuàng)公司 NationAI 推出了生成式人工智能技術(shù) Neuroid,可以根據(jù)類似 GPT 的文本提示,生成人形角色和四條腿動物的 3D 動畫。Meta 與德國慕尼黑工業(yè)大學(xué)研發(fā)創(chuàng)新模型 ViewDiff,通過文本、圖像或二者結(jié)合使用,就能快速生成高質(zhì)量多視角3D圖像 。A utodesk 推出了生成式人工智能項目——Project Bernini 的文本轉(zhuǎn)3D 工 具,致力于理解現(xiàn)實(shí)世界物體的存在方式。

浙江大學(xué)、螞蟻集團(tuán)、深圳大學(xué)聯(lián)合推出了創(chuàng)新模型 MaPa,能通過文本直接生成高分辨率、物理光照、超真實(shí)材質(zhì)的3D 模型,可以極大提升游戲、VR、AR、影視等行業(yè)的開發(fā)效率。南洋理工大學(xué)、上海AI 實(shí)驗室等共同推出了一款名為3DTopia 的文生3D 基礎(chǔ)模型,可以在五分鐘內(nèi)生成多樣化、高精度的3D 模型 。

除此之外,OpenAl 發(fā)布了全新的生成式 AI 模型 GPT-4o,并正式與 Apple 展開合作。用戶將能在 iPhone、iPad 和 Mac 等設(shè)備上直接免費(fèi)使用 ChatGPT(GPT-4o 模型)的特殊功能,例如內(nèi)容生成、圖像及文檔理解等。

二、無法回避的挑戰(zhàn)

從內(nèi)容層面來看,GenAI 已經(jīng)被大量使用和傳播,例如某在線運(yùn)動 APP 透露,其 5000 節(jié)官方運(yùn)動課程中有 15%為 AIGC??墒?,由于人工智能技術(shù)的復(fù)雜性和不確定性,其生成出來的內(nèi)容會有無法控制的偏差,不僅可能誤導(dǎo)用戶,還可能對社會穩(wěn)定造成威脅。

很多企業(yè)開始意識到 GenAI 的商業(yè)價值,并積極將其應(yīng)用于業(yè)務(wù)場景中,但其不確定性也是一個無法回避的挑戰(zhàn),任重而道遠(yuǎn)。當(dāng)下,如何選擇高性價比的內(nèi)容審核方式,把違規(guī)內(nèi)容攔截在市場外,對GenAI的開發(fā)者和使用者來說十分重要。

三、用 API 接入內(nèi)容審核平臺

出于低代碼、可視化、靈活配置等目的,本節(jié)以某大廠的AI平臺為例,討論怎么用API接入內(nèi)容審核平臺。

1.創(chuàng)建應(yīng)用

應(yīng)用是調(diào)用 API 服務(wù)的基本操作單元。

我們可以基于應(yīng)用創(chuàng)建成功后獲取的 API Key 及 Secret Key,進(jìn)行接口調(diào)用操作,及相關(guān)配置。

填寫完畢后,即可點(diǎn)擊「立即創(chuàng)建」,完成應(yīng)用的創(chuàng)建。點(diǎn)擊左側(cè)導(dǎo)航中的「應(yīng)用列表」,可以進(jìn)行應(yīng)用查看。

創(chuàng)建完畢應(yīng)用后,平臺將會分配此應(yīng)用的相關(guān)憑證,主要為 AppID、API Key、Secret Key。調(diào)用 API 接口時,可以使用這些憑證,進(jìn)行 Access Token(用戶身份驗證和授權(quán)的憑證)的生成。

2.調(diào)用服務(wù)

調(diào)用 AI 服務(wù)相關(guān)的 API 接口有兩種方式,兩種不同的調(diào)用方式采用相同的接口URL。區(qū)別在于請求方式鑒權(quán)方法不一樣,請求參數(shù)和返回結(jié)果一致。

調(diào)用方式一??請求 URL 數(shù)據(jù)格式

向授權(quán)服務(wù)地址https://aip.baidubce.com/oauth/2.0/token發(fā)送請求(推薦使用POST)。百度AI開放平臺使用OAuth2.0授權(quán)調(diào)用開放API,調(diào)用API時必須在URL中帶上Access_token參數(shù)。Access_token是用戶的訪問令牌,承載了用戶的身份、權(quán)限等信息。

grant_type:必須參數(shù),固定為client_credentials;

client_id:必須參數(shù),應(yīng)用的API Key;

client_secret:必須參數(shù),應(yīng)用的Secret Key;

獲取 Access_token 有三種方式:通過代碼的形式獲取,使用網(wǎng)頁調(diào)試工具獲取,在線調(diào)試工具。具體可參考Access Token獲取

POST 中參數(shù)按照 API 接口說明調(diào)用即可。

調(diào)用方式二??請求頭域內(nèi)容

在請求的 HTTP 頭域中包含以下信息,API 認(rèn)證機(jī)制 authorization 必須通過百度云的AK/SK生成:

host(必填)

x-bce-date (必填)

x-bce-request-id(選填)

authorization(必填)

content-type(必填)

content-length(選填)

四、發(fā)展方向

2024 年,圖像、視頻、音頻和 3D 模型生成等領(lǐng)域的技術(shù)不斷突破,使得 GenAI 的應(yīng)用更加廣泛和深入。

以結(jié)合了大模型的低代碼平臺為基礎(chǔ),運(yùn)用先進(jìn)算法和技術(shù)手段,對 AI 生成的內(nèi)容進(jìn)行自動化審核,可以有效地減少不良信息傳播,為社會穩(wěn)定進(jìn)步和業(yè)務(wù)健康發(fā)展保駕護(hù)航。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容