醫(yī)學(xué)領(lǐng)域大語(yǔ)言模型發(fā)展迅速。谷歌的Med-PaLM、升級(jí)版Med-PaLM 2,在醫(yī)學(xué)問(wèn)題回答上表現(xiàn)卓越。國(guó)內(nèi)醫(yī)聯(lián)推出的MedGPT基于Transformer架構(gòu),通過(guò)多輪問(wèn)診提升診斷準(zhǔn)確性,能覆蓋多種疾病,實(shí)現(xiàn)全流程智能化診療。這些模型不僅提升了醫(yī)療服務(wù)的效率與準(zhǔn)確性,還展示了AI在醫(yī)學(xué)領(lǐng)域的巨大潛力。
一、引言
隨著大模型逐漸在AI世界占據(jù)主導(dǎo),更多人意識(shí)到數(shù)據(jù)的重要性,甚至有業(yè)內(nèi)人士稱(chēng)其為人工智能的“護(hù)城河”。以ChatGPT為例,它雖然可以快速、多角度回答問(wèn)題,但在沒(méi)受過(guò)訓(xùn)練的情況下,無(wú)法很好地勝任健康咨詢(xún)的任務(wù)。可是,在醫(yī)學(xué)領(lǐng)域,大模型對(duì)數(shù)據(jù)的需求,往往可能會(huì)觸及到病人的隱私問(wèn)題、醫(yī)院的數(shù)據(jù)安全等。
2023年,一份發(fā)表在權(quán)威期刊上的試驗(yàn)結(jié)果顯示,ChatGPT在根據(jù)現(xiàn)行臨床指南針對(duì)心血管疾病預(yù)防保健提出建議時(shí),雖然有84%的回答是合理的,但是另外4個(gè)答案,不僅錯(cuò)誤,而且有害,是嚴(yán)肅的臨床診療中絕對(duì)不允許出現(xiàn)的。在更多試驗(yàn)中,還進(jìn)一步發(fā)現(xiàn)了倫理、法律等方面的問(wèn)題。
8月30日,國(guó)務(wù)院常務(wù)會(huì)議審議通過(guò)了《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例(草案)》,明確提到“要厘清安全邊界,保障數(shù)據(jù)依法有序自由流動(dòng)”,為促進(jìn)數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展、推動(dòng)科技創(chuàng)新和產(chǎn)業(yè)創(chuàng)新?tīng)I(yíng)造良好環(huán)境。為了保障數(shù)據(jù)的安全,維護(hù)醫(yī)療領(lǐng)域的邊界,我們不僅要在源頭掐滅數(shù)據(jù)泄露的風(fēng)險(xiǎn),還要對(duì)數(shù)據(jù)傳輸?shù)倪^(guò)程中進(jìn)行內(nèi)容審核。
二、用技術(shù)檢測(cè)風(fēng)險(xiǎn)內(nèi)容
百度作為國(guó)內(nèi)最早研究 AI模型安全性問(wèn)題的公司之一,其內(nèi)容審核平臺(tái)以視覺(jué)計(jì)算、NLP、ASR、OCR等技術(shù)為底座,能對(duì)用戶(hù)上傳、發(fā)布或共享的內(nèi)容進(jìn)行內(nèi)容風(fēng)險(xiǎn)安全審查,提示企業(yè)對(duì)不合規(guī)、疑似的內(nèi)容進(jìn)行重點(diǎn)關(guān)注。
1、獨(dú)有的大模型能力
大模型能力是實(shí)現(xiàn)自動(dòng)化、智能化、高效性和準(zhǔn)確性的關(guān)鍵技術(shù)之一。內(nèi)容審核基于百度海量數(shù)據(jù)訓(xùn)練優(yōu)化,利用深度學(xué)習(xí)技術(shù)及算法迭代模型,識(shí)別準(zhǔn)確率高,減少人工復(fù)查率,能有效降低企業(yè)運(yùn)營(yíng)成本。
測(cè)評(píng)發(fā)現(xiàn),百度云內(nèi)容審核的大模型能力主要包括以下幾個(gè)方面。通過(guò)對(duì)文本進(jìn)行分類(lèi)和識(shí)別,判斷其所屬的類(lèi)別或標(biāo)簽;對(duì)文本進(jìn)行語(yǔ)義理解和分析,識(shí)別其中的關(guān)鍵詞、短語(yǔ)、句子的含義和上下文關(guān)系;對(duì)文本進(jìn)行情感分析和判斷,識(shí)別其中的情感傾向;對(duì)圖像進(jìn)行識(shí)別和過(guò)濾,判斷其中是否包含違規(guī)或不適宜的內(nèi)容。
2、領(lǐng)先的審核能力
具備高并發(fā)、高吞吐、低時(shí)延等能力,且算法卓越,識(shí)別速度業(yè)界領(lǐng)先,毫秒級(jí)響應(yīng),可應(yīng)對(duì)各種實(shí)時(shí)性業(yè)務(wù)需求。
審核維度豐富:緊跟監(jiān)管需求,實(shí)時(shí)同步政府指令,提供業(yè)內(nèi)最豐富的審核維度,其中圖像審核具備惡心圖、質(zhì)量檢測(cè)的獨(dú)家識(shí)別能力。
審核粒度細(xì)膩:具備業(yè)界最豐富、全面的分類(lèi)標(biāo)簽體系,并且持續(xù)更新??筛鶕?jù)業(yè)務(wù)需求,自由組合標(biāo)簽,讓模型效果猶如“量身定制”。
3、靈活配置
提供靈活的自定義配置功能,內(nèi)設(shè)150+項(xiàng)細(xì)分審核模型標(biāo)簽并且持續(xù)更新,界面化調(diào)整審核維度和松緊度,5分鐘即可完成規(guī)則配置,高效適配多元化、細(xì)粒度業(yè)務(wù)場(chǎng)景的審核需求。
更有意思的是,對(duì)于業(yè)務(wù)中小眾細(xì)分場(chǎng)景的模型需求,如果通用審核模型還沒(méi)覆蓋到,百度云提供接入Easy-DL零門(mén)檻開(kāi)發(fā)平臺(tái),僅需少量數(shù)據(jù)簡(jiǎn)單標(biāo)注,最快15分鐘即可訓(xùn)練對(duì)應(yīng)模型。
策略配置:可根據(jù)業(yè)務(wù)場(chǎng)景,靈活選擇審核維度、細(xì)分標(biāo)簽、以及對(duì)應(yīng)的審核松緊度,貼合業(yè)務(wù)場(chǎng)景。

數(shù)據(jù)統(tǒng)計(jì):一頁(yè)概覽業(yè)務(wù)全貌;可查看各個(gè)接口按照時(shí)間維度的調(diào)用趨勢(shì),并可查看違規(guī)數(shù)據(jù)的類(lèi)型分布及統(tǒng)計(jì)信息。

數(shù)據(jù)分析:可查看各個(gè)媒體類(lèi)型的數(shù)據(jù)詳情;支持導(dǎo)出全量多維度Excel表格,便于后續(xù)業(yè)務(wù)分析。

4、部署方式
內(nèi)容審核平臺(tái)支持公有云接入、私有化部署,公有云支持API和HTTP-SDK。企業(yè)無(wú)需自建平臺(tái),可基于自身業(yè)務(wù)訴求,零門(mén)檻快速接入使用,靈活選用智能機(jī)審平臺(tái)或人機(jī)協(xié)同審核平臺(tái)。
三、用 API 接入內(nèi)容審核平臺(tái)
出于低代碼、可視化、靈活配置等目的,本節(jié)介紹怎么用API接入內(nèi)容審核平臺(tái)。
1、創(chuàng)建應(yīng)用
應(yīng)用是調(diào)用 API 服務(wù)的基本操作單元。
我們可以基于應(yīng)用創(chuàng)建成功后獲取的 API Key 及 Secret Key,進(jìn)行接口調(diào)用操作,及相關(guān)配置。

填寫(xiě)完畢后,即可點(diǎn)擊「立即創(chuàng)建」,完成應(yīng)用的創(chuàng)建。點(diǎn)擊左側(cè)導(dǎo)航中的「應(yīng)用列表」,可以進(jìn)行應(yīng)用查看。

創(chuàng)建完畢應(yīng)用后,平臺(tái)將會(huì)分配此應(yīng)用的相關(guān)憑證,主要為 AppID、API Key、Secret Key。調(diào)用 API 接口時(shí),可以使用這些憑證,進(jìn)行 Access Token(用戶(hù)身份驗(yàn)證和授權(quán)的憑證)的生成。

2、調(diào)用服務(wù)
調(diào)用 AI 服務(wù)相關(guān)的 API 接口有兩種方式,兩種不同的調(diào)用方式采用相同的接口URL。區(qū)別在于請(qǐng)求方式和鑒權(quán)方法不一樣,請(qǐng)求參數(shù)和返回結(jié)果一致。
調(diào)用方式一? 請(qǐng)求 URL 數(shù)據(jù)格式
向授權(quán)服務(wù)地址https://aip.baidubce.com/oauth/2.0/token發(fā)送請(qǐng)求(推薦使用POST)。百度AI開(kāi)放平臺(tái)使用OAuth2.0授權(quán)調(diào)用開(kāi)放API,調(diào)用API時(shí)必須在URL中帶上Access_token參數(shù)。Access_token是用戶(hù)的訪問(wèn)令牌,承載了用戶(hù)的身份、權(quán)限等信息。
grant_type: 必須參數(shù),固定為client_credentials;
client_id: 必須參數(shù),應(yīng)用的API Key;
client_secret: 必須參數(shù),應(yīng)用的Secret Key;
獲取 Access_token 有三種方式:通過(guò)代碼的形式獲取,使用網(wǎng)頁(yè)調(diào)試工具獲取,在線調(diào)試工具。具體可參考Access Token獲取
POST 中參數(shù)按照 API 接口說(shuō)明調(diào)用即可。
調(diào)用方式二? 請(qǐng)求頭域內(nèi)容
在請(qǐng)求的 HTTP 頭域中包含以下信息,API 認(rèn)證機(jī)制 authorization 必須通過(guò)百度云的AK/SK 生成:
host(必填)
x-bce-date (必填)
x-bce-request-id(選填)
authorization(必填)
content-type(必填)
content-length(選填)
四、結(jié)語(yǔ)
在接下來(lái)生命科學(xué)領(lǐng)域的尖端探索中,沒(méi)有AI輔助工具的醫(yī)生,很可能會(huì)遠(yuǎn)遠(yuǎn)落后于有AI輔助的醫(yī)生。醫(yī)療行業(yè)是一個(gè)強(qiáng)監(jiān)管的行業(yè),任何新技術(shù)進(jìn)入其中都會(huì)受到慎重的評(píng)估。同樣,內(nèi)容安全性、合規(guī)性對(duì)金融、科技、傳媒等領(lǐng)域也至關(guān)重要。
大模型的白熱化已經(jīng)無(wú)法逆轉(zhuǎn),在數(shù)據(jù)流通的過(guò)程中加強(qiáng)內(nèi)容審核,將是大勢(shì)所趨。