Anthropic發(fā)布生物信息學(xué)專屬基準(zhǔn),大模型真實(shí)數(shù)據(jù)分析能力達(dá)專家水平

Anthropic近期發(fā)布了針對生物信息學(xué)領(lǐng)域的測試基準(zhǔn)BioMysteryBench。這項(xiàng)測試主要評估大語言模型在處理真實(shí)且復(fù)雜的生物學(xué)數(shù)據(jù)時的科研分析能力。傳統(tǒng)的科學(xué)評估方式通常側(cè)重理論知識問答或者在模擬環(huán)境中進(jìn)行操作。真實(shí)的生物學(xué)研究存在大量數(shù)據(jù)噪音且分析方法多樣。Anthropic專門開發(fā)了這項(xiàng)全新的評估系統(tǒng)。

評估生物學(xué)研究能力存在三個挑戰(zhàn)。第一,解決同一個研究問題存在多種正確的途徑。第二,研究人員在數(shù)據(jù)處理中的個人決策具有極強(qiáng)的主觀性,在處理存在噪音的數(shù)據(jù)集時,細(xì)微的分析差異會導(dǎo)致完全不同的結(jié)論。第三,許多深層次的生物學(xué)問題目前人類研究者自身尚未找到明確答案。

BioMysteryBench是為了應(yīng)對上述情況而設(shè)計(jì)的。該基準(zhǔn)包含99個由生物信息學(xué)專家編寫的具體問題。這些問題主要基于未經(jīng)處理或僅進(jìn)行初步處理的DNA測序和RNA測序數(shù)據(jù)以及少量的蛋白質(zhì)組學(xué)和代謝組學(xué)數(shù)據(jù)。這項(xiàng)評估系統(tǒng)具有三個核心特點(diǎn)。

首先,該測試不限制具體的分析方法。模型可以使用內(nèi)置工具或者安裝外部環(huán)境包以及訪問公共生物數(shù)據(jù)庫。只要最終得出的生物學(xué)結(jié)論正確即可得分。

其次,所有問題都具備客觀的事實(shí)標(biāo)準(zhǔn)答案。這些答案來源于實(shí)驗(yàn)本身的客觀屬性或經(jīng)過獨(dú)立檢測驗(yàn)證的數(shù)據(jù),而不是科學(xué)家的主觀推斷。

最后,基于客觀數(shù)據(jù)的出題方式允許基準(zhǔn)中包含一部分人類專家難以直接解決的題目。

在對比測試中,Anthropic邀請了領(lǐng)域內(nèi)的專家對這些問題進(jìn)行解答,并將題目劃分為人類可解答和人類難以解答兩類。在人類可解答的問題集上,Claude的表現(xiàn)與人類專家相近。在人類難以解答的難題集上,多個版本的Claude模型也能解決一部分題目,部分前沿版本模型能夠達(dá)到30%的解決率。

研究團(tuán)隊(duì)分析了Claude在解題時采取的策略。模型掌握了包含結(jié)構(gòu)生物學(xué)、分子特征以及大量文獻(xiàn)薈萃分析的基礎(chǔ)數(shù)據(jù)庫。對于需要人類專家耗時比對和綜合整理的分析任務(wù),模型能夠直接結(jié)合內(nèi)部數(shù)據(jù)與實(shí)時代碼環(huán)境進(jìn)行處理。另外,當(dāng)模型對某個生物學(xué)問題的結(jié)果不確定時,它會同時運(yùn)行多種不同的分析方法,并傾向于選擇在多個方法中產(chǎn)生一致結(jié)果的最終答案。

圖片
圖片

模型團(tuán)隊(duì)對測試表現(xiàn)的穩(wěn)定性進(jìn)行了深入評估。數(shù)據(jù)表明,模型在不同難度問題上的解答穩(wěn)定性存在顯著差異。在較容易的題目上,模型表現(xiàn)出極高的穩(wěn)定性,在多次嘗試中全部正確或全部失敗。但在極具挑戰(zhàn)性的題目上,模型在多次重復(fù)嘗試中難以穩(wěn)定復(fù)現(xiàn)正確的推理過程。這說明模型在處理高難度生物學(xué)問題時仍存在一定的隨機(jī)性。

BioMysteryBench的綜合測試結(jié)果顯示,當(dāng)前的模型在生物信息學(xué)分析領(lǐng)域已經(jīng)能夠達(dá)到受訓(xùn)科學(xué)家的專業(yè)水平,并在部分復(fù)雜任務(wù)上展現(xiàn)出了更強(qiáng)的數(shù)據(jù)處理能力。人工智能技術(shù)正在逐漸深入真實(shí)的生命科學(xué)研究分析流程中。

Chart showing per-problem solve consistency on BioMysteryBench.
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容