一、性能指標(biāo)



對(duì)于大模型,特別是深度學(xué)習(xí)模型,需要關(guān)注其在硬件資源上的消耗,如內(nèi)存、計(jì)算資源等。
穩(wěn)健性測(cè)試:大模型可能對(duì)輸入中的小變化非常敏感,因此需要進(jìn)行對(duì)抗性測(cè)試,以驗(yàn)證模型在面對(duì)惡意輸入或輕微擾動(dòng)時(shí)的穩(wěn)健性。
Performance Testing
確定性能指標(biāo)
設(shè)計(jì)一套測(cè)試集,評(píng)估模型的整體性能指標(biāo)
? ? ? ? 樣本數(shù)量
? ? ? ? ? 樣本多樣性
關(guān)注響應(yīng)性能
? ? ? ? ? 回答過(guò)程的出字率
? ? ? ? ? 回答完問(wèn)題的響應(yīng)時(shí)間
? ? ? ? ? 測(cè)試系統(tǒng)在并發(fā)負(fù)載下的性能,確保在高負(fù)載時(shí)也能正常運(yùn)行
維護(hù)測(cè)試集,建立性能基線(xiàn)數(shù)據(jù)
? ? ? ? ? ? 使用標(biāo)準(zhǔn)數(shù)據(jù)集測(cè)試,測(cè)試模型的準(zhǔn)確度
? ? ? ? ? ? 要基于對(duì)Adapter層的認(rèn)知、以及用戶(hù)應(yīng)用場(chǎng)景,構(gòu)建測(cè)試集
? ? ? ? ? ? 使用了什么算法
? ? ? ? ? ? 什么樣的推理規(guī)則
? ? ? ? ? ? 如何構(gòu)建提示詞
? ? ? ? ? ? 如何修正LLM的輸出