SciQ數(shù)據(jù)集

下載地址

https://allenai.org/data/sciq

論文地址

Crowdsourcing multiple choice science questions

數(shù)據(jù)集說明

簡要介紹

該數(shù)據(jù)集是一個(gè)高質(zhì)量的、科學(xué)領(lǐng)域的多項(xiàng)選擇數(shù)據(jù)集,由人工構(gòu)造,共包含13,679 個(gè)多項(xiàng)選擇題。

構(gòu)建方式

1.選擇該領(lǐng)域的教材作為原始資源
2.使用基于規(guī)則的方法,從教材中選擇適合生成合理問題的片段
3.提供3個(gè)過濾出的片段供每個(gè)參與者選擇/全不選擇
4.定義期望的和不期望的問題示例供參考
5.一個(gè)參與者根據(jù)提供的片段問問題,并提供正確答案
6.訓(xùn)練模型從一個(gè)大集合中預(yù)測出的6個(gè)干擾選項(xiàng)
7.另一個(gè)參與者從6個(gè)干擾選項(xiàng)中最多選擇2個(gè)使用
8.自己再想一個(gè)構(gòu)成最終的3個(gè)干擾選項(xiàng)

數(shù)據(jù)示例


其中,support為回答該問題所需的外部知識。

數(shù)據(jù)集使用方式

版本1:用作多項(xiàng)選擇題。(此時(shí)無需使用support,因?yàn)槿羰褂胹upport,對于問題來說答案就顯而易見了。)
我們也可以看到,該數(shù)據(jù)集中數(shù)據(jù)基本都是常識類問題,若有背景知識,無需support也可回答問題。
另,也有使用該數(shù)據(jù)集進(jìn)行外部知識使用研究的,如論文 What Does My QA Model Know? Devising Controlled Probes using Expert Knowledge
版本2:用作問答題。此時(shí)數(shù)據(jù)集僅包含support和question

數(shù)據(jù)質(zhì)量

論文中提出使用了盲測評估數(shù)據(jù)的質(zhì)量,隨機(jī)了100個(gè)人工問題和100個(gè)數(shù)據(jù)集中問題,人工區(qū)分,發(fā)現(xiàn)55%的數(shù)據(jù)集中問題被識別出來,說明該數(shù)據(jù)集的質(zhì)量接近純?nèi)斯?shù)據(jù)質(zhì)量。

相關(guān)實(shí)驗(yàn)

1.使用該數(shù)據(jù)集進(jìn)行閱讀理解、問答題實(shí)驗(yàn),說明了該數(shù)據(jù)集可用于進(jìn)行相關(guān)的研究。
2.使用SciQ進(jìn)行真實(shí)科學(xué)問題回答時(shí),效果如下:



上述實(shí)驗(yàn)結(jié)論表明,SciQ的問題分布與真實(shí)科學(xué)問題是相似的。

有趣的結(jié)論

標(biāo)注數(shù)據(jù)中,干擾選項(xiàng)來自模型提供的6個(gè)候選的比例為36.1%(最高為66%,因?yàn)橄拗屏俗疃嘀荒苓x2個(gè)),在短答案上這個(gè)比例會更高、長答案上會更低一些,說明該模型產(chǎn)生的候選干擾選項(xiàng)效果還不錯,后續(xù)進(jìn)行干擾選項(xiàng)生成或評估可以參考該方法。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容