熟悉或參加過PTE學(xué)術(shù)英語(yǔ)考試的同學(xué),都會(huì)對(duì)這項(xiàng)考試充滿信任。即便備考奮戰(zhàn)的過程要死要活,也會(huì)感嘆PTE學(xué)術(shù)英語(yǔ)考試高效、準(zhǔn)確和公平??荚囁鶐?lái)的impact也在考生和老師的口口相傳中,逐漸擴(kuò)大。
上月(2019年3月28日),PTE官網(wǎng)上公布了一份完整的《PTE學(xué)術(shù)英語(yǔ)考試效能報(bào)告(PTE Academic Assesment Efficacy Report)》。
有意思的是,文章標(biāo)題: How PTE Academic Supports its Test Outcomes.

凡教育類的考試,就是建立一套評(píng)價(jià)體系。想要被廣泛接納,全球認(rèn)可,必須首要證明其過程公平性和結(jié)果正當(dāng)性。
PTE學(xué)術(shù)英語(yǔ)考試從2009年推出至今,已被澳大利亞移民局、新西蘭移民局,英美加澳及世界多國(guó)的數(shù)千所高等院校和教育機(jī)構(gòu)認(rèn)可;考生遍布180多個(gè)國(guó)家和地區(qū);年考量以約30%速度增長(zhǎng)。從各種事實(shí)數(shù)據(jù)來(lái)看,PTE學(xué)術(shù)英語(yǔ)考試獲得了考試認(rèn)可方以及考生的深刻認(rèn)同,這套評(píng)估體系在實(shí)踐中已獲得檢驗(yàn)和推廣。
那么,返回到原點(diǎn)。
從科學(xué)研究的角度,邏輯論證的系統(tǒng),如何證明PTE學(xué)術(shù)英語(yǔ)考試的結(jié)果是可以被考試本身所支持的呢?****也就大白話所說(shuō)的,怎么證明成績(jī)就是靠譜的呢?
Pearson在最新公布的這份《效能報(bào)告》中,用文本研究和田野調(diào)查,論證了PTE Academic作為考試的過程公平性和結(jié)果正當(dāng)性。
《PTE學(xué)術(shù)英語(yǔ)考試效能報(bào)告》的研究目的是,盡可能公開透明地說(shuō)明PTE學(xué)術(shù)英語(yǔ)考試如何設(shè)計(jì)、開發(fā),并評(píng)估其產(chǎn)品對(duì)學(xué)習(xí)者的影響。
衡量考試質(zhì)量:三大測(cè)評(píng)質(zhì)量標(biāo)準(zhǔn)
此次研究和分析經(jīng)理Sarah Hughes幫助共同整理了這份PTE Academic的報(bào)告,以下是她列出關(guān)于這份報(bào)告核心:
"The PTE Academic Assessment Efficacy Report explains how our research relates tothree key indicators of assessment quality: validity, reliability, and fairness."
“PTE學(xué)術(shù)英語(yǔ)考試效能評(píng)估報(bào)告解釋了:我們的研究如何將PTE Academic與考試質(zhì)量的三個(gè)關(guān)鍵指標(biāo)相關(guān)聯(lián)——有效性、可靠性、公平性?!?/p>
“我們把這三個(gè)主要的測(cè)評(píng)質(zhì)量標(biāo)準(zhǔn)作為效能評(píng)估的依據(jù),應(yīng)用到PTE Academic的主要目的中去。PTE Academic的主要目的是測(cè)量考生在聽、讀、說(shuō)寫方面的學(xué)術(shù)英語(yǔ)語(yǔ)言能力。”
這里所討論的三個(gè)主要測(cè)評(píng)質(zhì)量標(biāo)準(zhǔn),是評(píng)估在多大程度上允許考試應(yīng)用者對(duì)考生的英語(yǔ)能力(有效性),分?jǐn)?shù)的一致性和準(zhǔn)確性(可靠性),以及考試的公平性做出合理解釋(AERA, APA and NCME, 2014)。
為什么用這三個(gè)測(cè)評(píng)質(zhì)量標(biāo)準(zhǔn)?
《教育和心理測(cè)驗(yàn)的標(biāo)準(zhǔn)(AERA,APA,NCME,2014)》給出定義,三項(xiàng)用于評(píng)估測(cè)驗(yàn)效能的基本屬性:有效性、可靠性、公平性。
有效性
“證據(jù)和理論支持測(cè)驗(yàn)使用所需的考分解釋的程度(P11)”有效性要求有證據(jù)證明考試成績(jī)可以被理解為測(cè)試意圖或目的,并且在某特定的、明確的目的下被合理使用。
可靠性
“一項(xiàng)測(cè)驗(yàn)在重復(fù)過程中,所得分?jǐn)?shù)的一致性(P33)?!笨煽啃砸笥凶C據(jù)證明隨著時(shí)間推移、跨域多種測(cè)試形式,和/或多個(gè)評(píng)分者,考試分?jǐn)?shù)始終如一。
公平性
“分?jǐn)?shù)對(duì)于所有適應(yīng)人群的個(gè)體都有同樣的含義”(P50).公平性要求有證據(jù)證明當(dāng)測(cè)試按預(yù)期執(zhí)行時(shí),各項(xiàng)目不存在針對(duì)某一特殊考生群體的系統(tǒng)性偏見,在測(cè)試管理流程中,學(xué)生不會(huì)被不相干的障礙阻礙其展示技能。
考慮到上述三個(gè)標(biāo)準(zhǔn)在開發(fā)和評(píng)估測(cè)試中作為最佳實(shí)踐指引,且該理論體系所起到的長(zhǎng)期作用,以及它們?cè)谠u(píng)測(cè)的法律辯護(hù)方面起到作用,培生采用了這三種屬性做評(píng)估質(zhì)量指標(biāo)(AQI),用于我們公開發(fā)布培生考試產(chǎn)品的證明。

評(píng)估質(zhì)量標(biāo)準(zhǔn)I. 有效性
有證據(jù)表明,考試成績(jī)可以被用作并理解為考試所定義的目的。對(duì)于PTE學(xué)術(shù)英語(yǔ)考試而言,考試成績(jī)能夠有意義的反映一個(gè)考生的語(yǔ)言水平,全世界都能理解且?guī)椭忌谖磥?lái)邁出下一步,這一點(diǎn)很重要。
PTE學(xué)術(shù)英語(yǔ)考試的主要目的是能夠讓考試使用者對(duì)考生的英語(yǔ)語(yǔ)言能力給出合理的解釋。通過考試所提供的精準(zhǔn)捕捉能力,和四大溝通技能的相對(duì)優(yōu)劣項(xiàng)概要描述來(lái)支持考試使用者判別或做出定位。
PTE學(xué)術(shù)英語(yǔ)考試的考試成績(jī)可以被解釋為英語(yǔ)語(yǔ)言能力的測(cè)評(píng),也可以用于學(xué)術(shù)項(xiàng)目入學(xué)或技術(shù)移民。(有效性得以驗(yàn)證)
評(píng)估質(zhì)量標(biāo)準(zhǔn)II. 可靠性
可靠性是個(gè)度量的概念,意味著無(wú)論隨著時(shí)間、考試形式、抑或多個(gè)考試主辦方,分?jǐn)?shù)都始終保持如一。任何時(shí)候,一名應(yīng)試者參加考試,他們都應(yīng)該有同樣的機(jī)會(huì)面對(duì)始終一致的評(píng)測(cè)。
PTE學(xué)術(shù)英語(yǔ)考試另一個(gè)主要目標(biāo)是通過提供在各種不同考試場(chǎng)合中保持一致的分?jǐn)?shù),讓判斷和決策中的錯(cuò)誤最小化。
PTE學(xué)術(shù)PTE學(xué)術(shù)英語(yǔ)考試考試成績(jī)是一致的,無(wú)論經(jīng)歷時(shí)間、和/或多個(gè)考試主辦方。(可靠性得以驗(yàn)證)
評(píng)估質(zhì)量標(biāo)準(zhǔn)III. 公平性
公正性指的是考試不存在系統(tǒng)性的偏見,并且對(duì)所有考生而言,考試成績(jī)都可以以同樣的方式被解釋。PTE學(xué)術(shù)英語(yǔ)考試關(guān)于公正性和自動(dòng)評(píng)分研究保證了考生能有同樣的機(jī)會(huì)來(lái)證明其語(yǔ)言水平,不關(guān)乎性別、種族、民族等。
PTE學(xué)生英語(yǔ)考試還致力于所有考生的成績(jī)都可以以相同的方式被解釋,無(wú)關(guān)性別,種族/族裔或母語(yǔ)。公平意味著當(dāng)考試按預(yù)期執(zhí)行時(shí),各項(xiàng)目不存在針對(duì)某一特殊考生群體的系統(tǒng)性偏見,在考試過程中,考生不會(huì)被不相干的障礙阻礙其展示技能。
PTE學(xué)術(shù)英語(yǔ)考試對(duì)各種不同群體的考生來(lái)說(shuō),考試分?jǐn)?shù)能用同樣的方式來(lái)解釋。(公平性得以驗(yàn)證)
產(chǎn)品調(diào)查和研究:多項(xiàng)論據(jù)搜集
PTE學(xué)術(shù)英語(yǔ)考試團(tuán)隊(duì)為論證上述三個(gè)標(biāo)準(zhǔn),實(shí)施大量的調(diào)研,以搜集科學(xué)系統(tǒng)的證據(jù)。這些證據(jù)都被整理公布在技術(shù)手冊(cè)中。其中一些調(diào)研是完全內(nèi)部數(shù)據(jù)的,有興趣的學(xué)者和研究員可以查閱培生官方技術(shù)手冊(cè)(official technical manual)。
以下是PTE學(xué)術(shù)英語(yǔ)考試效能評(píng)測(cè)報(bào)告,所使用產(chǎn)品調(diào)研項(xiàng)目:
Aligning PTE Academic test scores to the Common European Framework of Reference
Alignment of the Global Scale of English to other scales: the concordance between PTE Academic, IELTS and TOEFL
Standard setting study – concordance with the Canadian Language Benchmarks (CLB)
Automated scoring whitepaper
Differential item functioning and unidimensionality
Item sensitivity review
Field Test I
Field Test II