
我們?cè)谧霎a(chǎn)品或系統(tǒng)的可用性測(cè)試后,都想把結(jié)果更好地傳遞給相關(guān)方。除了定性的研究結(jié)果之外,還有定量的可用性問(wèn)卷,這些可用性問(wèn)卷是標(biāo)準(zhǔn)化的,不僅可以科學(xué)地量化用戶體驗(yàn),也方便相關(guān)方之間有效溝通。常見(jiàn)的標(biāo)準(zhǔn)化可用性問(wèn)卷有整體評(píng)估問(wèn)卷、任務(wù)評(píng)估問(wèn)卷和網(wǎng)站感知可用性評(píng)估問(wèn)卷,如下所示:
整體評(píng)估問(wèn)卷
用于完成一系列任務(wù)場(chǎng)景后,對(duì)產(chǎn)品或系統(tǒng)整體的感知可用性測(cè)量。目前使用較廣泛的有:QUIS(Questionnaire For User Interaction Satisfaction)、SUMI(Software Usability Measurement Inventory)、PSSUQ(Post-Study System Usability Questionnaire)、CSUQ(Computer System questionnaire)、SUS(System Usability Scale)。
任務(wù)評(píng)估問(wèn)卷
每完成一個(gè)場(chǎng)景任務(wù),讓用戶對(duì)該任務(wù)進(jìn)行感知可用性測(cè)量。目前使用較廣泛的有:ASQ(After-Scenario Questionnaire)、SEQ(Single Ease Question)、SMEQ(Subjective Mental Effort Questionnaire)、ER(Expectation Ratings)、UME(Usability Magnitude Estimation)。
網(wǎng)站感知可用性評(píng)估問(wèn)卷
大部分標(biāo)準(zhǔn)化可用性問(wèn)卷最初在20世紀(jì)80年代中期到后期被開發(fā),在網(wǎng)絡(luò)開始流行時(shí),出現(xiàn)了更有針對(duì)性的評(píng)估網(wǎng)站感知可用性的問(wèn)卷,目前廣泛使用的有:WAMMI(Website Analysis and Measurement Inventory)、SUPRQ(Standardized Universal Percentile Rank Questionnaire)。
本文主要是自己做項(xiàng)目后的一點(diǎn)小結(jié),將從what,when,why,how四個(gè)角度討論用戶研究中常用的SUS(系統(tǒng)可用性量表),對(duì)其他量表感興趣的可以自行深入研究。
SUS是什么?
SUS最初是Brooke于1986年編制,量表由10個(gè)題目組成,包括奇數(shù)項(xiàng)的正面陳述和偶數(shù)項(xiàng)的反面陳述,要求參與者在使用系統(tǒng)或產(chǎn)品后對(duì)每個(gè)題目進(jìn)行5點(diǎn)評(píng)分。

經(jīng)過(guò)翻譯,我們可以看到中文版如下:

注意:在使用SUS的過(guò)程中,可以對(duì)題目的詞語(yǔ)進(jìn)行替換,這些替換對(duì)最后的測(cè)量結(jié)果都沒(méi)有影響。比如“system”可替換成網(wǎng)站、產(chǎn)品或者自己產(chǎn)品的名稱等。
何時(shí)使用?
同一產(chǎn)品或系統(tǒng),新舊迭代版本的對(duì)比。比如:某App首頁(yè)改版后,新舊首頁(yè)的對(duì)比。
同一產(chǎn)品或系統(tǒng),不同終端之間的對(duì)比。比如:某產(chǎn)品的PC端、App端進(jìn)行比較。
同類型競(jìng)品之間的比較。比如:蘇寧,京東,當(dāng)當(dāng)三款A(yù)pp使用后進(jìn)行比較。
為什么使用?
量表公開免費(fèi)。
整個(gè)量表題目陳述簡(jiǎn)單,只需參與者打分,實(shí)施起來(lái)很快。
測(cè)量結(jié)果是介于0-100之間的分?jǐn)?shù),容易理解。
可測(cè)量多種用戶界面,比如網(wǎng)頁(yè)、手機(jī)、平板等。
多個(gè)實(shí)證研究表明SUS效果較佳。如Tullis等人研究表明,在樣本量有限時(shí),SUS可以最快達(dá)到效果(如下圖)。也有大樣本的研究(Bangor,2008)得出SUS的信度系數(shù)為0.91。

如何使用?
計(jì)分
當(dāng)參與者做完一系列任務(wù)后,就可以快速對(duì)SUS進(jìn)行打分。然后就需要對(duì)每個(gè)題目的分值進(jìn)行轉(zhuǎn)換,奇數(shù)項(xiàng)計(jì)分采用“原始得分-1”,偶數(shù)項(xiàng)計(jì)分采用“5-原始得分”。由于是5點(diǎn)量表,每個(gè)題目的得分范圍記為0~4(最大值為40),而SUS的范圍在0~100,故需要把所有項(xiàng)的轉(zhuǎn)換分相加,最終再乘以2.5,即可獲得SUS分?jǐn)?shù)。
除了獲得SUS量表總分之外,還可以獲得分量表得分。SUS中,第4和第10項(xiàng)構(gòu)成的子量表為“易學(xué)性”(Learnability),其他8項(xiàng)構(gòu)成的子量表為“可用性”(Usability)。為了使易學(xué)性和可用性分?jǐn)?shù)能夠與整體SUS分?jǐn)?shù)兼容,范圍也是0~100,需要對(duì)原始分?jǐn)?shù)進(jìn)行轉(zhuǎn)換:易學(xué)性量表轉(zhuǎn)換分?jǐn)?shù)的總和乘以12.5,可用性量表乘以3.125。
Tips:因?yàn)镾US記分時(shí)是用的0~4個(gè)距離,為了讓總分是100,所以計(jì)算SUS總分時(shí)要乘以2.5。但是可用性的題目為8個(gè),總分值在0~32,所以應(yīng)該是計(jì)算出8道題的總分,然后乘以100/32。易學(xué)性的計(jì)分類推。
為了方便計(jì)分,我編制了一個(gè)SUS計(jì)分器。如果有需要,可在我個(gè)人微信公眾號(hào)回復(fù)“SUS”獲取。
解釋
SUS分?jǐn)?shù)反應(yīng)的是總體可用性,當(dāng)然,也包括兩個(gè)分量表的特性。對(duì)于總體可用性,已有研究者(Bangor,2009)得出了文字、字母、可接受范圍與SUS分?jǐn)?shù)之間的關(guān)系,在圖中可以直觀地查看并解釋SUS分?jǐn)?shù)的意義。

除此之外,也可以將SUS分?jǐn)?shù)換算成百分等級(jí)來(lái)解釋,百分等級(jí)的意思是指測(cè)量的產(chǎn)品或系統(tǒng)相對(duì)于總數(shù)據(jù)庫(kù)里其他產(chǎn)品或系統(tǒng)的可用性程度。比如SUS得分是73分,其百分等級(jí)大約為67,意味著比大約66%的產(chǎn)品可用性更好。

注意,這里的總數(shù)據(jù)庫(kù)是Jeff Sauro(2011)通過(guò)446個(gè)研究,超過(guò)5000個(gè)用戶的SUS反饋的數(shù)據(jù)庫(kù)。如果從企業(yè)研究團(tuán)隊(duì)的角度來(lái)看,可以沉淀以往的研究,建立企業(yè)自己產(chǎn)品或系統(tǒng)的SUS數(shù)據(jù)庫(kù),從而獲得自身的基準(zhǔn)數(shù)據(jù),當(dāng)然,這個(gè)基準(zhǔn)數(shù)據(jù)也有可能是內(nèi)部團(tuán)隊(duì)制定。
在使用SUS的過(guò)程中遇到了兩個(gè)小問(wèn)題:第一,10個(gè)題目中,個(gè)別題目對(duì)于參與者來(lái)說(shuō)難以理解,比如第2題和第6題,這時(shí)需要和參與者進(jìn)行解釋。第二,最終的SUS分?jǐn)?shù)并不是一個(gè)百分?jǐn)?shù),需要給受眾解釋清楚,當(dāng)SUS分?jǐn)?shù)為70時(shí),其實(shí)是接近SUS總體的平均分,即對(duì)應(yīng)的百分等級(jí)接近50,也就是說(shuō)比大約一半的產(chǎn)品可用性更好。對(duì)于第一個(gè)問(wèn)題,我們需要靈活應(yīng)變,在使用題目時(shí)注意措辭,避免歧義。對(duì)于第二個(gè)問(wèn)題,需要查閱書籍文獻(xiàn)(建議閱讀文末的參考文獻(xiàn)),這些理論的根源還是需要有充分的了解,否則就是半瓶子醋。
SUS最初的目的是快速而粗糙地測(cè)量可用性,現(xiàn)在已經(jīng)被廣泛使用。在定性研究的基礎(chǔ)上,利用定量的結(jié)果來(lái)輔助會(huì)使研究結(jié)論更具有說(shuō)服力,也是一種研究趨勢(shì)。然而,在使用過(guò)程中,會(huì)遇到一些問(wèn)題,作為研究人員,我們需要不斷的在理論中思考實(shí)踐,在實(shí)踐中思考理論,以促進(jìn)自身的成長(zhǎng)。
更多閱讀
Bangor, A., Kortum, P. T., & Miller, J. T. (2009). Determining what individual SUS scores mean:Adding an adjective rating scale. Journal of Usability Studies, 4(3), 114-123.
Jeff Sauro.(2014). 用戶體驗(yàn)度量. 機(jī)械工業(yè)出版社.
John Brooke. (2013). SUS: A Retrospective. Journal of Usability Studies, 8(2), 29-40.
Tullis, T. S., & Stetson, J. N. (2004). A comparison of questionnaires for assessing website usability. Proceedings of UPA 2004 Conference. Minneapolis, Minnesota.