ABSTRACT
當(dāng)重現(xiàn)DKT模型時(shí),發(fā)現(xiàn)兩個(gè)問(wèn)題:
- the model fails to reconstruct the observed input,無(wú)法在預(yù)測(cè)結(jié)果中重現(xiàn)觀察到的輸入的信息,即:有時(shí)學(xué)生回答正確某個(gè)知識(shí)點(diǎn),但是預(yù)測(cè)的該知識(shí)點(diǎn)的掌握程度卻變低了,反之亦然,如圖所示:
該圖表示一個(gè)學(xué)生的做題情況和每個(gè)時(shí)刻的預(yù)測(cè)情況,顏色越深,掌握的越好。在time=6時(shí)刻,學(xué)生把s45回答錯(cuò)誤,但是預(yù)測(cè)的該知識(shí)點(diǎn)的掌握情況相比前一時(shí)刻卻更好了。
- 相鄰時(shí)間,學(xué)生對(duì)知識(shí)點(diǎn)的掌握情況波動(dòng)很大,這是不合理的,應(yīng)該是隨時(shí)間緩慢變化的。從圖像可以看出,當(dāng)學(xué)生回答s32和s33時(shí),對(duì)于s32、s33、s45和s55的預(yù)測(cè)波動(dòng)很大。學(xué)生的掌握情況應(yīng)該是逐漸過(guò)渡的,而不是在“掌握”與“未掌握”之間交替。
解決方法:為損失函數(shù)增加正則項(xiàng)(正規(guī)化損失函數(shù)),實(shí)驗(yàn)表明,正規(guī)化DKT在重構(gòu)觀察到的輸入的答案標(biāo)簽時(shí)更加準(zhǔn)確,并且使預(yù)測(cè)更加連貫,同時(shí)不犧牲下一次預(yù)測(cè)結(jié)果的準(zhǔn)確性。
knowledge component(kc) = skill = concept = exercise
本篇文章的貢獻(xiàn)
- 提出DKT模型存在的兩個(gè)問(wèn)題:無(wú)法重現(xiàn)輸入序列、預(yù)測(cè)結(jié)果波動(dòng)太大
- 提出了3個(gè)正則項(xiàng):r 解決第一個(gè)問(wèn)題,w1、w2解決第二個(gè)問(wèn)題
- 提出了5個(gè)指標(biāo)來(lái)評(píng)價(jià)KT的3個(gè)方面:
AUC(C):用來(lái)評(píng)價(jià) the prediction performance of the current interaction
w1\w2:預(yù)測(cè)結(jié)果的波動(dòng)性
m1\m2:當(dāng)前觀察值與相應(yīng)預(yù)測(cè)之間的一致性
BACKGROUND
介紹傳統(tǒng)的知識(shí)追蹤方法:BKT,指出他的不合理性,并且有許多改進(jìn)方法,但這些改進(jìn)方法通常需要大量特征工程工作,同時(shí)導(dǎo)致了計(jì)算量的增加。使用了邏輯回歸的LFA,改造后的PFA方法,熱門的DKT方法。
Review of Deep Knowledge Tracing
介紹使用LSTM的DKT模型
element-wise multiplication:向量的元素依次相乘
[1, 2, 3] * [0, 1, 0] = [0, 2, 0]
vanilla RNN:標(biāo)準(zhǔn)RNN
As the hidden state summarizes the information from the past, the hidden state in the DKT can therefore be conceived as the latent knowledge state of student resulted from his past learning trajectory.

n表示學(xué)生總數(shù),Ti表示學(xué)生i有多少條記錄
SOME PROBLEMS OF DKT AND THEIR REMEDIES
regularization terms:正則項(xiàng)
問(wèn)題1:Reconstruction Problem
之所以出現(xiàn)問(wèn)題1,是因?yàn)閾p失函數(shù)只考慮下個(gè)時(shí)間的預(yù)測(cè)結(jié)果,不包括當(dāng)前時(shí)刻的預(yù)測(cè)結(jié)果。
當(dāng)輸入序列((s32, 0), (s33, 0))頻繁出現(xiàn)時(shí),DKT模型會(huì)學(xué)習(xí)到,如果學(xué)生錯(cuò)誤回答32,那么他下次可能會(huì)錯(cuò)誤回答33,而不是32。這是不對(duì)的。
有人指出,有可能32是33的前提,因?yàn)橹挥挟?dāng)DKT模型傳入(33,0)的時(shí)候,對(duì)于32的預(yù)測(cè)才會(huì)下降,但是收到(32,0)時(shí),對(duì)32的預(yù)測(cè)又會(huì)增加。為了反對(duì)以上觀點(diǎn),我們假設(shè)32是33的前提,那么如果此刻答錯(cuò)32,那么下一時(shí)刻大概率會(huì)答錯(cuò)33,反之則不是這樣。根據(jù)我們的假設(shè),我們希望在table1中,右下角的值比左下角的值大,table2反之。
根據(jù)假設(shè),我們希望table1中,右下角的值大于左下角,但是在table2中不是。

table1證明了我們的假設(shè),但是table2又展示了,如果33回答錯(cuò)誤。那么下一時(shí)刻32回答錯(cuò)誤的概率比回答正確的概率要大,這說(shuō)明反依賴關(guān)系也存在。那么,有沒(méi)有可能他們是互相依賴的?
s32=Ordering Positive Decimals
s33=Ordering Fractions
緩解該問(wèn)題的直接方法是通過(guò)考慮預(yù)測(cè)和當(dāng)前交互之間的損失來(lái)規(guī)范化DKT模型。

問(wèn)題2:Wavy Transition in Prediction
RNN中的隱藏層表示了學(xué)生對(duì)各個(gè)知識(shí)點(diǎn)的潛在掌握情況,通過(guò)對(duì)輸出層進(jìn)行正則化,我們定義了兩個(gè)正則項(xiàng)使得輸出更加平滑。

M:知識(shí)點(diǎn)總數(shù)
L1范數(shù)、L2范數(shù)用于衡量t時(shí)刻和t+1時(shí)刻預(yù)測(cè)結(jié)果的差異。這類似于彈性網(wǎng)絡(luò)正則化(elastic net regularization),因此,w1的值可以看做輸出向量的每個(gè)分量在yt和yt+1之間的平均值變化,w1和w2的值越大,模型的波動(dòng)就越大??偠灾ㄟ^(guò)合并三個(gè)正則項(xiàng)來(lái)增強(qiáng)原始損失函數(shù),從而得到以下正則損失函數(shù)

λr、λw1、λw2是正則化參數(shù),通過(guò)訓(xùn)練這個(gè)新的損失函數(shù),DKT模型可以解決以上兩個(gè)問(wèn)題。
EXPERIMENTS
Implementation
- Experiment settings
80%的數(shù)據(jù)作為訓(xùn)練集,20%作為測(cè)試集。訓(xùn)練集使用5-fold交叉驗(yàn)證,用于選擇超參數(shù)。測(cè)試集用于評(píng)估模型,并且also to perform early stopping.參數(shù)w使用高斯分布進(jìn)行初始化,0均值和小方差。為了公平比較,我們遵循[12]中的超參數(shù)設(shè)置,即使它可能不是最佳選擇。狀態(tài)大小為200的單層RNN-LSTM被用作DKT模型的基礎(chǔ)。
learning rate = 0.01
dropout rate = 0.5
set the norm clipping threshold to 3.0
此外,使用ASSIST2009數(shù)據(jù)集的初步試驗(yàn)表明,使用題目標(biāo)簽作為y會(huì)導(dǎo)致數(shù)據(jù)稀疏并且性能下降,所以我們選擇使用知識(shí)點(diǎn)標(biāo)簽作為y標(biāo)簽。
(An AUC of 0.73 if 26,668 exercise IDs are used; an AUC of 0.82 if 124 unique skill IDs are used.) - Hyperparameter search
每個(gè)超參數(shù)都要單獨(dú)examined
λr、λw1、λw2三個(gè)參數(shù)的初始范圍分別為
{0, 0.25, 0.5,1.0}
{0, 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1.0, 3.0, 10.0}
{0, 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1.0, 3.0, 10.0, 30.0,100.0}
縮小范圍后,三個(gè)參數(shù)的范圍為:
{0, 0.05, 0.10, 0.15, 0.20, 0.25}
{0, 0.01, 0.03, 0.1, 0.3, 1.0}
{0, 0.3, 1.0, 3.0, 10.0, 30.0, 100.0} -
Evaluation Measures評(píng)價(jià)指標(biāo)
傳統(tǒng)DKT模型使用AUC來(lái)評(píng)估,AUC=0.5表示模型表現(xiàn)的跟瞎猜一樣。
本實(shí)驗(yàn)不僅報(bào)告了AUC,還報(bào)告了關(guān)于重構(gòu)輸入和輸入值的一致性,以及預(yù)測(cè)結(jié)果的波動(dòng)性。
AUC(N) = AUC for the next performance prediction
AUC(C) = AUC for the current performance prediction
使用m1和m2來(lái)衡量輸入和相應(yīng)預(yù)測(cè)之間的一致性
對(duì)于學(xué)生i,在時(shí)間t,我們定義:
當(dāng)模型針對(duì)輸入給了正確的預(yù)測(cè)變化,對(duì)于mi1t和mi2t就獲得了正值,否則將獲得負(fù)值。
m1為正:表示一半以上的預(yù)測(cè)與輸入數(shù)據(jù)相符;
為0:表示模型使得一半的預(yù)測(cè)值朝著正確方向變化,另一半朝著錯(cuò)誤方向變化;
負(fù)值:表示模型做出的預(yù)測(cè)一半以上都是朝著錯(cuò)誤方向變化
m2也是如此
因此,從當(dāng)前觀測(cè)的預(yù)測(cè)一致性的角度來(lái)看,m1和m2的值越高,模型越好。
一個(gè)好的DKT模型應(yīng)該既有高的AUC,又有低的波動(dòng)
Datasets
介紹了幾個(gè)數(shù)據(jù)集
ASSISTment 2009 (ASSIST2009)
刪除了原始數(shù)據(jù)中的重復(fù)數(shù)據(jù),修改后的數(shù)據(jù)集包含4,417個(gè)學(xué)生的328,291條互動(dòng),124個(gè)知識(shí)點(diǎn)ASSISTment 2015 (ASSIST2015)
19,917個(gè)學(xué)生,100個(gè)知識(shí)點(diǎn),708,631條互動(dòng),雖然這個(gè)數(shù)據(jù)集互動(dòng)數(shù)據(jù)更多,但是由于學(xué)生數(shù)量太多,平均每個(gè)知識(shí)點(diǎn)每個(gè)學(xué)生的數(shù)據(jù)其實(shí)更小。ASSISTment Challenge (ASSISTChall)
Statics2011
Simulated-5
原論文中作者自己模擬的虛擬數(shù)據(jù)
Results
TABLE3中展現(xiàn)了有無(wú)正則化的所有評(píng)價(jià)指標(biāo)的比較。
有正則化的DKT叫做DKT+
| ASSIST2009 | DKT | DKT+ |
|---|---|---|
| AUC(N) | 0.8212 | 0.8227 |
| AUC(C) | 0.9044 | 0.9625 |
可以看出,DKT+在AUC(N)上變化不明顯,但是在AUC(C)上有明顯的的提升。波動(dòng)量同時(shí)明顯下降:w1從0.083到0.0229,w2從0.1279到0.0491,并且盡管DKT已經(jīng)使得一般的預(yù)測(cè)結(jié)果朝著正確方向改變,DKT+使得m1從0.3002到0.4486,m2從0.0156到0.0573。
同樣的變化也發(fā)生在ASSIST2015這個(gè)數(shù)據(jù)集上。DKT+的AUC(N)和DKT的差不多,是0.7371,AUC(C)、m1、m2分別提升到0.9233、0.8122、0.0591。并且,DKT+的w1、w2的值僅僅是DKT的一半。
分析在其余3個(gè)模型上,DKT+的優(yōu)勢(shì)。
總結(jié),實(shí)驗(yàn)結(jié)果表明,基于r、w1、w2的正則項(xiàng)有效的緩解了重建問(wèn)題和過(guò)度波動(dòng)問(wèn)題,并且不影響預(yù)測(cè)結(jié)果的精確度。
并且對(duì)于λr、λw1、λw2的組合,DKT+甚至在AUC(N)上也表現(xiàn)的很好。
DISCUSSION
figure3中,我們畫出了在λw1和λw2的不同組合下,針對(duì)不同λr值的平均測(cè)試AUC(N)和AUC(C)的圖像。可以看到,對(duì)于5個(gè)數(shù)據(jù)集來(lái)說(shuō),λr越大,AUC(C)就越大。其次,當(dāng)λr增加,AUC(N)普遍下降,但是它的下降跟AUC(C)的增加比起來(lái)沒(méi)那么明顯。這表明重構(gòu)正則化器r可以在不犧牲AUC(N)的性能的情況下,很好地解決重構(gòu)問(wèn)題。table3顯示,我們會(huì)尋找一個(gè)λr、λw1、λw2的組合,得到一個(gè)類似的甚至更好的AUC(N)。這表明波動(dòng)正則項(xiàng)可以幫助減少重構(gòu)正則項(xiàng)帶來(lái)的AUV(N)的輕微下降情況。
figure4展示了:λr = 0.1,ASSIST2009,λw1和λw2是如何影響評(píng)價(jià)指標(biāo)的。當(dāng)λw1在0-1之間,λw2在0-10之間時(shí),AUC(N)變化的相對(duì)平滑。在這個(gè)范圍內(nèi),DKT+模型使得AUC(C)的值更高了,在0.94-0.96之間。當(dāng)λw1>1和λw2>10時(shí),AUC(C)和AUC(N)開始下降。這表明相對(duì)于超參數(shù)λw1和λw2,模型性能在AUC(N)和AUC(C)中具有較低的敏感性。當(dāng)λw1和λw2增加,波動(dòng)指標(biāo)w1和w2呈鐘型下降。即使網(wǎng)格曲面有一點(diǎn)顛簸不平,在上述相同范圍內(nèi),m1隨λw1和λw2的較大值而增加。該觀察結(jié)果表明重構(gòu)正則化器和波動(dòng)正則化器均有助于改善當(dāng)前輸入的預(yù)測(cè)一致性。另一方面,隨著λw1和λw2值的增大,m2呈下降趨勢(shì)。這是合理的,因?yàn)椴▌?dòng)正則項(xiàng)將減少預(yù)測(cè)結(jié)果之間的變化,因此考慮到幅度變化,m2的值會(huì)減小。總之,歸因于預(yù)測(cè)精度的低靈敏度(AUC(N)和AUC(C))、可觀察到的波動(dòng)值(w1和w2)的減小和一致性度量(m1和m2)的增加,可以確定正則項(xiàng)w1和w2的魯棒性。
除了整體評(píng)估指標(biāo)的變好,為了直觀的感受正則項(xiàng)的影響,DKT和DKT+對(duì)于一個(gè)學(xué)生(id-1)的預(yù)測(cè)結(jié)果在figure5。figure5b主要展示了每個(gè)知識(shí)點(diǎn)掌握情況的變化方向。這表示當(dāng)學(xué)生回答錯(cuò)誤一個(gè)問(wèn)題,大多數(shù)預(yù)測(cè)的知識(shí)點(diǎn)掌握程度會(huì)同時(shí)下降。但這是不合理的,因?yàn)橹R(shí)點(diǎn)si答錯(cuò)不一定導(dǎo)致其他知識(shí)點(diǎn)掌握程度下降。另一方面,DKT+展示了一個(gè)明顯更平滑的轉(zhuǎn)變。舉個(gè)例子:DKT+中,收到(s32,0)或(s33,0),對(duì)s45,s55,s98的預(yù)測(cè)比DKT模型更加平滑,揭示了DKT +保留了先前時(shí)間步中s45,s55和s98的RNN中的潛在知識(shí)狀態(tài)
CONCLUSION AND FUTURE WORK
我們提出了3個(gè)正則項(xiàng)來(lái)提高預(yù)測(cè)的一致性。
其中之一是重建誤差r,以AUC(C),m1和m2進(jìn)行評(píng)估。 另外兩個(gè)是波動(dòng)度w1和w2,它們是用于測(cè)量?jī)蓚€(gè)連續(xù)的預(yù)測(cè)輸出矢量之間的變化的范數(shù),并且直接用作評(píng)估參數(shù)。 實(shí)驗(yàn)表明,這些正則化器可以有效地緩解這兩個(gè)問(wèn)題,而不會(huì)犧牲用于預(yù)測(cè)下一個(gè)交互性能的原始任務(wù)的預(yù)測(cè)精度(AUC(N))。
盡管重建正則項(xiàng)提高了AUC(C),波動(dòng)正則項(xiàng)減少了預(yù)測(cè)的波動(dòng),但是很難說(shuō)到底w1、w2要有多低才算是一個(gè)好的模型。理想上,一個(gè)知識(shí)追蹤模型應(yīng)該只改變跟當(dāng)前輸入有關(guān)的預(yù)測(cè)部分,其余部分不變或輕微改變。但是KC-dependency圖根據(jù)數(shù)據(jù)及不同也不同,所以不同KT模型也有不同的合適的w1、w2的值。
此外,需要有更多的動(dòng)作用來(lái)提高對(duì)于看不見的數(shù)據(jù)的準(zhǔn)確性。DKT +的目標(biāo)功能和評(píng)估措施僅考慮了當(dāng)前和下一個(gè)交互。 沒(méi)有慮未來(lái)的交互作用,更不用說(shuō)評(píng)估未觀測(cè)到的KC的預(yù)測(cè)精度的方法了。然而,未觀察到的KC至關(guān)重要,因?yàn)镮TS不僅應(yīng)針對(duì)觀察到的KC,還應(yīng)針對(duì)未觀察到的KC向?qū)W生提供個(gè)性化的學(xué)習(xí)材料推薦。 對(duì)未觀察到的KC進(jìn)行準(zhǔn)確的估計(jì)將有助于ITS為學(xué)生提供更智能的教學(xué)指導(dǎo)
(未觀測(cè)到的KC是什么意思?)
假設(shè)將未來(lái)的交互考慮進(jìn)去,


