1.? ? 原文:TransferLearning via Feature Isomorphism Discovery
作者來(lái)自港科大和上交大
關(guān)鍵詞:遷移學(xué)習(xí);跨語(yǔ)種;子圖同構(gòu)
1.1? 引言
遷移學(xué)習(xí)主要解決將已標(biāo)注空間學(xué)到的模型用于目標(biāo)空間的訓(xùn)練的問(wèn)題。然而在實(shí)際中,已標(biāo)注樣例很少能得出到達(dá)總體特征空間的分布的映射方程。在詞嵌入等技術(shù)的應(yīng)用中,不同空間的特征可能相關(guān)性低,但不同的特征空間可能有相似的特征結(jié)構(gòu),盡管它們的特征分布不同。受此啟發(fā),我們帶來(lái)了基于特征同構(gòu)發(fā)現(xiàn)的遷移學(xué)習(xí)TLFid,包括原空間和特征空間的特征提取,基于相同特征結(jié)構(gòu)訓(xùn)練映射方程,訓(xùn)練出有效的分類器,最終該分類器在跨語(yǔ)種分類任務(wù)上表現(xiàn)良好。
1.2? 相關(guān)工作
同構(gòu)遷移學(xué)習(xí)假設(shè)不同域的特征有相同的分布,異構(gòu)遷移學(xué)習(xí)主要解決不同的特征分布。其中heterogeneous domain Adaptation with Manifold Alignment (DAMA)使用標(biāo)注信息和域的對(duì)應(yīng)來(lái)對(duì)齊不同域到潛在空間,然而dama假設(shè)特征對(duì)應(yīng)與否是二項(xiàng)分布。我們對(duì)特征對(duì)應(yīng)做出同構(gòu)化改進(jìn),使遷移工作能更好適應(yīng)對(duì)應(yīng)噪聲和標(biāo)簽缺失。
1.3? 問(wèn)題方程
我們有原始域S={(x_i^s,y_i^s ) }_(i=1)^ls和未標(biāo)注的目標(biāo)域T={(x_i^t }_(i=1)^lt。我們的目標(biāo)是發(fā)現(xiàn)在各自域有相似性的特征,同時(shí)特征的配對(duì)可逆。比如“馬上”有兩個(gè)意思,可能直接映射到“immediate”或者“horseback”,但是在相同的特征空間內(nèi),如果已知和“急忙”正相關(guān),或者“horseback”更經(jīng)常出現(xiàn)在古漢語(yǔ)詞庫(kù)內(nèi),則很容易消除歧義(噪聲)。TLFid基于f范數(shù),通過(guò)該方程學(xué)習(xí)配對(duì)關(guān)系,并使用置換矩陣保留之。

1.4? 通過(guò)特征同構(gòu)發(fā)現(xiàn)的遷移學(xué)習(xí)
直接使用枚舉法計(jì)算特征置換矩陣的復(fù)雜度是O(n!),TLFid使用子圖同構(gòu)來(lái)減少計(jì)算量并盡可能利用已標(biāo)注數(shù)據(jù)。
1.4.1? ? ?提取特征相關(guān)矩陣
盡可能地從源域到目標(biāo)域遷移遷移信息是特征相關(guān)矩陣的訓(xùn)練目標(biāo)。嵌入發(fā)不經(jīng)適用于詞向量,也適用高可變的序列數(shù)據(jù)。這里使用余弦距離衡量相關(guān)性。由于正負(fù)相關(guān)本身不足以表述相關(guān)性,這里使用矩陣的Frobenius范數(shù)作為loss。

1.4.2? ? ?特征同構(gòu)發(fā)現(xiàn)
這里使用圖同構(gòu)來(lái)學(xué)習(xí)置換矩陣。一個(gè)特征圖共有4個(gè)元組空間。

同時(shí)根據(jù)如下條件構(gòu)建子圖

并約束同構(gòu)條件

為避免僅根據(jù)標(biāo)簽來(lái)構(gòu)建特征映射的局限性,這里更關(guān)心高效的子圖同構(gòu)搜索。到此為止,作者將優(yōu)化問(wèn)題換為子圖同構(gòu)問(wèn)題。
1.4.3? ? ?基于特征映射的知識(shí)轉(zhuǎn)化。
基于如下目標(biāo)方程,我們將非共有特征結(jié)構(gòu)納入到映射矩陣中,以避免丟失特征子圖之外的特征所包括的有效信息。該約束方程盡可能多地保留原始域的相似結(jié)構(gòu),并將低映射到目標(biāo)域的過(guò)程所帶來(lái)的損失。

關(guān)鍵步驟如下

1.5? 實(shí)驗(yàn)
以下共兩個(gè)實(shí)驗(yàn)。第一個(gè)考察TLFid的收斂性。第二個(gè)對(duì)比了TFLid和其它遷移學(xué)習(xí)方法的性能。
1.5.1? ? ?數(shù)據(jù)描述
源域是英法日德四種語(yǔ)言的商品評(píng)論,包括書(shū),音樂(lè),視頻三種商品。每種語(yǔ)言共2000條訓(xùn)練集,2000條測(cè)試集,以及10000多條未標(biāo)注評(píng)論。目標(biāo)域由中文RenCECps數(shù)據(jù)集構(gòu)成。
1.5.2? ? ?數(shù)據(jù)處理和實(shí)驗(yàn)設(shè)置
首先使用TfIdf從RenCECps提取關(guān)鍵詞并使用cbow構(gòu)建詞向量?;趐os標(biāo)注特征同構(gòu),并設(shè)置群閾值kappa。最后鑒于部分表示特征沒(méi)有包括在最大特征同構(gòu)內(nèi),基于前述方法構(gòu)建補(bǔ)充特征。
1.5.3? ? ?基線方法
在使用詞嵌入表示每個(gè)特征之后,每個(gè)評(píng)論都被表示成源域和目標(biāo)域的二維數(shù)組量化。在稀疏學(xué)習(xí)的條件下,我們使用LSTM LIBSVM DAMA HFA SSMC DCI作為稀疏學(xué)習(xí)的基線,同時(shí)使用DAMA
SSMC Hemap HHTL作為無(wú)監(jiān)督基線。
1.5.4? ? ?主要結(jié)果
顯然TLFid在不同閾值下?lián)碛凶詈玫聂敯粜裕顑?yōu)閾值kappa3=(0.5, 0.3, 0.1):

在kappa3條件下,稀疏學(xué)習(xí)中DAMA和HFA顯著優(yōu)于LSTM和LIBSVM,然而他們均弱于TLFid:

在所有無(wú)監(jiān)督任務(wù)中,依賴強(qiáng)映射的HeMap最弱,同時(shí)TFlid在所有任務(wù)中最強(qiáng):

1.6? 結(jié)論
TLFid基于特征同構(gòu)和外部特征來(lái)解決異構(gòu)特征學(xué)習(xí)的問(wèn)題,在跨語(yǔ)種學(xué)習(xí)上取得優(yōu)異表現(xiàn)。未來(lái)將在自動(dòng)化kappa設(shè)定和共現(xiàn)外部數(shù)據(jù)(不限于外部標(biāo)注數(shù)據(jù))上做出進(jìn)一步研究。