KDD2018精選(2)TFLid:基于特征子圖同構(gòu)的遷移學(xué)習(xí)

1.? ? 原文:TransferLearning via Feature Isomorphism Discovery

作者來(lái)自港科大和上交大

關(guān)鍵詞:遷移學(xué)習(xí);跨語(yǔ)種;子圖同構(gòu)

1.1? 引言

遷移學(xué)習(xí)主要解決將已標(biāo)注空間學(xué)到的模型用于目標(biāo)空間的訓(xùn)練的問(wèn)題。然而在實(shí)際中,已標(biāo)注樣例很少能得出到達(dá)總體特征空間的分布的映射方程。在詞嵌入等技術(shù)的應(yīng)用中,不同空間的特征可能相關(guān)性低,但不同的特征空間可能有相似的特征結(jié)構(gòu),盡管它們的特征分布不同。受此啟發(fā),我們帶來(lái)了基于特征同構(gòu)發(fā)現(xiàn)的遷移學(xué)習(xí)TLFid,包括原空間和特征空間的特征提取,基于相同特征結(jié)構(gòu)訓(xùn)練映射方程,訓(xùn)練出有效的分類器,最終該分類器在跨語(yǔ)種分類任務(wù)上表現(xiàn)良好。

1.2? 相關(guān)工作

同構(gòu)遷移學(xué)習(xí)假設(shè)不同域的特征有相同的分布,異構(gòu)遷移學(xué)習(xí)主要解決不同的特征分布。其中heterogeneous domain Adaptation with Manifold Alignment (DAMA)使用標(biāo)注信息和域的對(duì)應(yīng)來(lái)對(duì)齊不同域到潛在空間,然而dama假設(shè)特征對(duì)應(yīng)與否是二項(xiàng)分布。我們對(duì)特征對(duì)應(yīng)做出同構(gòu)化改進(jìn),使遷移工作能更好適應(yīng)對(duì)應(yīng)噪聲和標(biāo)簽缺失。

1.3? 問(wèn)題方程

我們有原始域S={(x_i^s,y_i^s ) }_(i=1)^ls和未標(biāo)注的目標(biāo)域T={(x_i^t }_(i=1)^lt。我們的目標(biāo)是發(fā)現(xiàn)在各自域有相似性的特征,同時(shí)特征的配對(duì)可逆。比如“馬上”有兩個(gè)意思,可能直接映射到“immediate”或者“horseback”,但是在相同的特征空間內(nèi),如果已知和“急忙”正相關(guān),或者“horseback”更經(jīng)常出現(xiàn)在古漢語(yǔ)詞庫(kù)內(nèi),則很容易消除歧義(噪聲)。TLFid基于f范數(shù),通過(guò)該方程學(xué)習(xí)配對(duì)關(guān)系,并使用置換矩陣保留之。


1.4? 通過(guò)特征同構(gòu)發(fā)現(xiàn)的遷移學(xué)習(xí)

直接使用枚舉法計(jì)算特征置換矩陣的復(fù)雜度是O(n!),TLFid使用子圖同構(gòu)來(lái)減少計(jì)算量并盡可能利用已標(biāo)注數(shù)據(jù)。

1.4.1? ? ?提取特征相關(guān)矩陣

盡可能地從源域到目標(biāo)域遷移遷移信息是特征相關(guān)矩陣的訓(xùn)練目標(biāo)。嵌入發(fā)不經(jīng)適用于詞向量,也適用高可變的序列數(shù)據(jù)。這里使用余弦距離衡量相關(guān)性。由于正負(fù)相關(guān)本身不足以表述相關(guān)性,這里使用矩陣的Frobenius范數(shù)作為loss。


1.4.2? ? ?特征同構(gòu)發(fā)現(xiàn)

這里使用圖同構(gòu)來(lái)學(xué)習(xí)置換矩陣。一個(gè)特征圖共有4個(gè)元組空間。


同時(shí)根據(jù)如下條件構(gòu)建子圖


并約束同構(gòu)條件


為避免僅根據(jù)標(biāo)簽來(lái)構(gòu)建特征映射的局限性,這里更關(guān)心高效的子圖同構(gòu)搜索。到此為止,作者將優(yōu)化問(wèn)題換為子圖同構(gòu)問(wèn)題。

1.4.3? ? ?基于特征映射的知識(shí)轉(zhuǎn)化。

基于如下目標(biāo)方程,我們將非共有特征結(jié)構(gòu)納入到映射矩陣中,以避免丟失特征子圖之外的特征所包括的有效信息。該約束方程盡可能多地保留原始域的相似結(jié)構(gòu),并將低映射到目標(biāo)域的過(guò)程所帶來(lái)的損失。


關(guān)鍵步驟如下


1.5? 實(shí)驗(yàn)

以下共兩個(gè)實(shí)驗(yàn)。第一個(gè)考察TLFid的收斂性。第二個(gè)對(duì)比了TFLid和其它遷移學(xué)習(xí)方法的性能。

1.5.1? ? ?數(shù)據(jù)描述

源域是英法日德四種語(yǔ)言的商品評(píng)論,包括書(shū),音樂(lè),視頻三種商品。每種語(yǔ)言共2000條訓(xùn)練集,2000條測(cè)試集,以及10000多條未標(biāo)注評(píng)論。目標(biāo)域由中文RenCECps數(shù)據(jù)集構(gòu)成。

1.5.2? ? ?數(shù)據(jù)處理和實(shí)驗(yàn)設(shè)置

首先使用TfIdf從RenCECps提取關(guān)鍵詞并使用cbow構(gòu)建詞向量?;趐os標(biāo)注特征同構(gòu),并設(shè)置群閾值kappa。最后鑒于部分表示特征沒(méi)有包括在最大特征同構(gòu)內(nèi),基于前述方法構(gòu)建補(bǔ)充特征。

1.5.3? ? ?基線方法

在使用詞嵌入表示每個(gè)特征之后,每個(gè)評(píng)論都被表示成源域和目標(biāo)域的二維數(shù)組量化。在稀疏學(xué)習(xí)的條件下,我們使用LSTM LIBSVM DAMA HFA SSMC DCI作為稀疏學(xué)習(xí)的基線,同時(shí)使用DAMA

SSMC Hemap HHTL作為無(wú)監(jiān)督基線。

1.5.4? ? ?主要結(jié)果

顯然TLFid在不同閾值下?lián)碛凶詈玫聂敯粜裕顑?yōu)閾值kappa3=(0.5, 0.3, 0.1):


在kappa3條件下,稀疏學(xué)習(xí)中DAMA和HFA顯著優(yōu)于LSTM和LIBSVM,然而他們均弱于TLFid:


在所有無(wú)監(jiān)督任務(wù)中,依賴強(qiáng)映射的HeMap最弱,同時(shí)TFlid在所有任務(wù)中最強(qiáng):


1.6? 結(jié)論

TLFid基于特征同構(gòu)和外部特征來(lái)解決異構(gòu)特征學(xué)習(xí)的問(wèn)題,在跨語(yǔ)種學(xué)習(xí)上取得優(yōu)異表現(xiàn)。未來(lái)將在自動(dòng)化kappa設(shè)定和共現(xiàn)外部數(shù)據(jù)(不限于外部標(biāo)注數(shù)據(jù))上做出進(jìn)一步研究。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 【轉(zhuǎn)載】線性代數(shù)基礎(chǔ)知識(shí) 原文地址:http://blog.csdn.net/longxinchen_ml/art...
    劉卡卡愛(ài)吃烤土豆閱讀 1,481評(píng)論 0 0
  • 今天數(shù)學(xué)做了試卷和一課一練,語(yǔ)文學(xué)了反義詞詞做了試卷,音樂(lè)學(xué)了坐姿
    你笑就好_c889閱讀 167評(píng)論 0 0
  • 無(wú)眠的夜 當(dāng)我靜下心來(lái)聆聽(tīng) 過(guò)去的那些歌兒 或悲或喜 其實(shí)風(fēng)可輕云可淡 滿腹經(jīng)綸豈可亂 再見(jiàn)了,我的朋友們 明天的...
    只取一瓢飲兮閱讀 175評(píng)論 5 0
  • 原書(shū)2000年出版2002引進(jìn)出版,部分內(nèi)容有點(diǎn)不適用現(xiàn)在,看看書(shū)評(píng)就好! 1//理解流行 三大法則:個(gè)別人物法則...
    多寶漁閱讀 653評(píng)論 0 2

友情鏈接更多精彩內(nèi)容