Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified Multilingual Prompt

雖然現(xiàn)有的大部分工作都集中在單語prompt上,但研究了多語言PLM的多語言prompt,尤其是在zero-shot setting下。為了減輕為多種語言設(shè)計(jì)不同prompt的工作量,我們提出了一種新的模型,該模型對所有語言使用統(tǒng)一的提示,稱為UniPrompt。與離散prompt和soft-prompt不同,UniPrompt是基于模型的而與語言無關(guān)的。具體來說,UniPrompt由多語言PLM初始化,以生成獨(dú)立于語言的表示,然后與文本輸入融合。在推理過程中,可以預(yù)先計(jì)算prompt,這樣就不需要額外的計(jì)算成本。為了配合統(tǒng)一prompt,我們提出了一種新的目標(biāo)標(biāo)簽詞初始化方法,以進(jìn)一步提高模型跨語言的可移植性。大量的實(shí)驗(yàn)表明,我們提出的方法在不同語言中的性能明顯優(yōu)于baseline。

UniPrompt基于模型,與語言無關(guān)。它由一個以英語prompt為輸入的多語言PLM初始化,并通過多語言PLM的可轉(zhuǎn)移性產(chǎn)生與語言無關(guān)的representation。在推理過程中,可以預(yù)先計(jì)算prompt,這樣就不會引入額外的計(jì)算成本。通過這種方式,我們可以減輕不同語言的prompt engineering的影響,同時保留PLMs的能力。為了更好結(jié)合統(tǒng)一提示,我們提出了一種新的標(biāo)簽詞初始化方法,而不是使用PLM中的語言模型頭。這進(jìn)一步提高了模型跨語言的可移植性。

1. UniPrompt

對于templete, use two independent encoder towers, template towercontext tower。模板塔用于編碼prompt的模板,而上下文塔用于原始文本輸入。兩個塔都由多語言PLM的底層初始化。然后,將模板和上下文的表示連接起來,作為fusion tower的輸入。fusion tower由多語言PLM的頂層初始化。研究發(fā)現(xiàn),預(yù)訓(xùn)練語言模型的較低層次與語言遷移有關(guān),而較高層次與實(shí)際語義有關(guān),因此,它可以擺脫模板對特定的語種的依賴,但也保留了prompt的能力,以激活PLM的潛在知識

由于prompt tower的輸出可以在推理之前預(yù)先計(jì)算,因此該模型不會在推理階段引入額外的參數(shù)或計(jì)算成本。對于標(biāo)簽詞,我們使用人工標(biāo)記,因此它與語言無關(guān)。與這些工作不同,我們提出了一種新的標(biāo)簽詞初始化方法。具體來說,我們最小化了label words和sentence embeddings之間的距離,微調(diào)前的句子嵌入。這是通過簡單平均sentence embeddings作為同一類別的label words。這樣,標(biāo)簽詞不僅有一個良好的起點(diǎn),而且與語言無關(guān)。

2. Two-tower Prompt Encoder

跨語言prompt,如果直接使用詞匯表中現(xiàn)有的tokens,則會偏向于某些特定的語言,因此在這個任務(wù)中設(shè)計(jì)模板的第一個目標(biāo)是:模板不能依賴于任何特定的語言,實(shí)現(xiàn)這一目標(biāo)的一個直觀想法是使用soft-prompt,這是與特定語言無關(guān)的人工標(biāo)記。然而:i)由于在few-shot場景中數(shù)據(jù)量很少,因此無法充分訓(xùn)練;ii)未在pretrain階段出現(xiàn)。因此,可能無法由prompt激活PLMs的潛在知識。鑒于,對于軟提示的問題,可以得出設(shè)計(jì)模板的第二個目標(biāo):最小化預(yù)訓(xùn)練和提示調(diào)整之間的差距。

對于soft-prompt的問題,可以得出設(shè)計(jì)templete的第二個目標(biāo):最小化pre-training 和 prompt-tuning之間的差距

為了實(shí)現(xiàn)這些目標(biāo),我們現(xiàn)在描述我們對prompt進(jìn)行建模的方法,稱為two-tower prompt encoder。根據(jù)之前的工作,PLMs的底層對特定語言標(biāo)記/語法相關(guān)的信息進(jìn)行編碼,而頂層對語義信息進(jìn)行建模。因此,我們將PLM編碼器的底部1-p層建立two independent encoder towers,分別對模板和上下文進(jìn)行編碼。在形式上,我們可以將其定義為

然后,我們concatenate the outputs of the two enocders 作為fusion tower的初始化輸入

在multilingual PLM幫助下, the template tower 幫助template在languages上更好的遷移.

3. Initialization of Soft Label Words

對于label words,我們使用真實(shí)tokens,由于針對于特定的語言任務(wù),因此采用soft label words,即人工標(biāo)記,以實(shí)現(xiàn)語言獨(dú)立。為了進(jìn)一步減少soft label words的預(yù)訓(xùn)練和微調(diào)之間的差距,提出了一種新的標(biāo)簽詞初始化方法

如果將輸出投影矩陣視為label words的word embedding,則微調(diào)的目標(biāo)是最小化encoder輸出和相應(yīng)label word embedding的距離。因此,如果label word embeddings已經(jīng)接近編碼器輸出,這將是模型的良好起點(diǎn),尤其是在少數(shù)鏡頭設(shè)置中。

基于此,我們建議計(jì)算所有訓(xùn)練樣本的encoder outputs,根據(jù)它們的labels對它們進(jìn)行分組,然后對每組中的所有編碼器輸出進(jìn)行簡單平均,以初始化標(biāo)簽詞。

注意到對于few shot learning,預(yù)計(jì)算encoder outputs的計(jì)算成本很小。這樣,在不改變PLM主體的情況下,我們只使輸出層適應(yīng)下游任務(wù)。換句話說,這些模型將對下游任務(wù)具有良好的優(yōu)先級,同時保留來自PLM的知識。我們?yōu)槊總€label i構(gòu)造soft-label Li,并根據(jù)label將訓(xùn)練樣本分組到Ci中。然后,我們將訓(xùn)練示例與相應(yīng)的模板連接起來,以計(jì)算編碼器輸出。我們?nèi)∶拷M編碼器輸出中[mask]表示h(c,m)的平均值來初始化label word。label word Li的embedding可以定義為

Avg means average pooling, Ci is the set containing the training cases with label i.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容