《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 可編程邏輯 > 業(yè)界動(dòng)態(tài) > EMNLP 2018 | 為什么使用自注意力機(jī)制?

EMNLP 2018 | 為什么使用自注意力機(jī)制?

2018-09-17

近期,非循環(huán)架構(gòu)(CNN、基于自注意力機(jī)制的 Transformer 模型)在神經(jīng)機(jī)器翻譯任務(wù)中的表現(xiàn)優(yōu)于 RNN,因此有研究者認(rèn)為原因在于 CNN 和自注意力網(wǎng)絡(luò)連接遠(yuǎn)距離單詞的路徑比 RNN 短。本文在主謂一致任務(wù)和詞義消歧任務(wù)上評(píng)估了當(dāng)前 NMT 領(lǐng)域中最流行的三種模型:基于 CNN、RNN 和自注意力機(jī)制的模型,發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果與上述論斷并不一致。該論文已被 EMNLP 2018 接收。


多種不同架構(gòu)對(duì)神經(jīng)機(jī)器翻譯(NMT)都很有效,從循環(huán)架構(gòu) (Kalchbrenner and Blunsom, 2013; Bahdanau et al., 2015; Sutskever et al., 2014; Luong et al., 2015) 到卷積架構(gòu) (Kalchbrenner and Blunsom, 2013; Gehring et al., 2017),以及最近提出的完全自注意力(Transformer)模型 (Vaswani et al., 2017)。由于框架之間的對(duì)比主要依據(jù) BLEU 值展開(kāi),因此弄清楚哪些架構(gòu)特性對(duì) BLEU 值有貢獻(xiàn)從本質(zhì)上講是比較困難的。


循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)(Elman, 1990) 可以輕松處理可變長(zhǎng)度的輸入句子,因此是 NMT 系統(tǒng)的編碼器和解碼器的自然選擇。RNN 的大部分變體(如 GRU 和 LSTM)解決了訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)的長(zhǎng)距離依賴難題。Gehring 等人(2017)介紹了一種編碼器和解碼器都基于 CNN 的神經(jīng)架構(gòu),并報(bào)告其 BLEU 值高于基于 RNN 的 NMT 模型。此外,該模型訓(xùn)練期間對(duì)所有分詞的計(jì)算可以完全并行執(zhí)行,提高了計(jì)算效率。Vaswani 等人(2017)提出 Transformer 模型,該模型完全基于注意力層,沒(méi)有卷積或循環(huán)結(jié)構(gòu)。他們報(bào)告該模型在英語(yǔ)-德語(yǔ)和英語(yǔ)-法語(yǔ)翻譯取得了當(dāng)前最優(yōu)的 BLEU 值。但 BLEU 值指標(biāo)比較粗糙,無(wú)法幫助觀察不同架構(gòu)如何改善機(jī)器翻譯質(zhì)量。


為了解釋 BLEU 值的提高,之前的研究進(jìn)行了理論論證。Gehring 等人(2017)和 Vaswani 等人(2017)都認(rèn)為神經(jīng)網(wǎng)絡(luò)中共依賴因素(co-dependent element)之間的路徑長(zhǎng)度會(huì)影響模型學(xué)習(xí)這些依賴關(guān)系的能力:路徑越短,模型學(xué)習(xí)此類依賴關(guān)系就越容易。這兩篇論文認(rèn)為 Transformer 和 CNN 比 RNN 更擅長(zhǎng)捕捉長(zhǎng)距離依賴。


但是,這一斷言僅基于理論論證,并未經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證。本文作者認(rèn)為非循環(huán)網(wǎng)絡(luò)的其它能力可能對(duì)其強(qiáng)大性能貢獻(xiàn)巨大。具體來(lái)說(shuō),本文作者假設(shè) BLEU 值的提高取決于具備強(qiáng)大語(yǔ)義特征提取能力的 CNN 和 Transformer。


該論文評(píng)估了三種流行的 NMT 架構(gòu):基于 RNN 的模型(下文用 RNNS2S 表示)、基于 CNN 的模型(下文用 ConvS2S 表示)和基于自注意力的模型(下文用 Transformer 表示)。受到上述關(guān)于路徑長(zhǎng)度和語(yǔ)義特征提取關(guān)系的理論陳述的啟發(fā),研究者在主謂一致任務(wù)(需要建模長(zhǎng)距離依賴)和詞義消歧(WSD)任務(wù)(需要提取語(yǔ)義特征)上對(duì)三種模型的性能進(jìn)行了評(píng)估。這兩項(xiàng)任務(wù)分別基于對(duì)照翻譯對(duì)(contrastive translation pair)測(cè)試集 Lingeval97 (Sennrich, 2017) 和 ContraWSD (Rios et al., 2017)。


本論文的主要貢獻(xiàn)如下:


檢驗(yàn)了這一理論斷言:具備更短路徑的架構(gòu)更擅長(zhǎng)捕捉長(zhǎng)距離依賴。研究者在建模長(zhǎng)距離主謂一致任務(wù)上的實(shí)驗(yàn)結(jié)果并沒(méi)有表明,Transformer 或 CNN 在這方面優(yōu)于 RNN。

通過(guò)實(shí)驗(yàn)證明 Transformer 中注意力頭的數(shù)量對(duì)其捕捉長(zhǎng)距離依賴的能力有所影響。具體來(lái)說(shuō),多頭注意力對(duì)使用自注意力機(jī)制建模長(zhǎng)距離依賴是必要的。

通過(guò)實(shí)驗(yàn)證明 Transformer 擅長(zhǎng) WSD,這表明 Transformer 是強(qiáng)大的語(yǔ)義特征提取器。


論文:Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

微信圖片_20180917220642.jpg


論文鏈接:https://arxiv.org/pdf/1808.08946.pdf


摘要:近期,非循環(huán)架構(gòu)(卷積、自注意力)在神經(jīng)機(jī)器翻譯任務(wù)中的表現(xiàn)優(yōu)于 RNN。CNN 和自注意力網(wǎng)絡(luò)連接遠(yuǎn)距離單詞的路徑比 RNN 短,有研究人員推測(cè)這正是其建模長(zhǎng)距離依賴能力得到提高的原因。但是,這一理論論斷并未得到實(shí)驗(yàn)驗(yàn)證,對(duì)這兩種網(wǎng)絡(luò)的強(qiáng)大性能也沒(méi)有其他深入的解釋。我們假設(shè) CNN 和自注意力網(wǎng)絡(luò)的強(qiáng)大性能也可能來(lái)自于其從源文本提取語(yǔ)義特征的能力。我們?cè)趦蓚€(gè)任務(wù)(主謂一致任務(wù)和詞義消歧任務(wù))上評(píng)估了 RNN、CNN 和自注意力網(wǎng)絡(luò)的性能。實(shí)驗(yàn)結(jié)果證明:1)自注意力網(wǎng)絡(luò)和 CNN 在建模長(zhǎng)距離主謂一致時(shí)性能并不優(yōu)于 RNN;2)自注意力網(wǎng)絡(luò)在詞義消歧方面顯著優(yōu)于 RNN 和 CNN。

微信圖片_20180917220708.jpg

圖 1:NMT 中不同神經(jīng)網(wǎng)絡(luò)的架構(gòu)。


主謂一致


主謂一致任務(wù)是評(píng)估模型捕捉長(zhǎng)距離依賴能力的最流行選擇,曾在多項(xiàng)研究中使用 (Linzen et al., 2016; Bernardy and Lappin, 2017; Sennrich, 2017; Tran et al., 2018)。因此,我們也使用該任務(wù)評(píng)估不同 NMT 架構(gòu)的捕捉長(zhǎng)距離依賴能力。

微信圖片_20180917222031.jpg

表 2:不同 NMT 模型的結(jié)果,包括在 newstest2014 和 newstest2017 上的 BLEU 值、在驗(yàn)證集上的困惑度,以及長(zhǎng)距離依賴的準(zhǔn)確率。

微信圖片_20180917222056.jpg

圖 2:不同的 NMT 模型在主謂一致任務(wù)上的準(zhǔn)確率。

微信圖片_20180917223037.jpg

圖 3:ConvS2S 模型和 RNNS2S 模型在不同距離處的結(jié)果。

微信圖片_20180917223100.jpg

圖 4: 在小型數(shù)據(jù)集上訓(xùn)練的 Transformer 和 RNNS2S 模型的結(jié)果。


WSD


主謂一致任務(wù)上的實(shí)驗(yàn)結(jié)果展示了 CNN 和 Transformer 在捕捉長(zhǎng)距離依賴方面并沒(méi)有優(yōu)于 RNN,即使 CNN 和 Transformer 中的路徑更短。這一發(fā)現(xiàn)與上文提到的理論斷言相悖。但是,從 BLEU 值來(lái)看,這些架構(gòu)在實(shí)驗(yàn)中的表現(xiàn)都很不錯(cuò)。因此,我們進(jìn)一步在 WSD 任務(wù)上評(píng)估這些架構(gòu)來(lái)驗(yàn)證我們的假設(shè):非循環(huán)架構(gòu)更擅長(zhǎng)提取語(yǔ)義特征。

微信圖片_20180917223132.jpg

表 5:不同架構(gòu)在 newstest 數(shù)據(jù)集和 ContraWSD 上的結(jié)果。PPL 指在驗(yàn)證集上的困惑度。Acc 表示在測(cè)試集上的準(zhǔn)確率。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 精品国模一区二区三区 | 亚洲va乱码一区二区三区 | 中文字幕一区二区三区四区 | jizzjizz亚洲女人 | 免费的黄网站 | 超级色的网站观看在线 | 成人免费www在线高清观看 | 国产高清精品一级毛片 | 国产综合欧美 | 一级片在线免费 | 青青青国产在线 | 天天色天天草 | 欧美日韩一区二区三区在线观看 | 欧美日韩精 | 成人毛片免费视频 | 欧美太黄太色视频在线观看 | 成年视频xxxxx在线网站 | 97在线免费视频 | 免费操片| 黄色毛片网站 | 4k岛国精品午夜高清在线观看 | 波多野结衣中文字幕一区二区三区 | www.久久.com | 国产h视频 | 欧美国产日韩另类 | 亚洲欧美日韩综合一区久久 | 欧美精品1区 | 日本一区中文字幕 | 国产成人拍精品视频网 | 国产日韩一区二区三区在线播放 | 男女在线网站 | 黄色片子免费看 | 成人免费福利视频 | 男人边吃奶边爱边做视频刺激 | 日韩在线中文字幕 | 波多野结衣与公中出中文字幕 | 一级毛片在线免费看 | 久草免费在线播放 | 青青草国产成人久久91网 | 色狠狠色综合久久8狠狠色 色狠狠成人综合网 | 国产成人高清亚洲一区久久 |