欢乐颂第一季,欢乐颂第三季,梦入神机

學界 | 谷歌大腦提出對抗正則化方法，顯著改善自編碼器的泛化和表征學習能力

日期： 2018-08-05

關鍵詞： 自編碼器谷歌大腦

自編碼器因其優越的降維和無監督表征學習能力而知名，而過去的研究表明自編碼器具備一定程度的插值能力。來自谷歌大腦的 Ian Goodfellow 等研究者從這一角度提出了一種新方法，顯著改善了自編碼器的平滑插值能力，這不僅能提高自編碼器的泛化能力，對于后續任務的表征學習也會大有幫助。

1 引言

無監督學習的目標之一是不依靠顯式的標注得到數據集的內在結構。自編碼器是一種用于達成該目標的常見結構，它學習如何將數據點映射到隱編碼中——利用它以最小的信息損失來恢復數據。通常情況下，隱編碼的維度小于數據的維度，這表明自編碼器可以實施某種降維。對于某些特定的結構，隱編碼可以揭示數據集產生差異的關鍵因素，這使得這些模型能夠用于表征學習 [7,15]。過去，它們還被用于預訓練其它網絡：先在無標注的數據上訓練它們，之后將它們疊加起來初始化深層網絡 [1,41]。最近的研究表明，通過對隱藏空間施加先驗能使自編碼器用于概率建模或生成模型建模 [18,25,31]。

某些情況下，自編碼器顯示了插值的能力。具體來說，通過在隱藏空間中混合編碼以及對結果進行解碼，自編碼器可以生成對應數據點的語義上有意義的組合。這種行為本身就很有用，例如用于創造性應用 [6]。盡管如此，我們還認為它展示了一種廣義上的「泛化」能力——這意味著自編碼器并不只是簡單地記憶如何重建一小部分數據點。從另一個角度來看，它還表明自編碼器發現了一些數據的內在結構并在其隱藏空間中捕獲了它。這些特點使得插值經常出現在關于自編碼器 [5,11,14,26,27,32] 及隱變量生成模型研究的實驗結果中 [10,30,38]。基于無監督表征學習 [3] 和正則化 [40] 的插值與「平面」數據流形之間的聯系已經被探索過。

盡管插值應用廣泛，其定義仍然有些不夠明確，因為它的定義依賴于「語義上有意義的組合」的概念。此外，人們也很難直觀的理解為什么自編碼器應該具有插值能力——用于自編碼器的目標或結構都沒有明確地對其提出過這種要求。本文主要在自編碼器的規范化以及插值改進方面做出了以下貢獻：

提出了一種對抗正則化策略，該策略明確鼓勵自編碼器中的高質量插值（第 2 節）。

開發了一個簡單的基準，其中插值定義明確且可以量化（第 3.1 節）。

定量地評估了常見的自編碼器模型實施有效插值的能力；同時還展示了本文提出的正則化項更優的插值能力（3.2 節）。

證明了正則化項有利于后續任務的表征學習（第 4 節）。

微信圖片_20180805210218.jpg

圖 1：對抗約束自編碼器插值（ACAI）。評估網絡試圖預測對應于插值數據點的插值系數 α。訓練自編碼器來欺騙評估網絡使輸出 α = 0。

論文：Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer

微信圖片_20180805210241.jpg

論文鏈接：https://arxiv.org/pdf/1807.07543v2.pdf

通過對隱編碼中重建數據點所需的所有信息進行編碼，自編碼器為學習壓縮表征提供了強大的框架。某些情況下，自編碼器可以「插值」：通過解碼兩個數據點的隱編碼的凸組合，自編碼器可以產生一個語義上混合各數據點特征的輸出。本論文提出了一種正則化過程，它鼓勵插值輸出通過欺騙評估網絡（critic network）的方式顯得更真實，其中評估網絡被訓練用于恢復插值數據的混合系數。論文還提出了一個簡單的基準測試，可以定量測量各種自編碼器可以插值的程度，并表明本文提出的正則化項可以顯著改善此設置中的插值。此外，論文還認為正則化項產生的隱編碼對后續任務更有效，這表明插值能力和學習有用表征之間可能存在聯系。

3 自編碼器，以及如何插值

如何衡量自編碼器插值是否有效以及正則化策略是否達到其既定目標？如第 2 節所述，定義插值依賴于「語義相似性」的概念，這是一個模糊且依賴于問題的概念。例如，按照「αz_1 + (1 ? α)z_2 應該映射到 αx_1 + (1 ? α)x_2」定義插值顯得過于簡單，因為數據空間中的插值通常不會產生真實的數據點——用圖像來表現的話，這種情況對應于兩個圖像像素值之間的簡單淡化。然而，我們想要的是自編碼器在特征不同的 x1 和 x2 之間平滑地變化；換句話說，是希望沿著插值的解碼點平滑地遍歷數據的底層流形而不是簡單地在數據空間中插值。但是，我們很少能夠訪問基礎數據流。為了使這個問題更加具體，本文引入了一個簡單的基準測試，其中數據流形簡單且先驗已知，這使得量化插值質量成為可能。然后，我們評估各種常見自編碼器在基準測試中進行插值的能力。最后，我們在基準測試中測試 ACAI，發現它展示出了顯著改善的性能和定性優越的插值。

微信圖片_20180805210304.jpg

圖 2：合成線數據集中的數據和插值示例。(a) 來自數據集的 16 個隨機樣本。(b) 從 Λ=11π/ 14 到 0 的完美插值。(c) 在數據空間而不是「語義」或隱藏空間中插值。顯然，以這種方式插值會產生不在數據流形上的點。(d) 從一幅圖像突然轉換成另一幅圖像、而不是平滑改變的插值。(e) 平滑插值，從開始到結束點的路徑比最短路徑更長。(f) 采用正確路徑但中間點虛化了的插值。

微信圖片_20180805210331.jpg

圖 3：以下自編碼器在合成線基準上插值的效果：(a) 標準自編碼器，(b) 對隱藏空間施加 dropout 的標準編碼器，(c) 去噪自編碼器，(d) 變分自編碼器，(e) 對抗自編碼器，(f) 矢量量化變分自編碼器，(g) 對抗約束自編碼器插值（我們的模型）。

微信圖片_20180805210354.jpg

表 1：不同自編碼器在合成基準測試中獲得的分數（越低越好）。

4 優化表征學習

到目前為止，本文只專注于測試不同自編碼器的插值能力。現在，我們想知道改進插值是否與后續任務的性能改進有關。具體來說，我們將評估使用本文提出的正則化項是否會產生隱藏空間表征，從而改善在監督學習和聚類中的表現。換句話說，我們試圖測試改進插值是否會影響隱藏表征：它可以揭示數據集產生差異的關鍵因素。為了回答這個問題，我們在 MNIST [21]，SVHN [28] 和 CIFAR-10 [20] 數據集上用不同自編碼器訓練過的隱藏空間來進行分類聚類測試。

4.1 單層分類器

微信圖片_20180805210422.jpg

表 2：不同自編碼器達到的單層分類器準確率

4.2 聚類

微信圖片_20180805210444.jpg

表 3：在不同自編碼器（左）和先前報告的方法（右）的隱藏空間上使用 K-Means 的聚類準確率。右邊的「Data」是指直接對數據執行 K-Means。標 * 的結果來自 [16]，標 ** 的結果來自 [42]。

微信圖片_20180805210512.jpg

圖 6：MNIST 上的插值示例，隱維數為 256：(a) 標準編碼器，(b)Dropout 編碼器，(c) 去噪編碼器，(d)VAE，(e)AAE，(f)VQ-VAE，(g)ACAI 自編碼器。

微信圖片_20180805210538.jpg

圖 10：CelebA 上的插值示例，隱維數為 256：(a) 標準編碼器，(b)Dropout 編碼器，(c) 去噪編碼器，(d)VAE，(e)AAE，(f)VQ-VAE，(g)ACAI 自編碼器。

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

學界 | 谷歌大腦提出對抗正則化方法，顯著改善自編碼器的泛化和表征學習能力

日期： 2018-08-05

相關內容