您的位置: 首頁 >互聯(lián)網(wǎng) >

一種克服深度神經(jīng)網(wǎng)絡(luò)中多模型遺忘的新方法

2019-06-03 10:50:25 編輯: 來源:
導(dǎo)讀 近年來,研究人員開發(fā)了深度神經(jīng)網(wǎng)絡(luò),可以執(zhí)行各種任務(wù),包括視覺識別和自然語言處理(NLP)任務(wù)。盡管這些模型中的許多都取得了顯著的成果

近年來,研究人員開發(fā)了深度神經(jīng)網(wǎng)絡(luò),可以執(zhí)行各種任務(wù),包括視覺識別和自然語言處理(NLP)任務(wù)。盡管這些模型中的許多都取得了顯著的成果,但由于所謂的“災(zāi)難性遺忘”,它們通常只能在一項特定任務(wù)上表現(xiàn)良好。

從本質(zhì)上講,災(zāi)難性遺忘意味著當(dāng)最初在任務(wù)A上訓(xùn)練的模型后來在任務(wù)B上進(jìn)行訓(xùn)練時,其在任務(wù)A上的表現(xiàn)將顯著下降。在arXiv上發(fā)表的一篇論文中,Swisscom和EPFL的研究人員發(fā)現(xiàn)了一種新的遺忘方法,并提出了一種新的方法,可以通過統(tǒng)計學(xué)上合理的重量塑性損失來幫助克服它。

“當(dāng)我們第一次開始研究我們的項目時,自動設(shè)計神經(jīng)架構(gòu)對于大多數(shù)公司而言計算成本昂貴且不可行,”該研究的主要研究人員Yassine Benyahia和Kaicheng Yu通過電子郵件告訴TechXplore。“我們研究的最初目的是確定減少這種費(fèi)用的新方法。當(dāng)項目開始時,Google的一篇論文聲稱使用稱為重量分擔(dān)的新方法大大減少了構(gòu)建神經(jīng)架構(gòu)所需的時間和資源。使autoML對沒有巨大GPU集群的研究人員可行,鼓勵我們更深入地研究這個話題。“

EWC與WPL的比較。每個子圖中的橢圓表示對應(yīng)于低誤差的參數(shù)區(qū)域。(左上)兩種方法都以單個模型開始,參數(shù)θA= {θs,θ1},在單個數(shù)據(jù)集D1上訓(xùn)練。(左下)EWC基于p(θA| D1)對所有參數(shù)進(jìn)行調(diào)整,以在新數(shù)據(jù)集D2上訓(xùn)練相同的初始模型。(右上)相比之下,WPL利用初始數(shù)據(jù)集D1并僅基于p(θA| D1)和v>Ωv對共享參數(shù)θs進(jìn)行正則化,而參數(shù)θ2可以自由移動。圖片來源:Benyahia,Yu等人。

在研究基于神經(jīng)網(wǎng)絡(luò)的模型時,Benyahia,Yu和他們的同事發(fā)現(xiàn)了體重分擔(dān)的問題。當(dāng)他們按順序訓(xùn)練兩個模型(例如A和B)時,模型A的性能下降,而模型B的性能上升,反之亦然。他們表明,這種被稱為“多模型遺忘”的現(xiàn)象可能會阻礙幾種自動mL方法的表現(xiàn),包括Google的高效神經(jīng)架構(gòu)搜索(ENAS)。

“我們意識到,體重分享導(dǎo)致模型相互影響,這導(dǎo)致架構(gòu)搜索過程更接近隨機(jī),”Benyahia和Yu解釋說。“我們在架構(gòu)搜索方面也有自己的儲備,只有最終的結(jié)果才能明白,而且沒有良好的框架來公平地評估架構(gòu)搜索的質(zhì)量。我們的方法可以幫助解決這個遺忘問題,如它與幾乎所有最近的autoML論文所依賴的核心方法有關(guān),我們認(rèn)為這種影響對社區(qū)來說是巨大的。“

在他們的研究中,研究人員模擬了多模型在數(shù)學(xué)上的遺忘并得出了一種新的損失,稱為重量可塑性損失。這種損失可以通過根據(jù)模型的共享參數(shù)的先前模型的重要性來規(guī)范學(xué)習(xí)模型的共享參數(shù)來大大減少多模型遺忘。

從嚴(yán)格到松散的收斂。研究人員使用共享參數(shù)對模型A和B進(jìn)行MNIST實(shí)驗,并在訓(xùn)練模型B(基線,綠色)之前報告模型A的準(zhǔn)確性,并在訓(xùn)練模型B時使用(橙色)或不使用(藍(lán)色)訓(xùn)練模型A和B的準(zhǔn)確性)WPL。在(a)中,它們顯示了嚴(yán)格收斂的結(jié)果:A最初訓(xùn)練為收斂。然后,他們放松了這個假設(shè)并將A訓(xùn)練到其最佳準(zhǔn)確度的55%(b),43%(c)和38%(d)。當(dāng)A訓(xùn)練至少達(dá)到最優(yōu)性的40%時,WPL非常有效; 在下面,F(xiàn)isher信息變得太不準(zhǔn)確,無法提供可靠的重要性權(quán)重。因此,即使權(quán)重不是最優(yōu)的,WPL也有助于減少多模型遺忘。WPL減少(a)和(b)的遺忘率高達(dá)99.99%,(c)減少高達(dá)2%。信用:

“基本上,由于神經(jīng)網(wǎng)絡(luò)的過度參數(shù)化,我們的損失會減少首先對最終損失”不太重要“的參數(shù),并保持更重要的參數(shù)不變,”Benyahia和Yu說。“模型A的性能因此不受影響,而模型B的性能不斷提高。在小型數(shù)據(jù)集上,我們的模型可以減少高達(dá)99%的遺忘,而對于autoML方法,在訓(xùn)練過程中高達(dá)80%。”

在一系列測試中,研究人員證明了他們的方法在減少多模型遺忘方面的有效性,無論是在順序訓(xùn)練兩個模型還是進(jìn)行神經(jīng)結(jié)構(gòu)搜索的情況下。他們的研究結(jié)果表明,在神經(jīng)結(jié)構(gòu)搜索中增加重量可塑性可以顯著提高NLP和計算機(jī)視覺任務(wù)上多個模型的性能。

由Benyahia,Yu和他們的同事進(jìn)行的研究揭示了災(zāi)難性遺忘的問題,特別是當(dāng)多個模型按順序訓(xùn)練時發(fā)生的問題。在用數(shù)學(xué)方法對這個問題進(jìn)行建模之后,研究人員引入了一種可以克服它的解決方案,或者至少可以大大降低其影響。

神經(jīng)架構(gòu)搜索中的誤差差異。對于每個體系結(jié)構(gòu),研究人員計算RNN誤差差異err2-err1,其中err1是在訓(xùn)練該體系結(jié)構(gòu)之后的錯誤,并且err2是在當(dāng)前時期訓(xùn)練所有體系結(jié)構(gòu)之后的錯誤。它們繪制了(a)所有采樣模型的平均差異,(b)具有最低err1的5個模型的平均差異,以及(c)所有模型的最大差異。在(d)中,他們將采樣架構(gòu)的平均獎勵繪制為訓(xùn)練迭代的函數(shù)。盡管WPL最初導(dǎo)致較低的獎勵,但由于等式(8)中的權(quán)重α較大,通過減少遺忘,以后允許控制器對更好的架構(gòu)進(jìn)行采樣,如下半部分中的較高獎勵所示。圖片來源:Benyahia,Yu等人。

“在多模式遺忘中,我們的指導(dǎo)原則是在公式中思考而不僅僅是通過簡單的直覺或啟發(fā)式思考,”Benyahia和Yu說。“我們堅信,這種'公式思考'可以引導(dǎo)研究人員獲得偉大的發(fā)現(xiàn)。這就是為什么進(jìn)一步的研究,我們的目標(biāo)是將這種方法應(yīng)用于機(jī)器學(xué)習(xí)的其他領(lǐng)域。此外,我們計劃將我們的損失調(diào)整到最近的狀態(tài)最先進(jìn)的autoML方法,以證明其有效解決我們觀察到的體重分擔(dān)問題。“


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。