您的位置: 首頁 >科技 >

深度學(xué)習(xí)反思克服了人工智能行業(yè)的主要障礙

2020-03-28 09:43:21 編輯: 來源:
導(dǎo)讀 萊斯大學(xué)的計算機(jī)科學(xué)家已經(jīng)克服了新興人工智能產(chǎn)業(yè)的一個主要障礙,表明如果沒有專門的加速硬件,如圖形處理單元(GPU),就有可能加快深度學(xué)習(xí)技術(shù)。 來自賴斯的計算機(jī)科學(xué)家,在英特爾的合作者的支持下,今天將在奧斯汀會議中心展示他們的結(jié)果,作為機(jī)器學(xué)習(xí)系統(tǒng)會議MLSys的一部分。 許多公司正在大量投資于GPU和其他專門硬件,以實(shí)現(xiàn)深度學(xué)習(xí),這是一種強(qiáng)大的人工智能形式,背后的數(shù)字助理,如Alexa和S

萊斯大學(xué)的計算機(jī)科學(xué)家已經(jīng)克服了新興人工智能產(chǎn)業(yè)的一個主要障礙,表明如果沒有專門的加速硬件,如圖形處理單元(GPU),就有可能加快深度學(xué)習(xí)技術(shù)。

來自賴斯的計算機(jī)科學(xué)家,在英特爾的合作者的支持下,今天將在奧斯汀會議中心展示他們的結(jié)果,作為機(jī)器學(xué)習(xí)系統(tǒng)會議MLSys的一部分。

許多公司正在大量投資于GPU和其他專門硬件,以實(shí)現(xiàn)深度學(xué)習(xí),這是一種強(qiáng)大的人工智能形式,背后的數(shù)字助理,如Alexa和Siri,面部識別,產(chǎn)品推薦系統(tǒng)和其他技術(shù)。 例如,該行業(yè)金標(biāo)TeslaV100TensorCore GPU的制造商N(yùn)vidia最近報告說,其第四季度收入比上一年增加了41%。

賴斯的研究人員創(chuàng)造了一個節(jié)省成本的替代GPU,一種稱為“次線性深度學(xué)習(xí)引擎”(SLIDE)的算法,它使用通用的中央處理單元(CPU),沒有專門的加速硬件。

賴斯布朗工程學(xué)院的助理教授Anshumali Shrivastava說:“我們的測試表明,SLIDE是在CPU上進(jìn)行深度學(xué)習(xí)的第一個智能算法實(shí)現(xiàn),在具有大型全連接架構(gòu)的行業(yè)規(guī)模推薦數(shù)據(jù)集上,它可以優(yōu)于GPU硬件加速。

幻燈片不需要GPU,因?yàn)樗枰环N根本不同的深度學(xué)習(xí)方法。 深度神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)“反向傳播”訓(xùn)練技術(shù)需要矩陣乘法,這是GPU的理想工作負(fù)載。 使用SLIDE,Shrivastava,Chen和Medini將神經(jīng)網(wǎng)絡(luò)訓(xùn)練變成了一個搜索問題,可以用哈希表來解決。

與反向傳播訓(xùn)練相比,這從根本上減少了SLIDE的計算開銷.. 例如,一個頂級的GPU平臺,如亞馬遜、谷歌和其他為基于云的深度學(xué)習(xí)服務(wù)提供的平臺,有八個特斯拉V100s,成本約$10萬美元,Shrivastava說。

我們在實(shí)驗(yàn)室里有一個,在我們的測試用例中,我們使用了一個非常適合V100的工作負(fù)載,一個在適合GPU內(nèi)存的大型、完全連接的網(wǎng)絡(luò)中具有超過1億個參數(shù)的工作負(fù)載。 “我們用谷歌的TensorFlow這個最好的軟件包來訓(xùn)練它,花了3個半小時來訓(xùn)練。

Shrivastava說:“我們的新算法可以在一小時內(nèi)完成訓(xùn)練,而不是在GPU上,而是在44核Xeon級CPU上?!?/p>

深度學(xué)習(xí)網(wǎng)絡(luò)受到生物學(xué)的啟發(fā),它們的中心特征,人工神經(jīng)元,是可以學(xué)習(xí)執(zhí)行特定任務(wù)的小型計算機(jī)代碼。 一個深度學(xué)習(xí)網(wǎng)絡(luò)可以包含數(shù)百萬甚至數(shù)十億的人工神經(jīng)元,它們可以一起工作,僅僅通過研究大量數(shù)據(jù)就可以學(xué)會做出人類層面的專家決策。 例如,如果一個深度神經(jīng)網(wǎng)絡(luò)被訓(xùn)練來識別照片中的物體,它將使用不同的神經(jīng)元來識別貓的照片,而不是識別校車。

“你不需要在每個病例上訓(xùn)練所有的神經(jīng)元,”梅迪尼說。 “我們想,‘如果我們只想選擇相關(guān)的神經(jīng)元,那就是一個搜索問題。’ 因此,在算法上,我們的想法是使用局部敏感散列來擺脫矩陣乘法。

哈希是20世紀(jì)90年代為互聯(lián)網(wǎng)搜索而發(fā)明的一種數(shù)據(jù)索引方法。 它使用數(shù)字方法來編碼大量的信息,比如整個網(wǎng)頁或一本書的章節(jié),作為一串?dāng)?shù)字,稱為散列。 哈希表是可以很快搜索的哈希表。

陳說:“在TensorFlow或Py Torch上實(shí)現(xiàn)我們的算法是沒有意義的,因?yàn)樗麄兿胱龅牡谝患戮褪前涯阏谧龅娜魏问虑檗D(zhuǎn)換成矩陣乘法問題?!?“這正是我們想要擺脫的。 所以我們從頭開始編寫自己的C代碼?!?/p>

Shrivastava說,與反向傳播相比,SLIDE最大的優(yōu)勢在于它是數(shù)據(jù)并行的。

他說:“數(shù)據(jù)并行,我的意思是,如果我有兩個數(shù)據(jù)實(shí)例,我想訓(xùn)練,假設(shè)一個是貓的圖像,另一個是公共汽車的圖像,它們可能會激活不同的神經(jīng)元,而幻燈片可以獨(dú)立更新或訓(xùn)練這兩個?!?“這是對CPU并行性的更好利用。

與GPU相比,另一方面是我們需要很大的記憶力。 “主存儲器中有一個緩存層次結(jié)構(gòu),如果您不小心,您可能會遇到一個名為緩存重?fù)舻膯栴},在這個問題中,您會得到很多緩存丟失?!?/p>

Shrivastava說,他的小組第一次使用SLIDE的實(shí)驗(yàn)產(chǎn)生了顯著的緩存沖擊,但他們的訓(xùn)練時間仍然與GPU訓(xùn)練時間相當(dāng)或比GPU訓(xùn)練時間更快。 因此,他、陳和梅迪尼在2019年3月在ar Xiv上發(fā)布了初步結(jié)果,并將他們的代碼上傳到GitHub。 幾周后,他們被英特爾聯(lián)系。

他說:“我們的英特爾合作者認(rèn)識到緩存問題。 “他們告訴我們,他們可以和我們合作,使火車更快,他們是對的。 在他們的幫助下,我們的成績提高了大約50%。”

Shrivastava說,SLIDE尚未接近其潛力。

他說:“我們剛剛擦破了表面。 “我們還有很多事情要做。 例如,我們沒有在CPU中使用矢量化或內(nèi)置加速器,比如英特爾深度學(xué)習(xí)Boost。 我們還可以用很多其他的技巧來使這種速度更快。”

Shrivastava說,SLIDE很重要,因?yàn)樗@示了實(shí)現(xiàn)深度學(xué)習(xí)的其他方法。

陳說:“整個信息是,‘讓我們不要被乘法矩陣和GPU內(nèi)存所阻礙’。 “我們可能是第一個擊敗GPU的算法,但我希望這不是最后一個。 這個領(lǐng)域需要新的想法,這是MLSys的一大部分。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。