您的位置: 首頁(yè) >科技 >

機(jī)器學(xué)習(xí)算法可以通過(guò)少量訓(xùn)練發(fā)現(xiàn)隱藏的科學(xué)知識(shí)

2022-08-24 21:54:41 編輯:古琪婭 來(lái)源:
導(dǎo)讀 當(dāng)然,計(jì)算機(jī)可以用來(lái)玩大師級(jí)國(guó)際象棋,但是他們可以做出科學(xué)發(fā)現(xiàn)嗎?能源部勞倫斯伯克利實(shí)驗(yàn)室的研究人員表明,沒(méi)有材料科學(xué)培訓(xùn)的算法可...

當(dāng)然,計(jì)算機(jī)可以用來(lái)玩大師級(jí)國(guó)際象棋,但是他們可以做出科學(xué)發(fā)現(xiàn)嗎?能源部勞倫斯伯克利實(shí)驗(yàn)室的研究人員表明,沒(méi)有材料科學(xué)培訓(xùn)的算法可以掃描數(shù)百萬(wàn)篇論文的文本并發(fā)現(xiàn)新的科學(xué)知識(shí)。

由伯克利實(shí)驗(yàn)室能源存儲(chǔ)和分布式資源部門的科學(xué)家Anubhav Jain領(lǐng)導(dǎo)的團(tuán)隊(duì)收集了330萬(wàn)份已發(fā)表的材料科學(xué)論文摘要,并將其輸入一個(gè)名為Word2vec的算法中。通過(guò)分析單詞之間的關(guān)系,該算法能夠提前幾年預(yù)測(cè)新熱電材料的發(fā)現(xiàn),并建議尚未知的材料作為熱電材料的候選材料。

伯克利實(shí)驗(yàn)室的研究人員發(fā)現(xiàn),材料科學(xué)文摘的文本挖掘可能會(huì)成為新型熱電材料。

“沒(méi)有告訴任何有關(guān)材料科學(xué)的知識(shí),它就學(xué)會(huì)了周期表和金屬晶體結(jié)構(gòu)等概念,”Jain說(shuō)。“這暗示了這項(xiàng)技術(shù)的潛力。但也許我們發(fā)現(xiàn)的最有趣的事情是,你可以使用這種算法來(lái)解決材料研究中的差距,這是人們應(yīng)該研究但到目前為止還沒(méi)有研究過(guò)的東西。“

該研究結(jié)果發(fā)表在7月3日的“自然”雜志上。該研究的主要作者,“無(wú)監(jiān)督的詞匯嵌入材料科學(xué)文獻(xiàn)中捕獲潛在知識(shí)”,現(xiàn)為伯克利實(shí)驗(yàn)室博士后研究員Vahe Tshitoyan,現(xiàn)在在谷歌工作。與Jain一起,伯克利實(shí)驗(yàn)室的科學(xué)家Kristin Persson和Gerbrand Ceder幫助領(lǐng)導(dǎo)了這項(xiàng)研究。

“該文件確定科學(xué)文獻(xiàn)的文本挖掘可以發(fā)現(xiàn)隱藏的知識(shí),純文本提取可以建立基本的科學(xué)知識(shí),”Ceder說(shuō),他還在加州大學(xué)伯克利分校的材料科學(xué)與工程系任命。

Tshitoyan表示,該項(xiàng)目的動(dòng)機(jī)是難以理解大量已發(fā)表的研究。“在每個(gè)研究領(lǐng)域都有100年的研究文獻(xiàn),每周都有數(shù)十項(xiàng)研究出現(xiàn),”他說(shuō)。“研究人員只能訪問(wèn)其中的一小部分。我們認(rèn)為,機(jī)器學(xué)習(xí)可以做一些事情,以無(wú)人監(jiān)督的方式利用所有這些集體知識(shí) - 不需要人類研究人員的指導(dǎo)嗎?“

“國(guó)王 - 女王+男人=?”

該團(tuán)隊(duì)從1922年至2018年間在1000多種期刊上發(fā)表的論文中收集了330萬(wàn)篇摘要.Word2vec在這些摘要中采用了大約500,000個(gè)不同的單詞,并將每個(gè)單詞轉(zhuǎn)換為200維向量,或200個(gè)數(shù)字的數(shù)組。

“重要的不是每個(gè)數(shù)字,而是用數(shù)字來(lái)看看單詞是如何相互關(guān)聯(lián)的,”Jain說(shuō)道,他領(lǐng)導(dǎo)一個(gè)小組,致力于發(fā)現(xiàn)和設(shè)計(jì)能源應(yīng)用的新材料,使用理論,計(jì)算和數(shù)據(jù)挖掘。“例如,您可以使用標(biāo)準(zhǔn)矢量數(shù)學(xué)減去矢量。其他研究人員已經(jīng)表明,如果你在非科學(xué)文本資源上訓(xùn)練算法并采用“王減女王”產(chǎn)生的矢量,你會(huì)得到與“男人減去女人”相同的結(jié)果。它沒(méi)有你告訴任何事情就找出了關(guān)系。“

類似地,當(dāng)在材料科學(xué)文本上進(jìn)行訓(xùn)練時(shí),該算法能夠簡(jiǎn)單地基于摘要中的單詞的位置以及它們與其他單詞的共現(xiàn)來(lái)學(xué)習(xí)科學(xué)術(shù)語(yǔ)和概念的含義,例如金屬的晶體結(jié)構(gòu)。例如,正如它可以解決方程“王 - 王后+人”,它可以找出對(duì)于“鐵磁 - 鎳鐵+ IrMn”等式,答案將是“反鐵磁性”。

當(dāng)每個(gè)化學(xué)元素的向量投影到兩個(gè)維度時(shí),Word2vec甚至能夠?qū)W習(xí)元素周期表中元素之間的關(guān)系。

提前幾年預(yù)測(cè)發(fā)現(xiàn)

因此,如果Word2vec如此智能,它能預(yù)測(cè)新型熱電材料嗎?良好的熱電材料可以有效地將熱量轉(zhuǎn)換為電能,并且由安全,豐富且易于生產(chǎn)的材料制成。

伯克利實(shí)驗(yàn)室團(tuán)隊(duì)采用了該算法建議的頂級(jí)熱電候選者,該算法根據(jù)其單詞矢量與“熱電”一詞的相似性對(duì)每個(gè)化合物進(jìn)行排序。然后,他們進(jìn)行計(jì)算以驗(yàn)證算法的預(yù)測(cè)。

在前10個(gè)預(yù)測(cè)中,他們發(fā)現(xiàn)所有計(jì)算的功率因數(shù)略高于已知熱電的平均值; 前三位候選者的功率因數(shù)高于已知熱電材料的第95百分位數(shù)。

接下來(lái),他們測(cè)試了算法是否可以“過(guò)去”進(jìn)行實(shí)驗(yàn),只給出2000年的摘要。同樣,在最高預(yù)測(cè)中,后來(lái)的研究中出現(xiàn)了大量的數(shù)據(jù) - 比材料多四倍剛剛被隨機(jī)選中。例如,使用截至2008年的數(shù)據(jù)訓(xùn)練的前五個(gè)預(yù)測(cè)中的三個(gè)已被發(fā)現(xiàn),其余兩個(gè)包含稀有或有毒元素。

結(jié)果令人驚訝。“老實(shí)說(shuō),我沒(méi)想到算法能夠如此預(yù)測(cè)未來(lái)的結(jié)果,”Jain說(shuō)。“我原本以為這個(gè)算法可能描述了人們以前做過(guò)的事情,但沒(méi)有提出這些不同的聯(lián)系。當(dāng)我不僅看到預(yù)測(cè)而且看到預(yù)測(cè)背后的推理時(shí),我感到非常驚訝,例如半赫斯勒結(jié)構(gòu),這是一種非常熱的電熱晶體結(jié)構(gòu)。“

他補(bǔ)充說(shuō):“這項(xiàng)研究表明,如果這個(gè)算法早些時(shí)候到位,可以想象一些材料可以提前幾年被發(fā)現(xiàn)。”隨著研究,研究人員正在發(fā)布該算法預(yù)測(cè)的前50種熱電材料。如果他們想要搜索更好的拓?fù)浣^緣體材料,他們還將發(fā)布人們制作自己應(yīng)用所需的嵌入詞。

接下來(lái),Jain表示,該團(tuán)隊(duì)正在開(kāi)發(fā)一個(gè)更智能,更強(qiáng)大的搜索引擎,允許研究人員以更有用的方式搜索摘要。

該研究由豐田研究所資助。其他研究合著者是伯克利實(shí)驗(yàn)室研究人員John Dagdelen,Leigh Weston,Alexander Dunn和Ziqin Rong,以及加州大學(xué)伯克利分校研究員Olga Kononova。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。