您的位置: 首頁 >科技 >

機器學(xué)習(xí)算法可以通過少量訓(xùn)練發(fā)現(xiàn)隱藏的科學(xué)知識

2022-08-24 21:54:41 編輯:古琪婭 來源:
導(dǎo)讀 當(dāng)然,計算機可以用來玩大師級國際象棋,但是他們可以做出科學(xué)發(fā)現(xiàn)嗎?能源部勞倫斯伯克利實驗室的研究人員表明,沒有材料科學(xué)培訓(xùn)的算法可...

當(dāng)然,計算機可以用來玩大師級國際象棋,但是他們可以做出科學(xué)發(fā)現(xiàn)嗎?能源部勞倫斯伯克利實驗室的研究人員表明,沒有材料科學(xué)培訓(xùn)的算法可以掃描數(shù)百萬篇論文的文本并發(fā)現(xiàn)新的科學(xué)知識。

由伯克利實驗室能源存儲和分布式資源部門的科學(xué)家Anubhav Jain領(lǐng)導(dǎo)的團隊收集了330萬份已發(fā)表的材料科學(xué)論文摘要,并將其輸入一個名為Word2vec的算法中。通過分析單詞之間的關(guān)系,該算法能夠提前幾年預(yù)測新熱電材料的發(fā)現(xiàn),并建議尚未知的材料作為熱電材料的候選材料。

伯克利實驗室的研究人員發(fā)現(xiàn),材料科學(xué)文摘的文本挖掘可能會成為新型熱電材料。

“沒有告訴任何有關(guān)材料科學(xué)的知識,它就學(xué)會了周期表和金屬晶體結(jié)構(gòu)等概念,”Jain說。“這暗示了這項技術(shù)的潛力。但也許我們發(fā)現(xiàn)的最有趣的事情是,你可以使用這種算法來解決材料研究中的差距,這是人們應(yīng)該研究但到目前為止還沒有研究過的東西。“

該研究結(jié)果發(fā)表在7月3日的“自然”雜志上。該研究的主要作者,“無監(jiān)督的詞匯嵌入材料科學(xué)文獻(xiàn)中捕獲潛在知識”,現(xiàn)為伯克利實驗室博士后研究員Vahe Tshitoyan,現(xiàn)在在谷歌工作。與Jain一起,伯克利實驗室的科學(xué)家Kristin Persson和Gerbrand Ceder幫助領(lǐng)導(dǎo)了這項研究。

“該文件確定科學(xué)文獻(xiàn)的文本挖掘可以發(fā)現(xiàn)隱藏的知識,純文本提取可以建立基本的科學(xué)知識,”Ceder說,他還在加州大學(xué)伯克利分校的材料科學(xué)與工程系任命。

Tshitoyan表示,該項目的動機是難以理解大量已發(fā)表的研究。“在每個研究領(lǐng)域都有100年的研究文獻(xiàn),每周都有數(shù)十項研究出現(xiàn),”他說。“研究人員只能訪問其中的一小部分。我們認(rèn)為,機器學(xué)習(xí)可以做一些事情,以無人監(jiān)督的方式利用所有這些集體知識 - 不需要人類研究人員的指導(dǎo)嗎?“

“國王 - 女王+男人=?”

該團隊從1922年至2018年間在1000多種期刊上發(fā)表的論文中收集了330萬篇摘要.Word2vec在這些摘要中采用了大約500,000個不同的單詞,并將每個單詞轉(zhuǎn)換為200維向量,或200個數(shù)字的數(shù)組。

“重要的不是每個數(shù)字,而是用數(shù)字來看看單詞是如何相互關(guān)聯(lián)的,”Jain說道,他領(lǐng)導(dǎo)一個小組,致力于發(fā)現(xiàn)和設(shè)計能源應(yīng)用的新材料,使用理論,計算和數(shù)據(jù)挖掘。“例如,您可以使用標(biāo)準(zhǔn)矢量數(shù)學(xué)減去矢量。其他研究人員已經(jīng)表明,如果你在非科學(xué)文本資源上訓(xùn)練算法并采用“王減女王”產(chǎn)生的矢量,你會得到與“男人減去女人”相同的結(jié)果。它沒有你告訴任何事情就找出了關(guān)系。“

類似地,當(dāng)在材料科學(xué)文本上進(jìn)行訓(xùn)練時,該算法能夠簡單地基于摘要中的單詞的位置以及它們與其他單詞的共現(xiàn)來學(xué)習(xí)科學(xué)術(shù)語和概念的含義,例如金屬的晶體結(jié)構(gòu)。例如,正如它可以解決方程“王 - 王后+人”,它可以找出對于“鐵磁 - 鎳鐵+ IrMn”等式,答案將是“反鐵磁性”。

當(dāng)每個化學(xué)元素的向量投影到兩個維度時,Word2vec甚至能夠?qū)W習(xí)元素周期表中元素之間的關(guān)系。

提前幾年預(yù)測發(fā)現(xiàn)

因此,如果Word2vec如此智能,它能預(yù)測新型熱電材料嗎?良好的熱電材料可以有效地將熱量轉(zhuǎn)換為電能,并且由安全,豐富且易于生產(chǎn)的材料制成。

伯克利實驗室團隊采用了該算法建議的頂級熱電候選者,該算法根據(jù)其單詞矢量與“熱電”一詞的相似性對每個化合物進(jìn)行排序。然后,他們進(jìn)行計算以驗證算法的預(yù)測。

在前10個預(yù)測中,他們發(fā)現(xiàn)所有計算的功率因數(shù)略高于已知熱電的平均值; 前三位候選者的功率因數(shù)高于已知熱電材料的第95百分位數(shù)。

接下來,他們測試了算法是否可以“過去”進(jìn)行實驗,只給出2000年的摘要。同樣,在最高預(yù)測中,后來的研究中出現(xiàn)了大量的數(shù)據(jù) - 比材料多四倍剛剛被隨機選中。例如,使用截至2008年的數(shù)據(jù)訓(xùn)練的前五個預(yù)測中的三個已被發(fā)現(xiàn),其余兩個包含稀有或有毒元素。

結(jié)果令人驚訝。“老實說,我沒想到算法能夠如此預(yù)測未來的結(jié)果,”Jain說。“我原本以為這個算法可能描述了人們以前做過的事情,但沒有提出這些不同的聯(lián)系。當(dāng)我不僅看到預(yù)測而且看到預(yù)測背后的推理時,我感到非常驚訝,例如半赫斯勒結(jié)構(gòu),這是一種非常熱的電熱晶體結(jié)構(gòu)。“

他補充說:“這項研究表明,如果這個算法早些時候到位,可以想象一些材料可以提前幾年被發(fā)現(xiàn)。”隨著研究,研究人員正在發(fā)布該算法預(yù)測的前50種熱電材料。如果他們想要搜索更好的拓?fù)浣^緣體材料,他們還將發(fā)布人們制作自己應(yīng)用所需的嵌入詞。

接下來,Jain表示,該團隊正在開發(fā)一個更智能,更強大的搜索引擎,允許研究人員以更有用的方式搜索摘要。

該研究由豐田研究所資助。其他研究合著者是伯克利實驗室研究人員John Dagdelen,Leigh Weston,Alexander Dunn和Ziqin Rong,以及加州大學(xué)伯克利分校研究員Olga Kononova。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。