您的位置: 首頁(yè) >互聯(lián)網(wǎng) >

從期刊文章中提取關(guān)鍵信息的web應(yīng)用程序

2020-06-10 15:07:59 編輯: 來(lái)源:
導(dǎo)讀 學(xué)術(shù)論文通常會(huì)涉及到各個(gè)領(lǐng)域的新突破和有趣的理論。然而,這些文章中的大部分都是用專(zhuān)業(yè)術(shù)語(yǔ)和技術(shù)語(yǔ)言寫(xiě)的,只有熟悉特定研究領(lǐng)域的讀者才能理解。 因此,非專(zhuān)業(yè)讀者通常無(wú)法理解科學(xué)文章,除非它們是經(jīng)過(guò)策劃的,并由理解其中概念和思想的第三方更容易理解??紤]到這一點(diǎn),一個(gè)研究小組在得克薩斯高級(jí)計(jì)算中心德克薩斯大學(xué)奧斯汀分校(TACC),俄勒岡州立大學(xué)(俄勒岡州立大學(xué))和美國(guó)社會(huì)的植物生物學(xué)家(ASPB)

學(xué)術(shù)論文通常會(huì)涉及到各個(gè)領(lǐng)域的新突破和有趣的理論。然而,這些文章中的大部分都是用專(zhuān)業(yè)術(shù)語(yǔ)和技術(shù)語(yǔ)言寫(xiě)的,只有熟悉特定研究領(lǐng)域的讀者才能理解。

因此,非專(zhuān)業(yè)讀者通常無(wú)法理解科學(xué)文章,除非它們是經(jīng)過(guò)策劃的,并由理解其中概念和思想的第三方更容易理解。考慮到這一點(diǎn),一個(gè)研究小組在得克薩斯高級(jí)計(jì)算中心德克薩斯大學(xué)奧斯汀分校(TACC),俄勒岡州立大學(xué)(俄勒岡州立大學(xué))和美國(guó)社會(huì)的植物生物學(xué)家(ASPB)已經(jīng)著手開(kāi)發(fā)一種工具,它可以自動(dòng)提取重要的詞語(yǔ)和術(shù)語(yǔ)研究論文以提供有用的定義和增強(qiáng)可讀性。

“我們的項(xiàng)目是為了提高期刊文章的可讀性,”TACC團(tuán)隊(duì)的負(fù)責(zé)人徐維佳告訴TechXplore。這是生物策展人、期刊出版商和計(jì)算機(jī)科學(xué)家的共同努力,旨在開(kāi)發(fā)一種網(wǎng)絡(luò)服務(wù),可以識(shí)別并使作者策展期刊出版物中使用的重要術(shù)語(yǔ)。然后,這些術(shù)語(yǔ)和詞匯被附在期刊文章的結(jié)尾,以增加讀者的可訪(fǎng)問(wèn)性。”

Xu和他的同事開(kāi)發(fā)了一個(gè)可擴(kuò)展的框架,可以用來(lái)從文檔中提取信息。然后,他們?cè)谝粋€(gè)名為DIVE(領(lǐng)域信息詞匯提取)的web服務(wù)中實(shí)現(xiàn)了這個(gè)框架,并將其與ASPB的期刊出版管道集成在一起。與現(xiàn)有的提取領(lǐng)域信息的工具不同,它們的框架結(jié)合了幾種方法,包括本體指導(dǎo)提取、基于規(guī)則的提取、自然語(yǔ)言處理(NLP)和深度學(xué)習(xí)技術(shù)。

“不同模型得到的結(jié)果會(huì)被存儲(chǔ)在一個(gè)中央數(shù)據(jù)庫(kù)中,”徐解釋說(shuō)?!拔覀冞€設(shè)計(jì)了一個(gè)web服務(wù),允許用戶(hù)管理提取結(jié)果。web服務(wù)與ASPB的生產(chǎn)發(fā)布管道集成在一起。

一旦期刊文章的預(yù)覽版本被提交并進(jìn)入ASPB的管道,手稿就會(huì)自動(dòng)輸入到DIVE,后者對(duì)其進(jìn)行處理并生成一個(gè)URL,通過(guò)這個(gè)URL,作者將能夠訪(fǎng)問(wèn)DIVE的處理結(jié)果。論文作者在正式提交論文之前,需要訪(fǎng)問(wèn)提供的鏈接,查看提取的信息。

“作者需要訪(fǎng)問(wèn)潛水地點(diǎn),審查提取結(jié)果,并最終批準(zhǔn)文章末尾的信息列表,”徐說(shuō)。DIVE還會(huì)跟蹤作者的糾正,以改進(jìn)未來(lái)的提取任務(wù)。目前,還沒(méi)有其他期刊出版商采用類(lèi)似的方法,并將其整合到自己的出版渠道中?!?/p>

在分析過(guò)程中以及從文件中提取關(guān)鍵數(shù)據(jù)時(shí),研究人員開(kāi)發(fā)的框架使用了幾種技術(shù)。這使得它能夠比其他方法捕獲更多的信息,比如ABNER(一種生物醫(yī)學(xué)命名的實(shí)體識(shí)別器),它是一種用于分子生物學(xué)文本挖掘的開(kāi)源軟件工具,只能提取通用術(shù)語(yǔ)(例如基因和蛋白質(zhì))。與DIVE相反,ABNER只是基于條件隨機(jī)場(chǎng)(CRFs),一種統(tǒng)計(jì)建模方法,在模式識(shí)別和機(jī)器學(xué)習(xí)應(yīng)用中常用。

“我們項(xiàng)目的一個(gè)主要貢獻(xiàn)是,它有助于建立數(shù)據(jù)集和模型,可以從作者的出版物中推斷他們的研究興趣,”徐說(shuō)?!拔覀兊捻?xiàng)目可以使更廣泛的生物研究人員受益。對(duì)于作者來(lái)說(shuō),關(guān)鍵信息的提取和包含可以增加他們文章的可訪(fǎng)問(wèn)性?!?/p>

Xu和他的同事Amit Gupta評(píng)估了他們的框架,并將其性能與其他信息提取工具(包括ABNER)進(jìn)行了比較。他們的發(fā)現(xiàn)表明,使用多種方法,包括深度學(xué)習(xí),潛水獲得的分?jǐn)?shù)比其他預(yù)先訓(xùn)練的僅基于CRFs的模型更高的精度。有趣的是,還可以不斷地更新DIVE框架,因?yàn)榭梢噪S時(shí)向其添加額外的提取模型。

DIVE web應(yīng)用程序不僅能讓非專(zhuān)業(yè)讀者更好地理解學(xué)術(shù)論文,還能幫助他們識(shí)別符合自己興趣的論文。另一方面,研究人員可以使用DIVE來(lái)了解特定的研究領(lǐng)域,以及了解與他們感興趣的領(lǐng)域相關(guān)的新術(shù)語(yǔ)和趨勢(shì)。最后,應(yīng)用程序生成的信息還可以指導(dǎo)生物策展人的決策和數(shù)據(jù)收集過(guò)程。

“我們將繼續(xù)探索兩個(gè)方向,”徐說(shuō)?!耙环矫?,我們正在研究新的方法來(lái)結(jié)合我們的信息提取模型來(lái)提高性能。另一方面,我們也在努力擴(kuò)大我們的服務(wù),向更多的用戶(hù)社區(qū)和期刊出版商提供這項(xiàng)服務(wù)?!?/p>



免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。