安全地發(fā)現(xiàn)潛在藥物的神經(jīng)網(wǎng)絡可以鼓勵大規(guī)模匯集敏感數(shù)據(jù)

2019-06-10 11:01:26 編輯：來源：

導讀麻省理工學院的研究人員開發(fā)了一種加密系統(tǒng)，可以幫助神經(jīng)網(wǎng)絡在大量藥理數(shù)據(jù)集中識別有希望的候選藥物，同時保持數(shù)據(jù)的私密性。如此大規(guī)模

麻省理工學院的研究人員開發(fā)了一種加密系統(tǒng)，可以幫助神經(jīng)網(wǎng)絡在大量藥理數(shù)據(jù)集中識別有希望的候選藥物，同時保持數(shù)據(jù)的私密性。如此大規(guī)模的安全計算可以為預測藥物發(fā)現(xiàn)提供廣泛的敏感藥理學數(shù)據(jù)匯集。

藥物 - 靶標相互作用(DTI)數(shù)據(jù)集顯示候選化合物是否作用于靶蛋白，對于幫助研究人員開發(fā)新藥物至關重要?？梢杂柧毮Ｐ蛠硖幚硪阎狣TI的數(shù)據(jù)集，然后使用該信息找到新的候選藥物。

近年來，制藥公司，大學和其他實體已經(jīng)開放將藥理學數(shù)據(jù)匯集到更大的數(shù)據(jù)庫中，這可以大大改善這些模型的培訓。然而，由于知識產(chǎn)權問題和其他隱私問題，這些數(shù)據(jù)集的范圍仍然有限。用于保護數(shù)據(jù)的密碼學方法是如此計算密集的，它們不能很好地擴展到超過例如成千上萬的DTI的數(shù)據(jù)集，這些數(shù)據(jù)集相對較小。

麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員在“ 科學”雜志上發(fā)表的一篇論文中描述了一個神經(jīng)網(wǎng)絡，該神經(jīng)網(wǎng)絡在超過一百萬個DTI的數(shù)據(jù)集上進行了安全訓練和測試。該網(wǎng)絡利用現(xiàn)代加密工具和優(yōu)化技術將輸入數(shù)據(jù)保密，同時大規(guī)模快速有效地運行。

該團隊的實驗表明，網(wǎng)絡比現(xiàn)有方法更快，更準確; 它可以在幾天內(nèi)處理大量數(shù)據(jù)集，而其他加密框架則需要數(shù)月。此外，該網(wǎng)絡確定了幾種新的相互作用，包括白血病藥物伊馬替尼和一種與癌癥相關的酶ErbB4突變之間的相互作用 - 這可能具有臨床意義。

“人們意識到他們需要匯集他們的數(shù)據(jù)，以大大加快藥物發(fā)現(xiàn)過程，并使我們共同在解決重要的人類疾病，如癌癥或糖尿病方面取得科學進步。但他們沒有好的方法， “相應的作者Bonnie Berger，西蒙斯數(shù)學教授和CSAIL的首席研究員說。“通過這項工作，我們?yōu)檫@些實體提供了一種方法，可以有效地集中和分析他們的數(shù)據(jù)。”

加入Berger的是共同作者Brian Hie和Hyunghoon Cho，他們都是電氣工程和計算機科學的研究生以及CSAIL計算和生物學研究組的研究人員。

“秘密共享”數(shù)據(jù)

這篇新論文建立在研究人員以前在基因組研究中保護患者機密性的工作的基礎上，這些研究發(fā)現(xiàn)了特定遺傳變異與疾病發(fā)病率之間的聯(lián)系?；蚪M數(shù)據(jù)可能會泄露個人信息，因此患者可能不愿意參加研究。在那項工作中，Berger，Cho和前斯坦福大學博士。學生開發(fā)了一種基于密碼學框架的協(xié)議，稱為“秘密共享”，可以安全有效地分析一百萬個基因組的數(shù)據(jù)集。相比之下，現(xiàn)有的提案只能處理幾千個基因組。

秘密共享用于多方計算，其中敏感數(shù)據(jù)被劃分為多個服務器之間的單獨“共享”。在整個計算過程中，每一方總是只擁有其數(shù)據(jù)的份額，這看起來是完全隨機的。但是，總的來說，服務器仍然可以在底層私有數(shù)據(jù)上進行通信和執(zhí)行有用的操作。在計算結(jié)束時，當需要結(jié)果時，各方合并其份額以揭示結(jié)果。

“我們以前的工作為基礎，將秘密共享應用于藥理學合作的問題，但它并不是現(xiàn)成的，”Berger說。

一項關鍵創(chuàng)新是減少培訓和測試所需的計算量?，F(xiàn)有的預測藥物發(fā)現(xiàn)模型將DTI的化學和蛋白質(zhì)結(jié)構表示為圖形或矩陣。然而，這些方法與數(shù)據(jù)集中的DTI數(shù)量成二次方或平方?；旧?，隨著數(shù)據(jù)集的大小增加，處理這些表示變得極其計算密集。“雖然這對于處理原始數(shù)據(jù)可能沒什么問題，但如果你在安全計算中嘗試這樣做，那就不可行，”Hie說。

研究人員培訓了一種依賴于線性計算的神經(jīng)網(wǎng)絡，該計算可以更有效地擴展數(shù)據(jù)。“我們絕對需要可擴展性，因為我們正試圖提供一種將數(shù)據(jù)匯集到更大的數(shù)據(jù)集中的方法，”Cho說。

研究人員在STITCH數(shù)據(jù)集上訓練了一個神經(jīng)網(wǎng)絡，該數(shù)據(jù)集擁有150萬個DTI，使其成為同類中最大的公開數(shù)據(jù)集。在訓練中，網(wǎng)絡將每種藥物化合物和蛋白質(zhì)結(jié)構編碼為簡單的載體表示。這基本上將復雜的結(jié)構濃縮為計算機可以容易地處理的1和0。從這些向量，網(wǎng)絡然后學習交互和非交互的模式。通過聯(lián)合新的化合物和蛋白質(zhì)結(jié)構，網(wǎng)絡然后預測它們是否會相互作用。

該網(wǎng)絡還具有針對效率和安全性進行了優(yōu)化的架構。神經(jīng)網(wǎng)絡的每一層都需要一些激活函數(shù)來確定如何將信息發(fā)送到下一層。在他們的網(wǎng)絡中，研究人員使用了一種稱為整流線性單元(ReLU)的高效激活功能。此功能僅需要交互的單個安全數(shù)值比較，以確定是否將數(shù)據(jù)發(fā)送(1)或不發(fā)送(0)到下一層，同時也從不透露任何有關實際數(shù)據(jù)的信息。與更復雜的功能相比，此操作在安全計算中更有效，因此在確保數(shù)據(jù)隱私的同時減少了計算負擔。

“重要的原因是我們希望在秘密共享框架內(nèi)做到這一點......而且我們不想增加計算開銷，”Berger說。最后，“沒有顯示模型的參數(shù)，所有輸入數(shù)據(jù) - 藥物，目標和交互 - 都保密。”

尋找互動

研究人員將他們的網(wǎng)絡與來自DrugBank的一部分已知DTI的幾個最先進的明文(未加密)模型進行了對比，這是一個包含大約2,000個DTI的流行數(shù)據(jù)集。除了保持數(shù)據(jù)私密性外，研究人員的網(wǎng)絡在預測準確性方面優(yōu)于所有模型。只有兩個基線模型可以合理地擴展到STITCH數(shù)據(jù)集，研究人員的模型實現(xiàn)了幾乎兩倍的模型精度。

研究人員還在STITCH中測試了沒有列出相互作用的藥物 - 靶標對，并發(fā)現(xiàn)了一些臨床確定的藥物相互作用，這些相互作用沒有在數(shù)據(jù)庫中列出但應該是。在該論文中，研究人員列出了最強烈的預測，包括：屈洛昔芬和雌激素受體，它們作為乳腺癌的治療方法達到了III期臨床試驗; 和西奧骨化醇和維生素D受體治療其他癌癥。Cho和Hie通過合同研究組織獨立驗證了得分最高的小說互動。

接下來，研究人員正在與合作伙伴一起在現(xiàn)實環(huán)境中建立他們的協(xié)作管道。“我們有興趣將安全計算環(huán)境整合在一起，因此我們可以使用真實數(shù)據(jù)運行我們的安全協(xié)議，”Cho說。

標簽：神經(jīng)網(wǎng)絡