研究人員在擺脫數(shù)據(jù)方面取得了有限的成功

2022-08-25 04:11:20 編輯：仲俊瑤來源：

導(dǎo)讀人工智能系統(tǒng)有著奇怪的記憶。機器拼命地依賴于他們已經(jīng)訓(xùn)練過的數(shù)據(jù)，因此難以刪除它的部分內(nèi)容。實際上，它們通常必須使用較新的較小數(shù)據(jù)...

人工智能系統(tǒng)有著奇怪的記憶。機器拼命地依賴于他們已經(jīng)訓(xùn)練過的數(shù)據(jù)，因此難以刪除它的部分內(nèi)容。實際上，它們通常必須使用較新的較小數(shù)據(jù)集從頭開始重新訓(xùn)練。

在個人可以根據(jù)歐洲的GDPR規(guī)則等隱私措施要求將其個人數(shù)據(jù)從公司數(shù)據(jù)庫中刪除的時代，這并不好。如何從已經(jīng)過培訓(xùn)的機器學(xué)習(xí)中刪除一個人的敏感信息?一個2017年的研究論文通過法律和政策的學(xué)者暗示，甚至是不可能的。

“刪除很困難，因為大多數(shù)機器學(xué)習(xí)模型都是復(fù)雜的黑盒子，因此不清楚數(shù)據(jù)點或數(shù)據(jù)點是如何被真正使用的，”斯坦福大學(xué)生物醫(yī)學(xué)數(shù)據(jù)科學(xué)助理教授James Zou告訴The。注冊。

為了省略特定數(shù)據(jù)，通常必須使用較新的較小數(shù)據(jù)集重新訓(xùn)練模型。這是一個痛苦，因為它花費金錢和時間。

由斯坦福大學(xué)博士生Antonio Ginart領(lǐng)導(dǎo)的這項研究研究了試圖刪除機器學(xué)習(xí)模型中數(shù)據(jù)的問題，并設(shè)法制作了兩個“可證明刪除有效的算法”來刪除六個不同數(shù)據(jù)集中的數(shù)據(jù)，用于k均值聚類模型，一種開發(fā)分類器的機器學(xué)習(xí)方法。結(jié)果已經(jīng)公布，本周在一份文件中的arXiv。

訣竅是評估從訓(xùn)練模型中刪除數(shù)據(jù)的影響。在某些情況下，它可能會導(dǎo)致系統(tǒng)性能下降。

“首先，快速檢查刪除數(shù)據(jù)點是否會對機器學(xué)習(xí)模型產(chǎn)生任何影響 - 有些設(shè)置沒有效果，因此我們可以非常有效地執(zhí)行此檢查。其次，看看要刪除的數(shù)據(jù)是否只影響學(xué)習(xí)系統(tǒng)的某些本地組件，只是在本地更新，“鄒解釋說。

在某些情況下，當(dāng)數(shù)據(jù)可以更容易分離時，它似乎對于k-means聚類模型是可行的。但是，對于像現(xiàn)代深度學(xué)習(xí)模型那樣不具有確定性的系統(tǒng)，刪除數(shù)據(jù)非常困難。

鄒說，這并非完全不可能。“我們還沒有工具，但我們希望在未來幾個月內(nèi)開發(fā)這些刪除工具。”

標簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！