人工智能安全的具體問題綜述

2022-09-09 10:18:41 編輯：濮陽悅煙來源：

導(dǎo)讀自谷歌，斯坦福，加州大學(xué)伯克利分校和OpenAI的研究人員發(fā)表論文人工智能安全中的具體問題以來，已有將近兩年的時間了，但它仍然是人工智能...

自谷歌，斯坦福，加州大學(xué)伯克利分校和OpenAI的研究人員發(fā)表論文“人工智能安全中的具體問題”以來，已有將近兩年的時間了，但它仍然是人工智能安全最重要的部分之一。即使在兩年之后，它也代表了研究人員在開發(fā)人工智能時面臨的一些問題。在論文中，作者探討了事故問題- 人工智能系統(tǒng)中的意外和有害行為，他們討論了不同的策略和正在進行的研究工作，以防止這些潛在的問題。具體而言，作者提出了解決問題 - 避免負面影響，獎勵黑客攻擊，可擴展監(jiān)督，安全探索以及對分布式變更的穩(wěn)健性 - 這些都是以經(jīng)過培訓(xùn)的機器人清潔辦公室為例進行說明的。

我們在這里重新審視這五個主題，從論文中總結(jié)它們，提醒我們這些問題仍然是AI研究人員正在努力解決的主要問題。

避免負面影響

在為AI系統(tǒng)設(shè)計目標(biāo)函數(shù)時，設(shè)計人員會指定目標(biāo)，但不會指定系統(tǒng)要遵循的確切步驟。這使得AI系統(tǒng)能夠提出新穎且更有效的策略來實現(xiàn)其目標(biāo)。

但如果目標(biāo)函數(shù)沒有明確定義，AI開發(fā)自己的策略的能力可能會導(dǎo)致意想不到的有害副作用?？紤]一個機器人，其目標(biāo)功能是將盒子從一個房間移動到另一個房間。目標(biāo)似乎很簡單，但有很多方法可能會出錯。例如，如果一個花瓶在機器人的路徑中，機器人可能會將其擊倒以完成目標(biāo)。由于目標(biāo)函數(shù)沒有提到任何關(guān)于花瓶的東西，機器人不知道要避開它。人們認為這是常識，但人工智能系統(tǒng)并不分享我們對世界的理解。將目標(biāo)表述為“完成任務(wù)X”是不夠的;設(shè)計者還需要指定完成任務(wù)的安全標(biāo)準(zhǔn)。

一個簡單的解決方案就是每當(dāng)它對“環(huán)境”產(chǎn)生影響時對機器人進行處罰 - 例如敲擊花瓶或刮擦木地板。但是，這種策略可以有效地抵消機器人，使其無用，因為所有操作都需要與環(huán)境進行某種程度的交互(從而影響環(huán)境)。更好的策略可以是定義允許AI系統(tǒng)影響環(huán)境的“預(yù)算”。這將有助于在不中和AI系統(tǒng)的情況下最小化意外影響。此外，這種預(yù)算代理影響的策略非常通用，可以在多個任務(wù)中重復(fù)使用，從清潔，駕駛到金融交易，再到AI系統(tǒng)可能做的任何事情。

另一種方法是訓(xùn)練藥劑識別有害的副作用，以便它可以避免導(dǎo)致這種副作用的行為。在這種情況下，代理將被訓(xùn)練為兩個任務(wù)：由目標(biāo)函數(shù)指定的原始任務(wù)和識別副作用的任務(wù)。這里的關(guān)鍵思想是，即使主要目標(biāo)不同，甚至在不同的環(huán)境中運行，兩個任務(wù)也可能具有非常相似的副作用。例如，房屋清潔機器人和房屋涂裝機器人都不應(yīng)該在工作時撞倒花瓶。類似地，清潔機器人不應(yīng)損壞地板，無論其在工廠還是在房屋中操作。這種方法的主要優(yōu)點是，一旦代理人學(xué)會避免對一項任務(wù)的副作用，它就可以在對另一項任務(wù)進行訓(xùn)練時傳授這些知識。

盡管設(shè)計限制副作用的方法很有用，但這些策略本身并不充分。在真實環(huán)境中部署之前，AI系統(tǒng)仍需要經(jīng)過大量測試和關(guān)鍵評估。

獎勵黑客

有時人工智能會在系統(tǒng)設(shè)計中出現(xiàn)某種“黑客”或漏洞，以獲得無法獲得的獎勵。由于AI經(jīng)過培訓(xùn)可以最大限度地提高其獎勵，因此尋找這樣的漏洞和“快捷方式”對于AI來說是一個非常公平和有效的策略。例如，假設(shè)辦公室清潔機器人只有在辦公室看不到任何垃圾時才能獲得獎勵。機器人可以簡單地關(guān)閉其視覺傳感器，而不是清理場所，從而實現(xiàn)不看垃圾的目標(biāo)。但這顯然是一個錯誤的成功。這種“游戲”系統(tǒng)的嘗試更有可能在具有模糊定義的獎勵的復(fù)雜系統(tǒng)中體現(xiàn)出來。復(fù)雜系統(tǒng)為代理提供了多種與環(huán)境交互的方式，從而為代理提供了更多自由，

就像負面副作用問題一樣，這個問題也是客觀錯誤指定的一種表現(xiàn)形式。人工智能的正式目標(biāo)或最終目標(biāo)的定義不足以捕捉創(chuàng)建系統(tǒng)背后的非正式“意圖” - 即設(shè)計者實際上希望系統(tǒng)做什么。在某些情況下，這種差異會導(dǎo)致不理想的結(jié)果(當(dāng)清潔機器人關(guān)閉其視覺傳感器時);在其他情況下，它會導(dǎo)致有害的結(jié)果(當(dāng)清潔機器人擊倒花瓶時)。

減輕此問題的一種可能方法是擁有“獎勵代理”，其唯一的任務(wù)是標(biāo)記給予學(xué)習(xí)代理的獎勵是否有效。獎勵代理確保學(xué)習(xí)代理(我們的示例中的清潔機器人)不利用系統(tǒng)，而是完成所需的目標(biāo)。在前面的例子中，“獎勵代理人”可以由人類設(shè)計師訓(xùn)練以檢查房間是否有垃圾(比清潔房間更容易)。如果清潔機器人關(guān)閉其視覺傳感器并聲稱獲得高回報，則“獎勵代理”將獎勵標(biāo)記為無效。然后，設(shè)計者可以查看標(biāo)記為“無效”的獎勵，并對目標(biāo)函數(shù)進行必要的更改以修復(fù)漏洞。

可擴展的監(jiān)督

當(dāng)代理人學(xué)習(xí)執(zhí)行復(fù)雜任務(wù)時，人工監(jiān)督和反饋比僅從環(huán)境中獲得獎勵更有幫助。獎勵通常被建模，以便它們傳達任務(wù)完成的程度，但它們通常不會提供關(guān)于代理人行為的安全影響的充分反饋。即使代理成功完成任務(wù)，它也可能無法僅從獎勵中推斷出其行為的副作用。在理想的環(huán)境中，每當(dāng)代理執(zhí)行操作時，人員都會提供細粒度的監(jiān)督和反饋。雖然這將為代理人提供關(guān)于環(huán)境的更多信息，但這種策略需要人類花費太多時間和精力。

解決這個問題的一個有希望的研究方向是半監(jiān)督學(xué)習(xí)，其中代理仍然在所有動作(或任務(wù))上進行評估，但僅針對那些動作(或任務(wù))的一小部分樣本獲得獎勵。例如，清潔機器人將采取不同的行動來清潔房間。如果機器人執(zhí)行有害行為 - 例如損壞地板 - 它會對該特定動作產(chǎn)生負面回報。任務(wù)完成后，機器人將對其所有操作的整體效果進行評估(并且不會針對每個操作單獨評估，例如從樓層拾取物品)，并根據(jù)整體性能給予獎勵。

另一個有前景的研究方向是分層強化學(xué)習(xí)在不同的學(xué)習(xí)代理之間建立層次結(jié)構(gòu)。該想法可以以下列方式應(yīng)用于清潔機器人。將有一個主管機器人，其任務(wù)是將一些工作(例如，清潔一個特定房間的任務(wù))分配給清潔機器人并向其提供反饋和獎勵。主管機器人本身只需要很少的動作 - 為清潔機器人分配一個房間，檢查房間是否干凈并提供反饋 - 并且不需要大量的獎勵數(shù)據(jù)來進行有效的訓(xùn)練。清潔機器人執(zhí)行更復(fù)雜的清潔房間任務(wù)，并從主管機器人獲得頻繁的反饋。同一個主管機器人也可能忽略了多個清潔劑的培訓(xùn)。例如，主管機器人可以將任務(wù)委派給各個清潔機器人，并直接向他們提供獎勵/反饋。主管機器人本身只能采取少量抽象行為，因此可以從稀疏的獎勵中學(xué)習(xí)。

安全探索

培訓(xùn)AI代理的一個重要部分是確保它探索和理解其環(huán)境。雖然在短期內(nèi)探索環(huán)境似乎是一個糟糕的策略，但從長遠來看，這可能是一個非常有效的策略。想象一下，清潔機器人已經(jīng)學(xué)會識別垃圾。它撿起一塊垃圾，走出房間，把它扔到外面的垃圾桶里，回到房間里，尋找另一塊垃圾并重復(fù)。雖然這種策略有效，但可能有另一種策略可以更好地運作。如果代理花時間探索其環(huán)境，可能會發(fā)現(xiàn)房間內(nèi)有一個較小的垃圾箱。而不是一次一件地來回，代理商可以先將所有垃圾收集到較小的垃圾箱中，然后單程將垃圾扔進外面的垃圾箱。除非代理旨在探索其環(huán)境，否則它將無法發(fā)現(xiàn)這些節(jié)省時間的策略。

然而，在探索時，代理人也可能采取一些可能損害自身或環(huán)境的行動。例如，假設(shè)清潔機器人在地板上看到一些污漬。該代理決定嘗試一些新策略，而不是用拖把擦洗污漬。它試圖用鋼絲刷刮掉污漬并在此過程中損壞地板。列出所有可能的故障模式并對代理進行硬編碼以保護自己免受攻擊是很困難的。但是，減少傷害的一種方法是在最壞的情況下優(yōu)化學(xué)習(xí)代理的性能。在設(shè)計目標(biāo)函數(shù)時，設(shè)計者不應(yīng)假設(shè)代理將始終在最佳條件下運行。可以添加一些明確的獎勵信號以確保代理不執(zhí)行某些災(zāi)難性行為，

另一種解決方案可能是減少代理對模擬環(huán)境的探索或限制代理可以探索的程度。這是一種類似的預(yù)算代理影響的方法，以避免負面影響，但需要注意的是，現(xiàn)在我們要預(yù)算代理可以探索環(huán)境的程度?；蛘撸珹I的設(shè)計者可以通過演示在不同場景下最佳行為的演示來避免探索的需要。

分配變化的穩(wěn)健性

在現(xiàn)實生活環(huán)境中部署AI代理的一個復(fù)雜挑戰(zhàn)是代理可能最終處于以前從未體驗過的情況。這種情況本質(zhì)上更難以處理，并可能導(dǎo)致代理人采取有害行動。請考慮以下情況：清潔機器人已經(jīng)過培訓(xùn)，可以在處理所有先前的挑戰(zhàn)時清潔辦公空間。但今天，一名員工帶著一家小工廠留在辦公室。由于清潔機器人之前沒有看過任何植物，因此可能認為該植物是垃圾并將其丟棄。因為AI不承認這是以前看不見的情況，所以它繼續(xù)表現(xiàn)為好像什么都沒有改變。一個有前景的研究方向側(cè)重于確定代理何時遇到新的方案，以便它認識到它更有可能犯錯誤。雖然這并沒有解決為不可預(yù)見的情況準(zhǔn)備AI系統(tǒng)的根本問題，但它有助于在錯誤發(fā)生之前檢測問題。另一個研究方向強調(diào)將知識從熟悉的場景轉(zhuǎn)移到新場景中。

結(jié)論

簡而言之，總體趨勢是增加人工智能系統(tǒng)的自主權(quán)，隨著自主權(quán)的增加，錯誤的可能性增加。與人工智能安全相關(guān)的問題更可能體現(xiàn)在人工智能系統(tǒng)直接控制其物理和/或數(shù)字環(huán)境而無需人為循環(huán)的情況下 - 自動化工業(yè)流程，自動化金融交易算法，人工智能支持的社交媒體活動政黨，自動駕駛汽車，清潔機器人等。挑戰(zhàn)可能是巨大的，但一線希望是人工智能安全中的具體問題幫助AI社區(qū)了解這些挑戰(zhàn)并就核心問題達成一致。從那里，研究人員可以開始探索策略，以確保我們?nèi)找嫦冗M的系統(tǒng)保持安全和有益。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！