您的位置: 首頁 >科技 >

我們?nèi)绾谓虒斯ぶ悄芟到y(tǒng)按照人類目標和價值觀行事

2022-09-09 17:04:41 編輯:詹杰固 來源:
導讀 人工智能安全的核心在于價值對齊問題,許多研究人員使用逆強化學習(IRL)等技術與人工智能系統(tǒng)進行交互,以教授人類價值觀。從理論上講,通...

人工智能安全的核心在于價值對齊問題,許多研究人員使用逆強化學習(IRL)等技術與人工智能系統(tǒng)進行交互,以教授人類價值觀。從理論上講,通過IRL,人工智能系統(tǒng)可以通過觀察人類行為和接收人類反饋來了解人類的價值以及如何最好地幫助他們。

但人類行為并不總是反映人類的價值觀,而人的反饋往往是有偏見的。我們說當我們放松時我們想要健康的食物,但是當我們感到壓力時我們需要油膩的食物。我們不僅經(jīng)常無法按照我們的價值觀生活,而且我們的許多價值觀相互矛盾。例如,我們重視睡眠時間為8小時,但我們經(jīng)常睡得少,因為我們也非常重視努力工作,照顧孩子,保持健康的人際關系。

AI系統(tǒng)可以通過觀察人類來學習很多東西,但由于我們的不一致,一些研究人員擔心使用IRL訓練的系統(tǒng)將從根本上無法區(qū)分值對齊和未對齊的行為。隨著人工智能系統(tǒng)變得越來越強大,這可能變得特別危險:通過觀察人類來推斷錯誤的價值觀或目標可能導致這些系統(tǒng)采取有害行為。

區(qū)分偏見和價值觀

人類未來研究所的研究員Owain Evans和研究非盈利組織Ought的總裁AndreasStuhlmüller探討了IRL在人工智能系統(tǒng)教學中的局限性。特別是,他們的研究揭示了認知偏差如何使AI難以通過互動學習來學習人類偏好。

埃文斯詳細說明:“我們希望代理人追求一些目標,我們希望這套目標與人類目標相吻合。那么問題是,如果代理人只是觀察人類并試圖從他們的行為中找出目標,那么有多少偏見是一個問題?“

在某些情況下,AIs將能夠理解常見偏差的模式。埃文斯和Stuhlmüller討論偏見的心理文學在他們的論文,學習無知,不一致代理的首選項,并在他們的上網(wǎng)本,agentmodels.org。在agentmodels.org中討論的常見模式的一個例子是“時間不一致。”時間不一致是指人們的價值觀和目標根據(jù)您提出要求而改變的想法。換句話說,“你更喜歡未來的自我與未來的自我喜歡的事情之間存在著不一致。”

時間不一致的例子無處不在。例如,如果你在睡覺前問他們,大多數(shù)人都重視早起和鍛煉。但到了早上,當天氣寒冷而且黑暗,他們沒有得到那8小時的睡眠時,他們常常重視床單的舒適性和放松的美德。從早起,到避免酗酒,吃得健康,省錢,人們往往對未來的自我期望更多,而不是未來的自我愿意。

通過系統(tǒng)的,可預測的模式,如時間不一致,IRL可以在AI系統(tǒng)中取得進展。但通常我們的偏見并不那么清楚。根據(jù)埃文斯的說法,破譯哪些行為與某人的價值觀相吻合,以及哪些行為源于偏見是困難的,甚至是不可能的。

“假設你承諾打掃房子,但你得到最后一分鐘與朋友聚會,你無法抗拒,”他建議道。“這是偏見,還是你現(xiàn)在的生活價值?這是僅使用逆強化學習來訓練AI的問題 - 它將如何決定什么是偏差和價值?“

學習“正確”的價值觀

盡管存在這個難題,但理解人類價值觀和偏好對于人工智能系統(tǒng)至關重要,開發(fā)人員對培訓他們的機器以了解這些偏好非常有實際意義。

今天,流行的網(wǎng)站已經(jīng)使用人工智能來學習人類的偏好。例如,通過YouTube和亞馬遜,機器學習算法會觀察您的行為并預測接下來會發(fā)生什么。但是,雖然這些建議通常很有用,但卻會產(chǎn)生意想不到的后果。

以北卡羅來納大學信息與圖書館學院副教授Zeynep Tufekci為例。在觀看了集會的視頻以了解更多關于他的選民的吸引力之后,Tufekci開始在她的“自動播放”隊列中看到民族主義宣傳和大屠殺否認視頻。她很快意識到YouTube的算法經(jīng)過優(yōu)化以保持用戶的參與度,可以預見的是,當用戶觀看更多視頻時,會有更多極端內(nèi)容。這導致她稱之為“偉大的激進者”。

YouTube算法中的這種價值錯位預示著使用更先進的AI系統(tǒng)進行交互式學習的危險。設計師必須能夠優(yōu)化它們以理解我們更深層次的價值觀并改善我們的生活,而不是優(yōu)化先進的人工智能系統(tǒng)以吸引我們的短期愿望和我們對極端的吸引力。

埃文斯建議我們希望人工智能系統(tǒng)可以比人類更好地推理我們的決策,了解我們何時做出有偏見的決策,并“幫助我們更好地追求我們的長期偏好。”然而,這將需要AI提出的建議第一次臉紅對人類來說似乎很糟糕。

人們可以想象一個人工智能系統(tǒng)對商業(yè)計劃提出了明智的,違反直覺的修改,而人類只是覺得它很荒謬?;蛘咭苍S人工智能建議稍微長一點,無壓力的駕駛路線到第一次約會,但焦慮的駕駛員無論如何都采取更快的路線,不相信。

為了幫助人們在這些場景中理解AI,Evans和Stuhlmüller研究了AI系統(tǒng)如何以人類可理解的方式進行推理,并最終可以改進人類推理。

一種方法(由Paul Christiano發(fā)明)被稱為“放大”,人類使用AI來幫助他們更深入地思考決策。埃文斯解釋說:“你想要一個與我們完全一樣的思維系統(tǒng),但它能夠更快,更高效,更可靠地完成。但它應該是一種思維,如果你把它分解成小步驟,人類就能理解并遵循。“

第二個概念被稱為“因素認知” - 將復雜任務分解為小的,可理解的步驟的想法。根據(jù)埃文斯的說法,目前尚不清楚一般因素的認知能否成功。有時人類可以將他們的推理分解為小步驟,但通常我們依賴直覺,這更難分解。

指定問題

Evans和Stuhlmüller已經(jīng)開始了一項關于擴增和因子認知的研究項目,但他們還沒有解決交互式學習中人類偏見的問題 - 相反,他們已經(jīng)著手為其他研究人員精確地解決這些復雜問題。

“這更像是以比以前人們更精確的方式展示這個問題,”埃文斯說。“我們最終獲得了有趣的結果,但從某種意義上說,我們的結果之一就是意識到這很困難,并且理解為什么這很困難。”


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。