2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。
在可能發(fā)生意外情況的場景中部署的AI代理越多,則實現目標就需要更多的靈活性,適應性和創(chuàng)造性。因此,為了使AI足夠健壯和靈活到可以在實際場景中成功部署,必須有一定程度的自由選擇特定目標的最佳路徑。
當AI系統(tǒng)解決難以解決的問題時,傳統(tǒng)的基于規(guī)則的方法無法準確地定義解決方案,而AI中越來越多地使用數據驅動和/或學習方法時,尤其如此。實際上,數據驅動的AI系統(tǒng)(例如使用機器學習的 AI系統(tǒng))在準確性和靈活性方面非常成功,并且它們在解決問題,尋找可能給人類帶來驚喜的解決方案方面非常“有創(chuàng)意”,并可以教給他們創(chuàng)新的方法解決挑戰(zhàn)。
但是,無國界的創(chuàng)造力和自由有時會導致不期望的行動:人工智能系統(tǒng)可能會以受災社區(qū)的價值觀和規(guī)范認為不可接受的方式實現其目標。因此,越來越需要了解如何通過提供系統(tǒng)必須在其中操作的邊界來約束AI系統(tǒng)的動作。這通常稱為“值對齊”問題,因為此類邊界應為特定AI應用程序場景所需的值和原理建模。
在IBM Research,我們研究和評估了兩種使AI系統(tǒng)符合道德原則的方法:
第一種使用相同的形式主義來建模和組合主觀偏好(以實現服務個性化)和道德優(yōu)先級(以實現價值一致)。偏好與道德優(yōu)先級之間的距離的概念用于決定是否可以僅由偏好來決定行動,或者當偏好與這些優(yōu)先級過于不同時,是否需要考慮其他道德優(yōu)先級。
第二種方法采用強化學習方法(在匪徒問題范圍內)以實現報酬最大化,并從正面和負面的例子中學習道德準則。我們在父母的指導下在電影推薦中測試了這種方法,并從生活質量的角度選擇了藥物劑量。
描述我們的整體方法以及解決價值一致性問題的兩種可能方法的論文將在即將舉行的AAAI 2019大會上發(fā)表,并將獲得AAAI 2019藍天創(chuàng)意獎。在這里能找到它。
這項工作是長期工作的一部分,旨在了解如何與MIT合作將道德原則嵌入到AI系統(tǒng)中。盡管在研究中將倫理優(yōu)先事項建模為義務論約束,但IBM-MIT團隊目前正在收集人類偏好數據,以模擬人類如何遵循并在不同的倫理學理論(如功利主義,義務論和契約論)之間切換。然后將倫理學理論和適當適應的轉換機制設計到AI系統(tǒng)中。這樣,這樣的系統(tǒng)將能夠更好地與人們推理和遵循道德行為的方式保持一致 同時做出決策,從而可以更好地適應以增強的人工智能方法與人類自然而緊湊地互動。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。