AI Systems如何理解人類價(jià)值觀

2022-09-09 18:46:10 編輯：汪樹保來源：

導(dǎo)讀機(jī)器學(xué)習(xí)(ML)算法已經(jīng)能夠比他們正在為之工作的人更好地識別模式。這使他們能夠在各種高風(fēng)險(xiǎn)情況下生成預(yù)測并做出決策。例如，電工使用IBM...

機(jī)器學(xué)習(xí)(ML)算法已經(jīng)能夠比他們正在為之工作的人更好地識別模式。這使他們能夠在各種高風(fēng)險(xiǎn)情況下生成預(yù)測并做出決策。例如，電工使用IBM Watson的預(yù)測功能來預(yù)測客戶的需求;優(yōu)步的自動(dòng)駕駛系統(tǒng)確定哪條路線能夠讓乘客最快到達(dá)目的地;和Insilico Medicine利用其藥物發(fā)現(xiàn)引擎確定新藥的途徑。

隨著數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)系統(tǒng)不斷發(fā)展，根據(jù)技術(shù)改進(jìn)定義“成功”是很容易的，例如增加算法可以合成的數(shù)據(jù)量，從而提高其模式識別的效率。然而，要使ML系統(tǒng)真正成功，他們需要了解人類的價(jià)值觀。更重要的是，他們需要能夠權(quán)衡我們的競爭欲望和要求，了解我們最重視的結(jié)果，并采取相應(yīng)的行動(dòng)。

理解價(jià)值觀

為了突出該種我們的ML系統(tǒng)已經(jīng)具有競爭倫理決策，凱伊Sotala，在芬蘭的研究人員對工作的基礎(chǔ)性研究所，轉(zhuǎn)變?yōu)榱髁糠治龊妥詣?dòng)駕駛汽車。是否應(yīng)該使用收費(fèi)公路以減少通勤五分鐘，或者為了省錢而采取更長的路線會(huì)更好嗎?

回答這個(gè)問題并不像看起來那么容易。

例如，A人可能更喜歡花費(fèi)5美元的收費(fèi)公路，如果它可以節(jié)省5分鐘，但如果花費(fèi)10美元，他們可能不想走收費(fèi)公路。另一方面，B人可能總是喜歡采用最短的路線，而不管價(jià)格如何，因?yàn)樗麄冎匾晻r(shí)間高于一切。

在這種情況下，索塔拉指出，我們最終要求ML系統(tǒng)確定人類更重視什么：時(shí)間或金錢。因此，對于快速采取什么樣的道路來說，似乎是一個(gè)簡單的問題就變成了對競爭價(jià)值的復(fù)雜分析。“有人可能會(huì)想，'好吧，行車方向只是關(guān)于效率。我會(huì)讓AI系統(tǒng)告訴我最好的方法。但另一個(gè)人可能會(huì)覺得采用不同的方法有一定的價(jià)值，“他說。

雖然ML系統(tǒng)必須權(quán)衡我們的價(jià)值并在所有決策中做出權(quán)衡，但索塔拉指出，目前這不是一個(gè)問題。系統(tǒng)正在處理的任務(wù)非常簡單，研究人員能夠手動(dòng)輸入必要的價(jià)值信息。然而，隨著AI代理人的復(fù)雜性增加，Sotala解釋說他們需要能夠自己解釋和權(quán)衡我們的價(jià)值觀。

了解基于效用的代理

在談到整合價(jià)值觀時(shí)，Sotala指出問題歸結(jié)為智能代理商如何做出決策。例如，恒溫器是一種反射劑。它知道何時(shí)開始加熱房屋，因?yàn)樵O(shè)定的預(yù)定溫度 - 恒溫器在低于某一溫度時(shí)打開加熱系統(tǒng)，當(dāng)溫度超過一定溫度時(shí)關(guān)閉加熱系統(tǒng)。另一方面，基于目標(biāo)的代理商根據(jù)實(shí)現(xiàn)特定目標(biāo)做出決策。例如，目標(biāo)是購買購物清單上的所有商品的代理商將繼續(xù)搜索，直到找到每件商品。

基于效用的代理是基于目標(biāo)的代理的一個(gè)步驟。他們可以處理以下權(quán)衡：獲得牛奶比今天換新鞋更重要。然而，我離雜貨店比鞋店更近，兩家商店即將關(guān)閉。我更有可能及時(shí)獲得鞋子而不是牛奶。“在每個(gè)決策點(diǎn)，基于目標(biāo)的代理商都會(huì)看到他們必須選擇的一些選項(xiàng)。每個(gè)選項(xiàng)都與特定的“效用”或獎(jiǎng)勵(lì)相關(guān)聯(lián)。為了實(shí)現(xiàn)目標(biāo)，代理商遵循最大化總獎(jiǎng)勵(lì)的決策路徑。

從技術(shù)角度來看，基于效用的代理依靠“效用函數(shù)”來做出決策。這些是系統(tǒng)用于合成數(shù)據(jù)，平衡變量和最大化獎(jiǎng)勵(lì)的公式。最終，給予最多回報(bào)的決策路徑是系統(tǒng)被教導(dǎo)選擇以完成其任務(wù)的決策路徑。

雖然這些實(shí)用程序擅長于查找模式和響應(yīng)獎(jiǎng)勵(lì)，但Sotala聲稱當(dāng)前基于效用的代理程序假設(shè)一組固定的優(yōu)先級。因此，當(dāng)涉及未來的AGI系統(tǒng)時(shí)，這些方法是不夠的，AGI系統(tǒng)將自動(dòng)行動(dòng)，因此需要更加復(fù)雜地了解人類的價(jià)值何時(shí)發(fā)生變化和轉(zhuǎn)變。

例如，一個(gè)人可能總是重視走更長的路線以避開高速公路并省錢，但如果他們心臟病發(fā)作并試圖去急診室則不會(huì)。當(dāng)我們的時(shí)間和金錢價(jià)值發(fā)生變化時(shí)，AI代理人應(yīng)該如何預(yù)測和理解?這個(gè)問題更加復(fù)雜，因?yàn)檎缢魉赋龅哪菢?，人們?jīng)常重視事物，無論他們是否有持續(xù)的，有形的獎(jiǎng)勵(lì)。有時(shí)，人類甚至?xí)匾暱赡茉谀承┓矫嬖斐蓚Φ氖挛??？紤]一個(gè)重視隱私的成年人，但其醫(yī)生或治療師可能需要訪問親密且深刻的個(gè)人信息 - 這些信息可能會(huì)挽救生命。AI代理人是否應(yīng)該透露私人信息?

最終，Sotala解釋說，基于效用的代理太簡單了，并沒有找到人類行為的根源。“效用函數(shù)描述的是行為而不是行為的原因...。它們更像是一種描述性模型，假設(shè)我們已經(jīng)大致知道了這個(gè)人的選擇。”雖然描述模型可能會(huì)認(rèn)識到乘客更愿意存錢，但它不會(huì)理解為什么，所以它無法預(yù)測或決定其他價(jià)值何時(shí)覆蓋“省錢”。

AI代理創(chuàng)建女王

Sotala的核心是強(qiáng)調(diào)，基本問題是確保人工智能系統(tǒng)能夠發(fā)現(xiàn)管理我們價(jià)值觀的模型。這將允許他們使用這些模型來確定在遇到新的和未預(yù)料到的情況時(shí)如何應(yīng)對。正如索塔拉所解釋的那樣，“人工智能將需要有模型，使他們能夠在完全新穎的情況下粗略地弄清楚我們的評估，人類可能不會(huì)事先知道這些情況可能出現(xiàn)的價(jià)值情況。”

在某些領(lǐng)域，人工智能系統(tǒng)通過在沒有人為輸入的情況下揭示我們的世界模型而使人類感到驚訝。作為一個(gè)早期的例子，Sotala引用了“單詞嵌入”的研究，其中AI系統(tǒng)的任務(wù)是將句子分類為有效或無效。為了完成該分類任務(wù)，系統(tǒng)識別出某些單詞之間的關(guān)系。例如，當(dāng)AI代理注意到男性/女性對單詞的維度時(shí)，它創(chuàng)建了一種關(guān)系，允許它從“王”變?yōu)?ldquo;女王”，反之亦然。

從那時(shí)起，已經(jīng)有系統(tǒng)學(xué)習(xí)了更復(fù)雜的模型和關(guān)聯(lián)。例如，OpenAI最近的GPT-2系統(tǒng)已經(jīng)過培訓(xùn)，可以閱讀一些寫作，然后編寫可能跟隨它的文本。當(dāng)提示“今天的家庭作業(yè)，請描述內(nèi)戰(zhàn)的原因”時(shí)，它寫的東西類似于關(guān)于內(nèi)戰(zhàn)的高中文章。當(dāng)?shù)玫?ldquo;Legolas和Gimli在獸人身上前進(jìn)，用令人痛苦的戰(zhàn)爭口號提升武器”的提示時(shí)，它會(huì)在其輸出中寫出聽起來像指環(huán)王的小說，包括Aragorn，Gandalf和Rivendell等名字。。

索塔拉指出，在這兩種情況下，人工智能代理“都沒有嘗試像人類一樣學(xué)習(xí)，但是它試圖用任何有效的方法來完成它的任務(wù)，結(jié)果證明它構(gòu)造了一個(gè)非常類似于人類理解的方法。世界。”

AI系統(tǒng)有明顯的好處，能夠自動(dòng)學(xué)習(xí)更好的數(shù)據(jù)表示方式，并在此過程中開發(fā)出符合人類價(jià)值觀的模型。當(dāng)人類無法確定如何映射和隨后建模值時(shí)，AI系統(tǒng)可以識別模式并自己創(chuàng)建適當(dāng)?shù)哪Ｐ?。然而，相反的情況也可能發(fā)生 - 一個(gè)AI代理人可以構(gòu)建一些似乎是人類關(guān)聯(lián)和價(jià)值觀的準(zhǔn)確模型，但實(shí)際上是危險(xiǎn)的錯(cuò)位。

例如，假設(shè)AI代理人了解到人類想要快樂，并且為了最大限度地提高人類的幸福感，它將我們的大腦連接到提供電刺激的計(jì)算機(jī)上，這些電腦會(huì)讓我們感受到持續(xù)的快樂。在這種情況下，系統(tǒng)理解人類重視幸福，但它沒有適當(dāng)?shù)哪Ｐ蛠肀硎拘腋Ｈ绾闻c其他競爭價(jià)值如自由相對應(yīng)。“從某種意義上說，它讓我們快樂并消除所有痛苦，但與此同時(shí)，人們會(huì)覺得'不，這不是我所說的人工智能應(yīng)該讓我們開心的意思，'”索塔拉指出。

因此，我們不能依賴代理人發(fā)現(xiàn)模式的能力，并從這種模式中創(chuàng)建一個(gè)準(zhǔn)確的人類價(jià)值模型。對于AI系統(tǒng)，研究人員需要能夠?qū)θ祟悆r(jià)值進(jìn)行建模并對其進(jìn)行精確建模。

制定更好的定義

鑒于我們的競爭需求和偏好，很難對任何一個(gè)人的價(jià)值進(jìn)行建模。結(jié)合并同意普遍適用于所有人的價(jià)值，然后成功地為AI系統(tǒng)建模，似乎是一項(xiàng)不可能完成的任務(wù)。然而，已經(jīng)提出了幾種解決方案，例如反強(qiáng)化學(xué)習(xí)或試圖推斷人類道德發(fā)展的未來。然而，索塔拉指出，這些解決方案不足。正如他在最近的一篇論文中所闡述的那樣，“這些提議中沒有一個(gè)提供了對人類價(jià)值究竟是什么的令人滿意的定義，這對于任何試圖建立旨在學(xué)習(xí)這些價(jià)值觀的人工智能系統(tǒng)的嘗試都是一個(gè)嚴(yán)重的缺點(diǎn)。”

為了解決這個(gè)問題，Sotala開發(fā)了一個(gè)替代的人類價(jià)值初步定義，可用于設(shè)計(jì)價(jià)值學(xué)習(xí)代理。在他的論文中，索塔拉認(rèn)為，價(jià)值觀不應(yīng)該被定義為靜態(tài)概念，而應(yīng)該被定義為在人類改變，成長和接受“獎(jiǎng)勵(lì)”的許多情況下單獨(dú)和獨(dú)立地考慮的變量。

Sotala斷言，在進(jìn)化理論和強(qiáng)化學(xué)習(xí)方面，我們的偏好最終可能會(huì)得到更好的理解。為了證明這一推理的合理性，他解釋說，在人類歷史進(jìn)程中，人們進(jìn)化為追求可能導(dǎo)致某些結(jié)果的活動(dòng) - 這些結(jié)果往往會(huì)改善我們祖先的健康狀況。今天，他指出人類仍然更喜歡這些結(jié)果，即使他們不再能夠最大化我們的健康。在這方面，隨著時(shí)間的推移，我們也學(xué)會(huì)享受和渴望似乎可能導(dǎo)致高回報(bào)狀態(tài)的心理狀態(tài)，即使他們不這樣做。

因此，我們的偏好不是直接映射到獎(jiǎng)勵(lì)的特定值，而是映射到我們對獎(jiǎng)勵(lì)的期望。

Sotala聲稱這個(gè)定義在嘗試將人類價(jià)值觀編入機(jī)器時(shí)很有用，因?yàn)橥ㄟ^這種人類心理模型得知的價(jià)值學(xué)習(xí)系統(tǒng)會(huì)理解新體驗(yàn)可以改變一個(gè)人的大腦分類為“可能導(dǎo)致獎(jiǎng)勵(lì)”的狀態(tài)。 Sotala的工作，機(jī)器智能研究所概述了這種框架的好處。他們說：“將有關(guān)人類心理動(dòng)態(tài)的這些事實(shí)考慮在內(nèi)的價(jià)值學(xué)習(xí)系統(tǒng)可能會(huì)更好地考慮我們未來的偏好，而不是僅針對目前的偏好進(jìn)行優(yōu)化。”

Sotala承認(rèn)，這種建模價(jià)值形式并不完美。首先，本文只是對人類價(jià)值觀進(jìn)行定義的初步嘗試，這仍然為未來的研究留下了許多細(xì)節(jié)。研究人員仍然需要回答與價(jià)值如何隨時(shí)間演變和變化等相關(guān)的經(jīng)驗(yàn)問題。一旦所有的經(jīng)驗(yàn)問題得到解答，研究人員就需要應(yīng)對那些沒有客觀答案的哲學(xué)問題，比如這些價(jià)值應(yīng)該如何解釋，以及它們應(yīng)該如何指導(dǎo)AGI的決策。

在解決這些哲學(xué)問題時(shí)，索塔拉指出，前進(jìn)的道路可能只是為了獲得盡可能多的共識。“我傾向于認(rèn)為沒有任何真正的事實(shí)，哪些價(jià)值觀是正確的，以及將它們組合起來的正確方法是什么，”他解釋道。“我們應(yīng)該努力尋找盡可能多的人能夠達(dá)成共識的方式，而不是試圖找到客觀正確的方法。”

自從發(fā)表這篇論文以來，Sotala一直在研究一種不同的人類價(jià)值建模方法，這種方法基于將人類視為多智能體系統(tǒng)的前提。這種方法已被發(fā)表為一系列不太錯(cuò)誤的文章。Future of Humanity Institute的Stuart Armstrong還有一個(gè)相關(guān)但獨(dú)立的研究議程，其重點(diǎn)是將人類偏好綜合成更復(fù)雜的效用函數(shù)。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！