人工智能有一個(gè)大數(shù)據(jù)問(wèn)題以下是解決方法

2020-06-18 16:01:49 編輯：來(lái)源：

導(dǎo)讀毫不夸張地說(shuō)，人工智能已經(jīng)遇到了一個(gè)大數(shù)據(jù)問(wèn)題，而危機(jī)現(xiàn)在已經(jīng)讓這個(gè)問(wèn)題變得不可能再被忽視。對(duì)于企業(yè)、政府和個(gè)人來(lái)說(shuō)，這場(chǎng)全球大流行有效地重新定義了“正?！鄙?但是，盡管我們大多數(shù)人現(xiàn)在已經(jīng)適應(yīng)了這種變化，AI系統(tǒng)卻不能這樣說(shuō)，因?yàn)樗鼈兊念A(yù)測(cè)是建立在過(guò)去的樣子之上的。在CogX 2020大會(huì)上，英國(guó)數(shù)學(xué)家大衛(wèi)·巴伯說(shuō):“人工智能系統(tǒng)的部署目前是笨拙的。通常，你去那里，收集

毫不夸張地說(shuō)，人工智能已經(jīng)遇到了一個(gè)大數(shù)據(jù)問(wèn)題，而危機(jī)現(xiàn)在已經(jīng)讓這個(gè)問(wèn)題變得不可能再被忽視。

對(duì)于企業(yè)、政府和個(gè)人來(lái)說(shuō)，這場(chǎng)全球大流行有效地重新定義了“正?！鄙?但是，盡管我們大多數(shù)人現(xiàn)在已經(jīng)適應(yīng)了這種變化，AI系統(tǒng)卻不能這樣說(shuō)，因?yàn)樗鼈兊念A(yù)測(cè)是建立在過(guò)去的樣子之上的。

在CogX 2020大會(huì)上，英國(guó)數(shù)學(xué)家大衛(wèi)·巴伯說(shuō):“人工智能系統(tǒng)的部署目前是笨拙的。通常，你去那里，收集你的數(shù)據(jù)集，標(biāo)記它，培訓(xùn)系統(tǒng)，然后部署它。就是這樣——你不必重新訪問(wèn)已部署的系統(tǒng)。但如果環(huán)境在變化，這就不好了?！?/p>

巴伯指的是監(jiān)督機(jī)器學(xué)習(xí)，他將其稱為當(dāng)今人工智能的“經(jīng)典范式”，包括通過(guò)實(shí)例來(lái)教算法。在監(jiān)督模型中，人工智能系統(tǒng)被輸入一個(gè)大數(shù)據(jù)集，這些數(shù)據(jù)集之前已經(jīng)被人類標(biāo)記過(guò)，用來(lái)訓(xùn)練技術(shù)識(shí)別模式和做出預(yù)測(cè)。

例如，您可以訓(xùn)練一種算法來(lái)基于個(gè)人收入或信用評(píng)分自動(dòng)化銀行的貸款決策。如果出現(xiàn)，再加上一套全新的銀行模式，人工智能系統(tǒng)很可能無(wú)法決定誰(shuí)能得到這筆錢。

同樣，危機(jī)爆發(fā)幾個(gè)月后，一位美國(guó)研究人員指出，盡管已經(jīng)向算法提供了所有的訓(xùn)練數(shù)據(jù)，但算法對(duì)于理解疫情的性質(zhì)或其在全球的傳播并沒(méi)有多大幫助。

這項(xiàng)研究解釋說(shuō)，由于缺乏關(guān)于過(guò)去的培訓(xùn)數(shù)據(jù)，人工智能工具產(chǎn)生的大多數(shù)預(yù)測(cè)被發(fā)現(xiàn)缺乏可靠性，結(jié)果往往偏離了危機(jī)的嚴(yán)重性。

與此同時(shí)，在healthtech，人工智能健康工具的制造商難以更新自己的算法，原因是缺乏有關(guān)該病毒的相關(guān)數(shù)據(jù)，導(dǎo)致許多“癥狀發(fā)現(xiàn)者”(symptom finder)聊天機(jī)器人出現(xiàn)了一點(diǎn)問(wèn)題。

由于來(lái)自前covid環(huán)境的數(shù)據(jù)不再與現(xiàn)實(shí)世界相匹配，監(jiān)督算法正在耗盡其預(yù)測(cè)所依據(jù)的例子。更糟糕的是，人工智能系統(tǒng)不會(huì)將它們的不確定性告知人類操作員。

巴伯說(shuō):“人工智能不會(huì)告訴你，它實(shí)際上對(duì)自己的預(yù)測(cè)的準(zhǔn)確性沒(méi)有信心，需要人類介入?！薄斑@些系統(tǒng)中有很多不確定因素。因此，當(dāng)人工智能對(duì)自己的決定沒(méi)有信心時(shí)，提醒人類是很重要的?！?/p>

這就是巴伯所說(shuō)的“人工智能同事情境”，在這種情境中，人類和機(jī)器將進(jìn)行互動(dòng)，以確?？瞻撞粫?huì)被填補(bǔ)。事實(shí)上，它是人工智能中的一種方法，正慢慢成為一種特別有效的方法。

它被稱為“主動(dòng)學(xué)習(xí)”，包括在人工智能系統(tǒng)和人類操作員之間建立一種“師-學(xué)”關(guān)系。主動(dòng)學(xué)習(xí)不是向算法提供一個(gè)巨大的標(biāo)記數(shù)據(jù)集，然后讓它得出結(jié)論——通常是以一種不那么透明的方式——而是讓人工智能系統(tǒng)自己做大量的數(shù)據(jù)標(biāo)記，而且最重要的是，當(dāng)它有疑問(wèn)時(shí)提出問(wèn)題。

這個(gè)過(guò)程涉及到一個(gè)小的人工標(biāo)記數(shù)據(jù)池，稱為種子，用于訓(xùn)練算法。人工智能系統(tǒng)隨后會(huì)得到一組更大的未標(biāo)記數(shù)據(jù)，算法會(huì)根據(jù)自己的訓(xùn)練對(duì)其進(jìn)行注釋，然后再將這些新標(biāo)記的數(shù)據(jù)整合回種子中。

當(dāng)工具對(duì)某個(gè)特定的標(biāo)簽沒(méi)有信心時(shí)，它可以以查詢的形式向人工操作人員請(qǐng)求幫助。然后，人類專家做出的選擇會(huì)反饋給系統(tǒng)，以改善整個(gè)學(xué)習(xí)過(guò)程。

主動(dòng)學(xué)習(xí)的直接吸引力在于訓(xùn)練系統(tǒng)所需的標(biāo)記數(shù)據(jù)量要小得多。監(jiān)督算法，因?yàn)樗鼈儾荒茏约簩W(xué)習(xí)，所以需要人類提供大量的帶標(biāo)簽的例子。這意味著需要為任何給定的數(shù)據(jù)集手工標(biāo)記數(shù)十億個(gè)數(shù)據(jù)點(diǎn)，這將是一個(gè)漫長(zhǎng)而昂貴的過(guò)程。

一些平臺(tái)，如亞馬遜的土耳其機(jī)器人，甚至專門將遍布全球的大量低成本勞動(dòng)力連接起來(lái)。他們被稱為“土耳其人”，每天點(diǎn)擊數(shù)千張圖片，按要求注釋數(shù)據(jù)點(diǎn)，所有這些都將用于訓(xùn)練未來(lái)的算法。

另一方面，主動(dòng)學(xué)習(xí)只需要標(biāo)記一個(gè)小的數(shù)據(jù)種子池。事實(shí)上，Barber估計(jì)該過(guò)程所涉及的注釋要少十倍。

他不是唯一一個(gè)發(fā)現(xiàn)這種方法的特殊好處的人。尤其是大型科技公司，它們對(duì)減少為自己的算法提供標(biāo)簽數(shù)據(jù)的數(shù)量有著濃厚的興趣。

Facebook的人工智能部門在開發(fā)一種人工智能學(xué)習(xí)模型和多種應(yīng)用程序上投入了大量資金，包括識(shí)別有害內(nèi)容。這家科技巨頭最近公布的結(jié)果顯示，其人工智能團(tuán)隊(duì)使用一種師生結(jié)合的方法，成功地訓(xùn)練了一種基于10億張未標(biāo)記圖像的圖像分類算法，使用的是“相對(duì)較小的”標(biāo)記數(shù)據(jù)集。

但這不僅僅是關(guān)于減少數(shù)據(jù)標(biāo)記的過(guò)程:主動(dòng)學(xué)習(xí)也比監(jiān)督學(xué)習(xí)更有效。當(dāng)它面對(duì)不確定的數(shù)據(jù)時(shí)，能夠向人類請(qǐng)教如何關(guān)注，這意味著一個(gè)“活躍的”人工智能系統(tǒng)不僅能對(duì)未知做出反應(yīng)，還能從中學(xué)習(xí)。

在內(nèi)容審核的情況下，一個(gè)“主動(dòng)”算法會(huì)做出更明智的決定，因?yàn)樗鼤?huì)越來(lái)越多地學(xué)會(huì)發(fā)現(xiàn)越來(lái)越多的微妙形式的內(nèi)容違規(guī)。一個(gè)“活躍的”人工智能系統(tǒng)在自然語(yǔ)言處理或醫(yī)學(xué)成像方面也會(huì)非常高效。

Barber補(bǔ)充說(shuō)，該技術(shù)的一個(gè)高調(diào)應(yīng)用是在無(wú)人駕駛汽車上，在無(wú)人駕駛汽車上，視頻仍然需要被分割成部分，并標(biāo)記為“行人”、“汽車”、“樹”和其他物體，汽車需要識(shí)別。注釋數(shù)以百萬(wàn)計(jì)的視頻既費(fèi)時(shí)又昂貴;另一方面，讓算法學(xué)習(xí)和提問(wèn)可以顯著加快這一過(guò)程。

而且，當(dāng)全球大流行襲來(lái)時(shí)，“活躍的”人工智能系統(tǒng)將能夠?qū)崟r(shí)整合新的數(shù)據(jù)，以及一些人工輸入，然后調(diào)整它們的預(yù)測(cè)——而不是等待大型數(shù)據(jù)集被人工注釋以供訓(xùn)練。

Barber對(duì)ZDNet表示:“如果你正在使用收集大量數(shù)據(jù)、然后訓(xùn)練深度學(xué)習(xí)模型的傳統(tǒng)方法開發(fā)AI，那么就只能這么快了?！薄霸趥鹘y(tǒng)模式下，不到幾個(gè)月就能有一款新模式投入生產(chǎn)已經(jīng)很幸運(yùn)了。但在主動(dòng)學(xué)習(xí)的情況下，這最多只需要幾天時(shí)間?！?/p>

這位數(shù)學(xué)家與人共同創(chuàng)立了Re:infer公司，該公司利用主動(dòng)學(xué)習(xí)來(lái)幫助企業(yè)更好地理解和自動(dòng)處理每天從供應(yīng)商那里收到的電子郵件、電話和聊天。

傳統(tǒng)上，為這一特定任務(wù)構(gòu)建算法，需要從給定企業(yè)收到的數(shù)千條客戶信息中手動(dòng)標(biāo)記每句話，然后將其作為訓(xùn)練輸入人工智能系統(tǒng)。

然而，使用主動(dòng)學(xué)習(xí)，算法可以快速?gòu)幕A(chǔ)數(shù)據(jù)集中學(xué)習(xí)，并且只向員工展示它不確定的句子。根據(jù)Barber的說(shuō)法，該方法將整個(gè)流程的估值時(shí)間提高了10到100倍。

見:人工智能在診斷中遇到了一個(gè)大數(shù)據(jù)問(wèn)題

在與Barber舉行的同一個(gè)會(huì)議上，倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)教授Emine Yilmaz同意主動(dòng)學(xué)習(xí)具有很大的潛力。她表示:“未來(lái)幾年，我們的目標(biāo)是建立一種人工智能向我們學(xué)習(xí)的模式。”

“一個(gè)系統(tǒng)應(yīng)該能夠說(shuō)，它對(duì)一個(gè)給定的分類是不確定的，它有困難。它應(yīng)該能夠直接向人類提問(wèn)，就像孩子學(xué)習(xí)一樣，”她補(bǔ)充道。

人類與人工智能之間的互動(dòng)達(dá)到了新的水平，這很可能有利于這種算法:耶爾馬茲認(rèn)為，這種方法可能會(huì)克服一些員工對(duì)在工作場(chǎng)所使用這種技術(shù)的恐懼。在這種情況下，主動(dòng)人工智能可以提供一種更溫和的選擇，讓算法充當(dāng)合作者，而不是替代者。

盡管這個(gè)算法同事非常聰明，但它仍然不時(shí)地需要人類的幫助。不管這聽起來(lái)是不是一種自然的工作關(guān)系，“人在回路中”的概念無(wú)疑似乎是對(duì)人工智能大數(shù)據(jù)問(wèn)題的一種改進(jìn)，而且可能是一種解決方案。