亞馬遜的人工智能改善了語音的情感檢測

2022-09-01 03:56:51 編輯：印福茗來源：

導讀從某人聲音的音調(diào)中可以得到很多東西，這是一種自然的情感管道。情緒有一系列的應用：它可以通過幫助檢測癡呆或心臟病發(fā)作的早期跡象來幫...

從某人聲音的音調(diào)中可以得到很多東西，這是一種自然的情感管道。情緒有一系列的應用：它可以通過幫助檢測癡呆或心臟病發(fā)作的早期跡象來幫助健康監(jiān)測，它有可能使會話AI系統(tǒng)更吸引人和更有反應。總有一天，情感甚至可能提供隱性反饋，幫助谷歌助理、蘋果Siri和亞馬遜Alexa等語音助理從錯誤中吸取教訓。

情緒分類人工智能并不是什么新的東西，但傳統(tǒng)的方法是受監(jiān)督的，這意味著他們攝入根據(jù)說話者的情緒狀態(tài)標記的訓練數(shù)據(jù)。亞馬遜的科學家們最近采取了一種不同的方法，他們在一篇預定在聲學、語音和信號處理國際會議上發(fā)表的論文中描述了這一點。他們沒有提供一個詳盡注釋的“情感”語料庫來教授一個系統(tǒng)，而是提供了一個對抗性的自動編碼器，一個公開可用的數(shù)據(jù)集，其中包含來自10個不同說話者的10，000個話語。結(jié)果呢? 神經(jīng)網(wǎng)絡在判斷人們聲音中的價態(tài)或情感價值方面的準確性高達4%。

這項研究基于亞馬遜Alexa團隊正在進行的努力，從用戶的聲音中可靠地確定用戶的情緒或情緒狀態(tài)。

正如論文合著者和Alexa語言組高級應用科學家Viktor Rozgic在一篇博客文章中解釋的那樣，對抗性自動編碼器是由編碼器組成的兩部分模型，它學習產(chǎn)生編碼訓練示例所有屬性的輸入語音的緊湊(或潛在)表示，以及一個解碼器，它從緊湊表示中重建輸入。

研究人員的情緒表示由三個網(wǎng)絡節(jié)點組成，三個情緒度量中的每一個節(jié)點：價態(tài)、激活(無論說話人是警覺的、參與的還是被動的)和支配(無論說話人是否感覺到控制了情況)。培訓分三個階段進行，第一階段包括使用沒有標簽的數(shù)據(jù)單獨培訓編碼器和解碼器。在第二階段，對抗性訓練-一種技術，在這種技術中，對抗性鑒別器試圖區(qū)分編碼器產(chǎn)生的真實表示調(diào)整編碼器。在第三階段，編碼器被調(diào)諧以確保潛在的情感表示預測訓練數(shù)據(jù)的情感標簽。

在涉及句子級特征表示的“手工工程”來捕獲關于語音信號的信息的實驗中，研究人員報告說，他們的人工智能系統(tǒng)在評估價態(tài)方面比常規(guī)訓練的網(wǎng)絡了3%的更好的準確性。此外，他們說，當網(wǎng)絡被提供一系列表示20毫秒幀或音頻片段的聲學特性時，改進是4%。

亞馬遜不是唯一一家研究改進的基于語音的情感檢測的公司，值得注意。麻省理工學院媒體實驗室SpinoffAffectiva最近展示了一個神經(jīng)網(wǎng)絡，SoundNet，它可以在1.2秒內(nèi)從音頻數(shù)據(jù)中對憤怒進行分類-就在人類感知憤怒所需的時間內(nèi)-而不管說話者的語言如何。同時，創(chuàng)業(yè)公司Cogito的AI被退伍事務部用來分析創(chuàng)傷后應激障礙退伍的聲音，以確定他們是否需要立即幫助。

標簽：

免責聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！