Facebook的新AI模式可以同時(shí)分辨五種聲音

2022-07-16 10:11:21 編輯：狄婷凡來(lái)源：

導(dǎo)讀 Facebook研究人員創(chuàng)建了一個(gè)AI模型，該模型可以區(qū)分一個(gè)麥克風(fēng)上同時(shí)講話的五個(gè)語(yǔ)音，而不是任何現(xiàn)有系統(tǒng)。新方法可以改善嘈雜空間中的...

Facebook研究人員創(chuàng)建了一個(gè)AI模型，該模型可以區(qū)分一個(gè)麥克風(fēng)上同時(shí)講話的五個(gè)語(yǔ)音，而不是任何現(xiàn)有系統(tǒng)。新方法可以改善嘈雜空間中的音頻技術(shù)，包括助聽器和語(yǔ)音助手。

人群中的聲音

研究人員在一篇名為《語(yǔ)音分離與多名發(fā)言人數(shù)量未知》的論文中解釋了他們的模型，并將在2020年國(guó)際機(jī)器學(xué)習(xí)大會(huì)上進(jìn)行介紹。科學(xué)家教會(huì)了AI如何使用遞歸神經(jīng)網(wǎng)絡(luò)上的新變量來(lái)區(qū)分不同的聲音，以模擬內(nèi)存并分析音頻，以確定在編碼器網(wǎng)絡(luò)適當(dāng)組織聲音之前有多少人在說(shuō)話。模型訓(xùn)練在2至5個(gè)并發(fā)揚(yáng)聲器上，所有揚(yáng)聲器都只有一個(gè)麥克風(fēng)。

研究人員在論文中解釋說(shuō)：“從同時(shí)發(fā)生的多個(gè)對(duì)話中分離出單個(gè)聲音的能力構(gòu)成了具有挑戰(zhàn)性的感知任務(wù)。”“人類的能力激發(fā)了許多計(jì)算嘗試，早期的許多工作都集中在多個(gè)麥克風(fēng)和無(wú)監(jiān)督學(xué)習(xí)上，例如獨(dú)立成分分析方法。在這項(xiàng)工作中，我們著重于從單個(gè)麥克風(fēng)進(jìn)行有聲語(yǔ)音分離的問(wèn)題，隨著深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)，在性能上有了飛躍。”

聽著

Facebook的研究人員指出，他們的模型可以在幾個(gè)不同的領(lǐng)域增強(qiáng)現(xiàn)有的音頻技術(shù)，例如助聽器。盡管當(dāng)今的助聽器已經(jīng)超越了簡(jiǎn)單地使聲音變大的優(yōu)點(diǎn)，但是使用它們的人仍然很難在嘈雜的情況下聽到與之交談的人的聲音。對(duì)于在聚會(huì)上或有風(fēng)的地方使用助聽器的人來(lái)說(shuō)，隔離不同的聲音并消除多余的聲音是理想的選擇。同樣的技術(shù)還可以為語(yǔ)音助手的重大升級(jí)奠定基礎(chǔ)。一旦AI可以自己分析不同的語(yǔ)音，它便能夠知道是否使用了它的喚醒詞，并且說(shuō)話者提出的請(qǐng)求比當(dāng)前模型要準(zhǔn)確得多。

目前，額外的噪音，甚至一次只有兩個(gè)語(yǔ)音通話，都會(huì)使智能揚(yáng)聲器上的語(yǔ)音助手感到困惑，這就是為什么多家公司追求類似目標(biāo)的原因。例如，谷歌花了很長(zhǎng)時(shí)間開發(fā)“降噪器”，以過(guò)濾掉Google Meet電話中不相關(guān)的噪音。為嘈雜和復(fù)雜的音頻環(huán)境開發(fā)軟件已經(jīng)吸引了像AudioTelligence這樣的初創(chuàng)公司，從風(fēng)險(xiǎn)投資家那里獲得了數(shù)百萬(wàn)美元的資金，用于開發(fā)可以在嘈雜的情況下讓人聽得見的軟件。同時(shí)，TalkTo噪聲過(guò)濾軟件創(chuàng)建的DSP Concepts已通過(guò)亞馬遜認(rèn)證用于Alexa內(nèi)置設(shè)備。Facebook的研究人員現(xiàn)在正在努力將該新模型應(yīng)用于現(xiàn)實(shí)情況，大概是供Facebook最終用于商業(yè)用途，也許將該模型集成到該公司當(dāng)前正在開發(fā)的語(yǔ)音助手中。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！