2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
Facebook研究人員創(chuàng)建了一個(gè)AI模型,該模型可以區(qū)分一個(gè)麥克風(fēng)上同時(shí)講話的五個(gè)語音,而不是任何現(xiàn)有系統(tǒng)。新方法可以改善嘈雜空間中的音頻技術(shù),包括助聽器和語音助手。
人群中的聲音
研究人員在一篇名為《語音分離與多名發(fā)言人數(shù)量未知》的論文中解釋了他們的模型,并將在2020年國際機(jī)器學(xué)習(xí)大會(huì)上進(jìn)行介紹??茖W(xué)家教會(huì)了AI如何使用遞歸神經(jīng)網(wǎng)絡(luò)上的新變量來區(qū)分不同的聲音,以模擬內(nèi)存并分析音頻,以確定在編碼器網(wǎng)絡(luò)適當(dāng)組織聲音之前有多少人在說話。模型訓(xùn)練在2至5個(gè)并發(fā)揚(yáng)聲器上,所有揚(yáng)聲器都只有一個(gè)麥克風(fēng)。
研究人員在論文中解釋說:“從同時(shí)發(fā)生的多個(gè)對話中分離出單個(gè)聲音的能力構(gòu)成了具有挑戰(zhàn)性的感知任務(wù)。”“人類的能力激發(fā)了許多計(jì)算嘗試,早期的許多工作都集中在多個(gè)麥克風(fēng)和無監(jiān)督學(xué)習(xí)上,例如獨(dú)立成分分析方法。在這項(xiàng)工作中,我們著重于從單個(gè)麥克風(fēng)進(jìn)行有聲語音分離的問題,隨著深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),在性能上有了飛躍。”
聽著
Facebook的研究人員指出,他們的模型可以在幾個(gè)不同的領(lǐng)域增強(qiáng)現(xiàn)有的音頻技術(shù),例如助聽器。盡管當(dāng)今的助聽器已經(jīng)超越了簡單地使聲音變大的優(yōu)點(diǎn),但是使用它們的人仍然很難在嘈雜的情況下聽到與之交談的人的聲音。對于在聚會(huì)上或有風(fēng)的地方使用助聽器的人來說,隔離不同的聲音并消除多余的聲音是理想的選擇。同樣的技術(shù)還可以為語音助手的重大升級(jí)奠定基礎(chǔ)。一旦AI可以自己分析不同的語音,它便能夠知道是否使用了它的喚醒詞,并且說話者提出的請求比當(dāng)前模型要準(zhǔn)確得多。
目前,額外的噪音,甚至一次只有兩個(gè)語音通話,都會(huì)使智能揚(yáng)聲器上的語音助手感到困惑,這就是為什么多家公司追求類似目標(biāo)的原因。例如,谷歌花了很長時(shí)間開發(fā)“降噪器”,以過濾掉Google Meet電話中不相關(guān)的噪音。為嘈雜和復(fù)雜的音頻環(huán)境開發(fā)軟件已經(jīng)吸引了像AudioTelligence這樣的初創(chuàng)公司,從風(fēng)險(xiǎn)投資家那里獲得了數(shù)百萬美元的資金,用于開發(fā)可以在嘈雜的情況下讓人聽得見的軟件。同時(shí),TalkTo噪聲過濾軟件創(chuàng)建的DSP Concepts已通過亞馬遜認(rèn)證用于Alexa內(nèi)置設(shè)備。Facebook的研究人員現(xiàn)在正在努力將該新模型應(yīng)用于現(xiàn)實(shí)情況,大概是供Facebook最終用于商業(yè)用途,也許將該模型集成到該公司當(dāng)前正在開發(fā)的語音助手中。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。