2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在預(yù)定于下個(gè)月在國際聲學(xué),語音和信號(hào)處理國際會(huì)議(ICASSP)上發(fā)表的技術(shù)論文中,一組亞馬遜研究人員提出了一種AI驅(qū)動(dòng)的方法來進(jìn)行多源本地化,或者是估計(jì)聲音質(zhì)量的問題。使用麥克風(fēng)音頻定位。他們說,在涉及真實(shí)和模擬數(shù)據(jù)(前者來自AV16.3語料庫)和多達(dá)三個(gè)同時(shí)活動(dòng)的聲源的實(shí)驗(yàn)中,與最新的信號(hào)相比,該方法顯示出將近15%的改進(jìn),處理模型。
解決多源本地化問題是開發(fā)足夠強(qiáng)大的智能揚(yáng)聲器,智能顯示器甚至視頻會(huì)議軟件的必不可少的步驟。這是因?yàn)樗遣ㄊx形的核心,它是一種將信號(hào)(在這種情況下為聲音)聚焦到接收設(shè)備(麥克風(fēng))的技術(shù)。亞馬遜自己的Echo系列產(chǎn)品利用波束賦形來提高語音識(shí)別的準(zhǔn)確性,谷歌的Nest Hub和蘋果的HomePod也是如此。
朝向麥克風(fēng)陣列傳播的聲音將在不同的時(shí)間到達(dá)每個(gè)麥克風(fēng),這種現(xiàn)象可被用來查明聲源的位置。對(duì)于單個(gè)聲源,計(jì)算相對(duì)簡(jiǎn)單,但是對(duì)于多個(gè)聲源,計(jì)算卻成倍地復(fù)雜。
已經(jīng)提出了針對(duì)多源本地化問題的各種AI和機(jī)器學(xué)習(xí)解決方案,但其中許多都有局限性。
當(dāng)可能的聲音數(shù)量超過模型輸出的數(shù)量時(shí),可能會(huì)懷疑哪個(gè)聲音對(duì)應(yīng)哪個(gè)輸出。例如,如果模型學(xué)習(xí)將一組坐標(biāo)與一個(gè)說話者關(guān)聯(lián),并將另一組坐標(biāo)與兩個(gè)其他說話者關(guān)聯(lián),則不清楚當(dāng)另外兩個(gè)說話者同時(shí)講話時(shí)哪個(gè)輸出與哪個(gè)說話者關(guān)聯(lián)。一種解決方案是將麥克風(fēng)陣列周圍的空間表示為3D網(wǎng)格,從而在給定一組輸入信號(hào)的情況下,使模型能夠輸出一種聲音源自每個(gè)網(wǎng)格點(diǎn)的概率。但這具有主要缺點(diǎn),其中主要的困難在于本地化離網(wǎng)資源,創(chuàng)建包含每個(gè)點(diǎn)的所有聲音組合的語料庫以及提高超出網(wǎng)格分辨率的準(zhǔn)確性的困難。
亞馬遜團(tuán)隊(duì)的模型首先將聲音定位到粗略定義的區(qū)域,然后將聲音精確地定位在這些區(qū)域內(nèi)。如果它包含至少一個(gè)源,則認(rèn)為該區(qū)域處于活動(dòng)狀態(tài),并且假定在任何活動(dòng)區(qū)域中最多可以有一個(gè)活動(dòng)源。因?yàn)槊總€(gè)粗略區(qū)域在模型的輸出層中都有一組指定的節(jié)點(diǎn),所以對(duì)于給定區(qū)域中的哪個(gè)聲源與位置估計(jì)相關(guān)聯(lián)不會(huì)有任何歧義。
對(duì)于每個(gè)區(qū)域,模型都會(huì)計(jì)算該區(qū)域包含一個(gè)源的概率,以及源與麥克風(fēng)陣列中心之間的距離以及源相對(duì)于陣列的角度。它從麥克風(fēng)中攝取多通道原始音頻,并輸出上述三個(gè)量,從而是端到端的—該模型處理原始音頻,從而避免了預(yù)處理或后處理的需要。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。