亞馬遜的AI使用麥克風(fēng)陣列來定位房間中的多個(gè)揚(yáng)聲器

2022-07-18 11:07:21 編輯：上官菁飄來源：

導(dǎo)讀在預(yù)定于下個(gè)月在國際聲學(xué)，語音和信號(hào)處理國際會(huì)議(ICASSP)上發(fā)表的技術(shù)論文中，一組亞馬遜研究人員提出了一種AI驅(qū)動(dòng)的方法來進(jìn)行多源...

在預(yù)定于下個(gè)月在國際聲學(xué)，語音和信號(hào)處理國際會(huì)議(ICASSP)上發(fā)表的技術(shù)論文中，一組亞馬遜研究人員提出了一種AI驅(qū)動(dòng)的方法來進(jìn)行多源本地化，或者是估計(jì)聲音質(zhì)量的問題。使用麥克風(fēng)音頻定位。他們說，在涉及真實(shí)和模擬數(shù)據(jù)(前者來自AV16.3語料庫)和多達(dá)三個(gè)同時(shí)活動(dòng)的聲源的實(shí)驗(yàn)中，與最新的信號(hào)相比，該方法顯示出將近15%的改進(jìn)，處理模型。

解決多源本地化問題是開發(fā)足夠強(qiáng)大的智能揚(yáng)聲器，智能顯示器甚至視頻會(huì)議軟件的必不可少的步驟。這是因?yàn)樗遣ㄊx形的核心，它是一種將信號(hào)(在這種情況下為聲音)聚焦到接收設(shè)備(麥克風(fēng))的技術(shù)。亞馬遜自己的Echo系列產(chǎn)品利用波束賦形來提高語音識(shí)別的準(zhǔn)確性，谷歌的Nest Hub和蘋果的HomePod也是如此。

朝向麥克風(fēng)陣列傳播的聲音將在不同的時(shí)間到達(dá)每個(gè)麥克風(fēng)，這種現(xiàn)象可被用來查明聲源的位置。對(duì)于單個(gè)聲源，計(jì)算相對(duì)簡(jiǎn)單，但是對(duì)于多個(gè)聲源，計(jì)算卻成倍地復(fù)雜。

已經(jīng)提出了針對(duì)多源本地化問題的各種AI和機(jī)器學(xué)習(xí)解決方案，但其中許多都有局限性。

當(dāng)可能的聲音數(shù)量超過模型輸出的數(shù)量時(shí)，可能會(huì)懷疑哪個(gè)聲音對(duì)應(yīng)哪個(gè)輸出。例如，如果模型學(xué)習(xí)將一組坐標(biāo)與一個(gè)說話者關(guān)聯(lián)，并將另一組坐標(biāo)與兩個(gè)其他說話者關(guān)聯(lián)，則不清楚當(dāng)另外兩個(gè)說話者同時(shí)講話時(shí)哪個(gè)輸出與哪個(gè)說話者關(guān)聯(lián)。一種解決方案是將麥克風(fēng)陣列周圍的空間表示為3D網(wǎng)格，從而在給定一組輸入信號(hào)的情況下，使模型能夠輸出一種聲音源自每個(gè)網(wǎng)格點(diǎn)的概率。但這具有主要缺點(diǎn)，其中主要的困難在于本地化離網(wǎng)資源，創(chuàng)建包含每個(gè)點(diǎn)的所有聲音組合的語料庫以及提高超出網(wǎng)格分辨率的準(zhǔn)確性的困難。

亞馬遜團(tuán)隊(duì)的模型首先將聲音定位到粗略定義的區(qū)域，然后將聲音精確地定位在這些區(qū)域內(nèi)。如果它包含至少一個(gè)源，則認(rèn)為該區(qū)域處于活動(dòng)狀態(tài)，并且假定在任何活動(dòng)區(qū)域中最多可以有一個(gè)活動(dòng)源。因?yàn)槊總€(gè)粗略區(qū)域在模型的輸出層中都有一組指定的節(jié)點(diǎn)，所以對(duì)于給定區(qū)域中的哪個(gè)聲源與位置估計(jì)相關(guān)聯(lián)不會(huì)有任何歧義。

對(duì)于每個(gè)區(qū)域，模型都會(huì)計(jì)算該區(qū)域包含一個(gè)源的概率，以及源與麥克風(fēng)陣列中心之間的距離以及源相對(duì)于陣列的角度。它從麥克風(fēng)中攝取多通道原始音頻，并輸出上述三個(gè)量，從而是端到端的—該模型處理原始音頻，從而避免了預(yù)處理或后處理的需要。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！