您的位置: 首頁(yè) >科技 >

這一過程不僅減少了別人說(shuō)嘿Siri觸發(fā)您的iPhone的可能性

2022-09-15 11:40:52 編輯:易融順 來(lái)源:
導(dǎo)讀 直到今天,一篇非常有趣的技術(shù)文章還是在 10月1日發(fā)表在Apple的《機(jī)器學(xué)習(xí)期刊》博客上。在其中,蘋果詳細(xì)說(shuō)明了不受限制的嘿Siri功能如何...

直到今天,一篇非常有趣的技術(shù)文章還是在 10月1日發(fā)表在Apple的《機(jī)器學(xué)習(xí)期刊》博客上。在其中,蘋果詳細(xì)說(shuō)明了不受限制的“嘿Siri”功能如何利用硬件,軟件和iCloud的功能讓客戶免提使用助手。該系統(tǒng)將基于云的語(yǔ)音識(shí)別,自然語(yǔ)言解釋和其他服務(wù)與硬件輔助的設(shè)備上處理相結(jié)合。iOS設(shè)備始終運(yùn)行“非常小的語(yǔ)音識(shí)別器”,僅聽“ Hey Siri”短語(yǔ)。

iPhone或Apple Watch中的麥克風(fēng)每秒記錄16,000個(gè)瞬時(shí)波形樣本流。這就是為什么這樣做不會(huì)給您的iPhone電池增加太多負(fù)擔(dān)或壟斷RAM和CPU等其他系統(tǒng)資源的原因:

為了避免整日運(yùn)行主處理器只是為了聽觸發(fā)短語(yǔ),iPhone的始終在線協(xié)處理器(AOP,它是嵌入在Apple M系列運(yùn)動(dòng)協(xié)處理器中的低功耗輔助處理器)可以訪問您的麥克風(fēng)信號(hào)iPhone 6s及更高版本。

我們使用AOP有限的有限處理能力中的一小部分來(lái)運(yùn)行帶有小型神經(jīng)網(wǎng)絡(luò)的檢測(cè)器。當(dāng)分?jǐn)?shù)超過閾值時(shí),運(yùn)動(dòng)協(xié)處理器將喚醒主處理器,該主處理器將使用較大的神經(jīng)網(wǎng)絡(luò)來(lái)分析信號(hào)。

由于電池較小,Apple Watch僅在其運(yùn)動(dòng)協(xié)處理器檢測(cè)到手腕抬起手勢(shì)時(shí)才運(yùn)行“ Hey Siri”檢測(cè)器,從而打開了屏幕,這就是為什么屏幕關(guān)閉時(shí)無(wú)法在Apple Watch上使用“ Hey Siri” 。

WatchOS會(huì)為“ Hey Siri”分配大約有限計(jì)算預(yù)算的5%。

那么,他們?nèi)绾螌?shí)時(shí)識(shí)別真正的“嘿Siri”熱門短語(yǔ)?

一旦被設(shè)備捕獲,波形就會(huì)分解為一系列幀,每個(gè)幀描述大約0.01秒的聲譜。一次約有20幀(0.2秒的音頻)被傳遞到深度神經(jīng)網(wǎng)絡(luò)。

在那里,聲音被轉(zhuǎn)換為一組語(yǔ)音聲音類別的概率分布:“嘿Siri”短語(yǔ)中使用的那些聲音類別,以及靜音和其他語(yǔ)音,總共約20種聲音類別。然后,計(jì)算出您說(shuō)出的短語(yǔ)為“ Hey Siri”的置信度得分。

如果分?jǐn)?shù)足夠高,Siri就會(huì)醒來(lái)。

在iPhone上,他們使用一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行初始檢測(cè)(在功率消耗運(yùn)動(dòng)芯片上運(yùn)行),并使用另一個(gè)神經(jīng)網(wǎng)絡(luò)作為輔助檢查程序(在主處理器上運(yùn)行)。為了減少錯(cuò)誤觸發(fā),Apple還將在“ Hey Siri”注冊(cè)過程中將任何新的“ Hey Siri”語(yǔ)音與保存在設(shè)備中的五個(gè)短語(yǔ)進(jìn)行比較。

研究論文解釋說(shuō):“這一過程不僅減少了別人說(shuō)'嘿Siri'觸發(fā)您的iPhone的可能性,而且降低了其他聽起來(lái)相似的短語(yǔ)觸發(fā)Siri的速度。”

該設(shè)備還將波形上傳到Siri服務(wù)器。

如果在云中運(yùn)行的主要語(yǔ)音識(shí)別器聽到的聲音不是“ Hey Siri”(例如“ Hey認(rèn)真地”,“ Hey敘利亞”或類似的東西),則服務(wù)器會(huì)向電話發(fā)送取消信號(hào)以將其放回睡覺。

“在某些系統(tǒng)上,我們?cè)谠O(shè)備上運(yùn)行主語(yǔ)音識(shí)別器的簡(jiǎn)化版本,以便更早提供額外的檢查,” Apple指出。我認(rèn)為,“某些系統(tǒng)”是指連接電源的設(shè)備,例如Mac,Apple TV甚至iPad。

上圖:穿過“ Hey Siri”檢測(cè)器的聲學(xué)模式,最底部顯示了來(lái)自麥克風(fēng)的波形的頻譜圖。將頂部顯示的最終分?jǐn)?shù)與閾值進(jìn)行比較,以決定是否激活Siri。

該閾值本身就是動(dòng)態(tài)值,因?yàn)锳pple希望讓用戶在困難的條件下激活Siri-如果它錯(cuò)過了真正的“ Hey Siri”事件,則系統(tǒng)將進(jìn)入更敏感的狀態(tài)幾秒鐘。在此期間重復(fù)該短語(yǔ)將觸發(fā)Siri。

以下是他們訓(xùn)練“ Hey Siri”探測(cè)器的聲學(xué)模型的方式:

早在有Hey Siri功能之前,一小部分用戶會(huì)在請(qǐng)求開始時(shí)說(shuō)“ Hey Siri”,方法是先按下按鈕。我們?cè)谟⒄Z(yǔ)探測(cè)器模型的初始訓(xùn)練中使用了此類“嘿Siri”語(yǔ)音。

我們還包括用于訓(xùn)練主要語(yǔ)音識(shí)別器的一般語(yǔ)音示例。在這兩種情況下,我們都在訓(xùn)練短語(yǔ)上使用了自動(dòng)轉(zhuǎn)錄。Siri團(tuán)隊(duì)成員檢查了轉(zhuǎn)錄的子集的準(zhǔn)確性。

在美式英語(yǔ)中,聲學(xué)模型甚至考慮了“ Siri”中不同的第一個(gè)元音,一個(gè)在“嚴(yán)重”中,另一個(gè)在“ Syria”中。

訓(xùn)練一個(gè)模型大約需要一天的時(shí)間,并且通常在任何一次訓(xùn)練中都有幾個(gè)模型。他們通常會(huì)訓(xùn)練三個(gè)版本:用于運(yùn)動(dòng)芯片第一次通過的小型模型,用于第二次通過的大尺寸模型以及用于Apple Watch的中型模型。

最后一個(gè)花絮:該系統(tǒng)也經(jīng)過訓(xùn)練,可以識(shí)別本地化的“ Hey Siri”短語(yǔ)。

例如,說(shuō)法語(yǔ)的用戶說(shuō)“ Dis Siri”。在韓國(guó),他們說(shuō)“ Siri?”,聽起來(lái)像“ Siri Ya”。講俄語(yǔ)的用戶使用“приветSiri”短語(yǔ)(諸如“ Privet Siri”之類的聲音)和泰語(yǔ)“” Siri”(諸如“ Wadi Siri”之類的聲音)。

蘋果公司說(shuō):“我們特別在各種條件下(例如在廚房(近處和遠(yuǎn)處),汽車,臥室和餐廳中)以各種母語(yǔ)的人進(jìn)行錄音,”

他們甚至使用多種語(yǔ)言的播客和Siri輸入來(lái)表示背景聲音(尤其是語(yǔ)音)和“用戶可能對(duì)另一個(gè)人說(shuō)的短語(yǔ)”。

“下一次您說(shuō)'嘿Siri'時(shí),您可能會(huì)想到使對(duì)該詞組做出響應(yīng)的所有事情,但我們希望它'行之有效',”蘋果很好地總結(jié)了這一點(diǎn)。

高度技術(shù)性的文章提供了對(duì)我們視為理所當(dāng)然的“ Hey Siri”技術(shù)的迷人見解,因此,如果您有興趣了解更多信息,請(qǐng)務(wù)必對(duì)其進(jìn)行閱讀或保存,以備日后使用。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。