您的位置: 首頁 >科技 >

這一過程不僅減少了別人說嘿Siri觸發(fā)您的iPhone的可能性

2022-09-15 11:40:52 編輯:易融順 來源:
導(dǎo)讀 直到今天,一篇非常有趣的技術(shù)文章還是在 10月1日發(fā)表在Apple的《機器學(xué)習(xí)期刊》博客上。在其中,蘋果詳細說明了不受限制的嘿Siri功能如何...

直到今天,一篇非常有趣的技術(shù)文章還是在 10月1日發(fā)表在Apple的《機器學(xué)習(xí)期刊》博客上。在其中,蘋果詳細說明了不受限制的“嘿Siri”功能如何利用硬件,軟件和iCloud的功能讓客戶免提使用助手。該系統(tǒng)將基于云的語音識別,自然語言解釋和其他服務(wù)與硬件輔助的設(shè)備上處理相結(jié)合。iOS設(shè)備始終運行“非常小的語音識別器”,僅聽“ Hey Siri”短語。

iPhone或Apple Watch中的麥克風(fēng)每秒記錄16,000個瞬時波形樣本流。這就是為什么這樣做不會給您的iPhone電池增加太多負擔(dān)或壟斷RAM和CPU等其他系統(tǒng)資源的原因:

為了避免整日運行主處理器只是為了聽觸發(fā)短語,iPhone的始終在線協(xié)處理器(AOP,它是嵌入在Apple M系列運動協(xié)處理器中的低功耗輔助處理器)可以訪問您的麥克風(fēng)信號iPhone 6s及更高版本。

我們使用AOP有限的有限處理能力中的一小部分來運行帶有小型神經(jīng)網(wǎng)絡(luò)的檢測器。當(dāng)分?jǐn)?shù)超過閾值時,運動協(xié)處理器將喚醒主處理器,該主處理器將使用較大的神經(jīng)網(wǎng)絡(luò)來分析信號。

由于電池較小,Apple Watch僅在其運動協(xié)處理器檢測到手腕抬起手勢時才運行“ Hey Siri”檢測器,從而打開了屏幕,這就是為什么屏幕關(guān)閉時無法在Apple Watch上使用“ Hey Siri” 。

WatchOS會為“ Hey Siri”分配大約有限計算預(yù)算的5%。

那么,他們?nèi)绾螌崟r識別真正的“嘿Siri”熱門短語?

一旦被設(shè)備捕獲,波形就會分解為一系列幀,每個幀描述大約0.01秒的聲譜。一次約有20幀(0.2秒的音頻)被傳遞到深度神經(jīng)網(wǎng)絡(luò)。

在那里,聲音被轉(zhuǎn)換為一組語音聲音類別的概率分布:“嘿Siri”短語中使用的那些聲音類別,以及靜音和其他語音,總共約20種聲音類別。然后,計算出您說出的短語為“ Hey Siri”的置信度得分。

如果分?jǐn)?shù)足夠高,Siri就會醒來。

在iPhone上,他們使用一個神經(jīng)網(wǎng)絡(luò)進行初始檢測(在功率消耗運動芯片上運行),并使用另一個神經(jīng)網(wǎng)絡(luò)作為輔助檢查程序(在主處理器上運行)。為了減少錯誤觸發(fā),Apple還將在“ Hey Siri”注冊過程中將任何新的“ Hey Siri”語音與保存在設(shè)備中的五個短語進行比較。

研究論文解釋說:“這一過程不僅減少了別人說'嘿Siri'觸發(fā)您的iPhone的可能性,而且降低了其他聽起來相似的短語觸發(fā)Siri的速度。”

該設(shè)備還將波形上傳到Siri服務(wù)器。

如果在云中運行的主要語音識別器聽到的聲音不是“ Hey Siri”(例如“ Hey認(rèn)真地”,“ Hey敘利亞”或類似的東西),則服務(wù)器會向電話發(fā)送取消信號以將其放回睡覺。

“在某些系統(tǒng)上,我們在設(shè)備上運行主語音識別器的簡化版本,以便更早提供額外的檢查,” Apple指出。我認(rèn)為,“某些系統(tǒng)”是指連接電源的設(shè)備,例如Mac,Apple TV甚至iPad。

上圖:穿過“ Hey Siri”檢測器的聲學(xué)模式,最底部顯示了來自麥克風(fēng)的波形的頻譜圖。將頂部顯示的最終分?jǐn)?shù)與閾值進行比較,以決定是否激活Siri。

該閾值本身就是動態(tài)值,因為Apple希望讓用戶在困難的條件下激活Siri-如果它錯過了真正的“ Hey Siri”事件,則系統(tǒng)將進入更敏感的狀態(tài)幾秒鐘。在此期間重復(fù)該短語將觸發(fā)Siri。

以下是他們訓(xùn)練“ Hey Siri”探測器的聲學(xué)模型的方式:

早在有Hey Siri功能之前,一小部分用戶會在請求開始時說“ Hey Siri”,方法是先按下按鈕。我們在英語探測器模型的初始訓(xùn)練中使用了此類“嘿Siri”語音。

我們還包括用于訓(xùn)練主要語音識別器的一般語音示例。在這兩種情況下,我們都在訓(xùn)練短語上使用了自動轉(zhuǎn)錄。Siri團隊成員檢查了轉(zhuǎn)錄的子集的準(zhǔn)確性。

在美式英語中,聲學(xué)模型甚至考慮了“ Siri”中不同的第一個元音,一個在“嚴(yán)重”中,另一個在“ Syria”中。

訓(xùn)練一個模型大約需要一天的時間,并且通常在任何一次訓(xùn)練中都有幾個模型。他們通常會訓(xùn)練三個版本:用于運動芯片第一次通過的小型模型,用于第二次通過的大尺寸模型以及用于Apple Watch的中型模型。

最后一個花絮:該系統(tǒng)也經(jīng)過訓(xùn)練,可以識別本地化的“ Hey Siri”短語。

例如,說法語的用戶說“ Dis Siri”。在韓國,他們說“ Siri?”,聽起來像“ Siri Ya”。講俄語的用戶使用“приветSiri”短語(諸如“ Privet Siri”之類的聲音)和泰語“” Siri”(諸如“ Wadi Siri”之類的聲音)。

蘋果公司說:“我們特別在各種條件下(例如在廚房(近處和遠處),汽車,臥室和餐廳中)以各種母語的人進行錄音,”

他們甚至使用多種語言的播客和Siri輸入來表示背景聲音(尤其是語音)和“用戶可能對另一個人說的短語”。

“下一次您說'嘿Siri'時,您可能會想到使對該詞組做出響應(yīng)的所有事情,但我們希望它'行之有效',”蘋果很好地總結(jié)了這一點。

高度技術(shù)性的文章提供了對我們視為理所當(dāng)然的“ Hey Siri”技術(shù)的迷人見解,因此,如果您有興趣了解更多信息,請務(wù)必對其進行閱讀或保存,以備日后使用。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。