百度的新文本到語音轉(zhuǎn)換系統(tǒng)可以掌握數(shù)百種口音

2019-05-27 11:42:34 編輯：來源：

導(dǎo)讀人工智能領(lǐng)域正在發(fā)生文藝復(fù)興。通過深度學(xué)習(xí)，研究人員正在制作能夠識別物體，理解口語，甚至模擬人類聲音的系統(tǒng)。這些系統(tǒng)的質(zhì)量正在以驚

人工智能領(lǐng)域正在發(fā)生文藝復(fù)興。通過深度學(xué)習(xí)，研究人員正在制作能夠識別物體，理解口語，甚至模擬人類聲音的系統(tǒng)。這些系統(tǒng)的質(zhì)量正在以驚人的速度發(fā)展。

就在三個(gè)月前，中國搜索巨頭百度展示了Deep Voice，這是一個(gè)將文本轉(zhuǎn)化為語音的系統(tǒng)。它可以產(chǎn)生的語音與第一次收聽時(shí)的實(shí)際人聲幾乎無法區(qū)分，并且可以近乎實(shí)時(shí)地進(jìn)行。但是該系統(tǒng)一次只能學(xué)習(xí)一個(gè)聲音，并且需要多個(gè)小時(shí)的音頻或更多來構(gòu)建樣本。今天公司正在推出Deep Voice 2。它可以用半小時(shí)的音頻來學(xué)習(xí)一個(gè)人聲音的細(xì)微差別，一個(gè)系統(tǒng)可以學(xué)習(xí)模仿數(shù)百個(gè)不同的揚(yáng)聲器。

還記得Siri推出區(qū)域口音需要多長時(shí)間?那是因?yàn)槊總€(gè)新的聲音都需要一個(gè)真實(shí)的人來記錄成千上萬小時(shí)的演講。在那之后，工程師花了很長時(shí)間手動調(diào)整軟件，教它如何說話。Deep Voice 2采用了不同的方法：它學(xué)習(xí)了數(shù)百個(gè)不同揚(yáng)聲器共享的共性，以構(gòu)建人聲模型，然后稍微調(diào)整該模型以制作不同的角色。該系統(tǒng)不需要人工創(chuàng)作者進(jìn)行任何手動調(diào)整。“給它提供正確的數(shù)據(jù)，它可以自己學(xué)習(xí)什么樣的功能很重要，”百度硅谷人工智能實(shí)驗(yàn)室研究科學(xué)家安德魯·吉比安斯基說。

百度想象這項(xiàng)技術(shù)對通過語音命令控制的數(shù)字助理非常有用，這些語音命令通過與用戶交談來回應(yīng)。它還看到了電子書等文本到語音應(yīng)用的潛力。“快速合成多種人類聲音的能力將對未來的個(gè)人助理和電子書閱讀器等產(chǎn)品產(chǎn)生巨大影響。例如，當(dāng)您向電子書列出時(shí)，您的電子書的每個(gè)角色都可以擁有獨(dú)特的聲音，“該公司在博客文章中寫道。

百度不是唯一一個(gè)探索這個(gè)領(lǐng)域的科技巨頭。去年9月，Google的DeepMind部門發(fā)布了對WaveNet的研究，WaveNet是一種使用深度學(xué)習(xí)技術(shù)構(gòu)建的聲碼器，與傳統(tǒng)的語音合成系統(tǒng)相比，它在音頻質(zhì)量方面取得了巨大的進(jìn)步。初創(chuàng)公司也在這個(gè)市場上發(fā)揮作用。上個(gè)月，一家加拿大創(chuàng)業(yè)公司Lyrebird 展示了一個(gè)系統(tǒng)，可以根據(jù)一分鐘的音頻數(shù)據(jù)模仿著名人物的聲音細(xì)微差別。

隨著我們進(jìn)入一個(gè)我們的聲音越來越多地控制我們的小玩意的世界，并期望回復(fù)，這項(xiàng)技術(shù)將用于為我們的數(shù)字助理創(chuàng)建各種自定義角色。你更喜歡Siri聽起來像Humphrey Bogart，Hulk Hogan還是Lil Kim?我們在下面的評論中提出建議。

標(biāo)簽：新文本到語音轉(zhuǎn)換系統(tǒng)