您的位置: 首頁 >互聯(lián)網(wǎng) >

百度的新文本到語音轉(zhuǎn)換系統(tǒng)可以掌握數(shù)百種口音

2019-05-27 11:42:34 編輯: 來源:
導(dǎo)讀 人工智能領(lǐng)域正在發(fā)生文藝復(fù)興。通過深度學(xué)習(xí),研究人員正在制作能夠識別物體,理解口語,甚至模擬人類聲音的系統(tǒng)。這些系統(tǒng)的質(zhì)量正在以驚

人工智能領(lǐng)域正在發(fā)生文藝復(fù)興。通過深度學(xué)習(xí),研究人員正在制作能夠識別物體,理解口語,甚至模擬人類聲音的系統(tǒng)。這些系統(tǒng)的質(zhì)量正在以驚人的速度發(fā)展。

就在三個(gè)月前,中國搜索巨頭百度展示了Deep Voice,這是一個(gè)將文本轉(zhuǎn)化為語音的系統(tǒng)。它可以產(chǎn)生的語音與第一次收聽時(shí)的實(shí)際人聲幾乎無法區(qū)分,并且可以近乎實(shí)時(shí)地進(jìn)行。但是該系統(tǒng)一次只能學(xué)習(xí)一個(gè)聲音,并且需要多個(gè)小時(shí)的音頻或更多來構(gòu)建樣本。今天公司正在推出Deep Voice 2。它可以用半小時(shí)的音頻來學(xué)習(xí)一個(gè)人聲音的細(xì)微差別,一個(gè)系統(tǒng)可以學(xué)習(xí)模仿數(shù)百個(gè)不同的揚(yáng)聲器。

還記得Siri推出區(qū)域口音需要多長時(shí)間?那是因?yàn)槊總€(gè)新的聲音都需要一個(gè)真實(shí)的人來記錄成千上萬小時(shí)的演講。在那之后,工程師花了很長時(shí)間手動調(diào)整軟件,教它如何說話。Deep Voice 2采用了不同的方法:它學(xué)習(xí)了數(shù)百個(gè)不同揚(yáng)聲器共享的共性,以構(gòu)建人聲模型,然后稍微調(diào)整該模型以制作不同的角色。該系統(tǒng)不需要人工創(chuàng)作者進(jìn)行任何手動調(diào)整。“給它提供正確的數(shù)據(jù),它可以自己學(xué)習(xí)什么樣的功能很重要,”百度硅谷人工智能實(shí)驗(yàn)室研究科學(xué)家安德魯·吉比安斯基說。

百度想象這項(xiàng)技術(shù)對通過語音命令控制的數(shù)字助理非常有用,這些語音命令通過與用戶交談來回應(yīng)。它還看到了電子書等文本到語音應(yīng)用的潛力。“快速合成多種人類聲音的能力將對未來的個(gè)人助理和電子書閱讀器等產(chǎn)品產(chǎn)生巨大影響。例如,當(dāng)您向電子書列出時(shí),您的電子書的每個(gè)角色都可以擁有獨(dú)特的聲音,“該公司在博客文章中寫道。

百度不是唯一一個(gè)探索這個(gè)領(lǐng)域的科技巨頭。去年9月,Google的DeepMind部門發(fā)布了對WaveNet的研究,WaveNet是一種使用深度學(xué)習(xí)技術(shù)構(gòu)建的聲碼器,與傳統(tǒng)的語音合成系統(tǒng)相比,它在音頻質(zhì)量方面取得了巨大的進(jìn)步。初創(chuàng)公司也在這個(gè)市場上發(fā)揮作用。上個(gè)月,一家加拿大創(chuàng)業(yè)公司Lyrebird 展示了一個(gè)系統(tǒng),可以根據(jù)一分鐘的音頻數(shù)據(jù)模仿著名人物的聲音細(xì)微差別。

隨著我們進(jìn)入一個(gè)我們的聲音越來越多地控制我們的小玩意的世界,并期望回復(fù),這項(xiàng)技術(shù)將用于為我們的數(shù)字助理創(chuàng)建各種自定義角色。你更喜歡Siri聽起來像Humphrey Bogart,Hulk Hogan還是Lil Kim?我們在下面的評論中提出建議。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。