谷歌利用WaveNet模型的收益聽起來(lái)更自然

2019-06-24 17:58:57 編輯：來(lái)源：

導(dǎo)讀 DeepMind的人工智能人才一直致力于消費(fèi)產(chǎn)品的功能。Business Insider UK高級(jí)技術(shù)記者Sam Shead 表示，谷歌應(yīng)用DeepMind開發(fā)的軟件用于

DeepMind的人工智能人才一直致力于消費(fèi)產(chǎn)品的功能。Business Insider UK高級(jí)技術(shù)記者Sam Shead 表示，谷歌應(yīng)用DeepMind開發(fā)的軟件用于其虛擬助手。

根據(jù)周三發(fā)布的博客文章，人工智能公司DeepMind有一個(gè)適用于美國(guó)英語(yǔ)和日語(yǔ)的WaveNet系統(tǒng)版本。他們說(shuō)，“我們很自豪地宣布，WaveNet的更新版本正用于在所有平臺(tái)上為美國(guó)英語(yǔ)和日語(yǔ)生成Google Assistant語(yǔ)音。”

“谷歌將DeepMind的技術(shù)集成到其產(chǎn)品中的速度很慢，迄今為止只宣布了一個(gè)數(shù)據(jù)中心效率項(xiàng)目，盡管在全球范圍內(nèi)，”Shead說(shuō)。“現(xiàn)在該公司的WaveNet神經(jīng)網(wǎng)絡(luò)正被用于為美國(guó)英語(yǔ)和日語(yǔ)生成Google Assistant語(yǔ)音。”

Google智能助理是由谷歌開發(fā)的虛擬個(gè)人助理。

Pocket-lint將Google 智能助理稱為語(yǔ)音控制智能助手。“它被認(rèn)為是Google Now的升級(jí)版或擴(kuò)展版 - 專為個(gè)人而設(shè)計(jì) - 同時(shí)擴(kuò)展了Google現(xiàn)有的'OK Google'語(yǔ)音控件。”

DeepMind博客文章來(lái)自研究科學(xué)家Tom Walters的研究科學(xué)家Aäronvanden Oord和谷歌語(yǔ)音軟件工程師Trevor Strohman。

他們談?wù)摰母率怯蒁eepMind WaveNet研究和工程團(tuán)隊(duì)以及Google Text-to-Speech團(tuán)隊(duì)完成的。

就在一年多以前，WaveNet被提出，一個(gè)深度神經(jīng)網(wǎng)絡(luò)生成原始音頻波形并能夠產(chǎn)生語(yǔ)音。

它們是如何構(gòu)建的：卷積神經(jīng)網(wǎng)絡(luò)在大量語(yǔ)音樣本數(shù)據(jù)集上進(jìn)行訓(xùn)練。與現(xiàn)有技術(shù)相比，目標(biāo)是更自然的演講。在他們的原始論文中，他們說(shuō)“從頭開始創(chuàng)建單獨(dú)的波形，一次創(chuàng)建一個(gè)樣本，每秒16,000個(gè)樣本，并在各個(gè)聲音之間進(jìn)行無(wú)縫過渡。”

正如博客作者所說(shuō)，“WaveNet顯示出了希望，但不是我們可以在現(xiàn)實(shí)世界中部署的東西。” 對(duì)于消費(fèi)品而言，它“計(jì)算量太大”。團(tuán)隊(duì)忙于改進(jìn)模型。他們表示，它現(xiàn)在可以“大規(guī)模運(yùn)行，是第一款在谷歌最新的TPU云基礎(chǔ)設(shè)施上推出的產(chǎn)品。”

主要收益：

“新改進(jìn)的WaveNet模型仍然可以生成原始波形，但速度比原始模型快1000倍，這意味著只需50毫秒即可創(chuàng)建一秒鐘的語(yǔ)音。”

ExtremeTech的瑞恩·惠特瓦姆(Ryan Whitwam)表示：“DeepMind很快將承諾提供一份完整的論文，詳細(xì)說(shuō)明如何實(shí)現(xiàn)這一目標(biāo)。”

他們?cè)诓┛蜕蠈懙?，根?jù)人類聽眾的測(cè)試，結(jié)果更自然。

Whitwam上周五表示：“發(fā)布時(shí)助手使用的語(yǔ)音模式并不差，但谷歌剛剛推出了英語(yǔ)和日語(yǔ)的大幅改進(jìn)版本。”

該博客有一些有趣的摘要，說(shuō)明該技術(shù)的發(fā)展程度。

至于當(dāng)前的文本到語(yǔ)音系統(tǒng)，他們注意到拼接TTS不僅會(huì)產(chǎn)生不自然的聲音，而且很難修改這些系統(tǒng)：每次有轉(zhuǎn)變時(shí)都需要記錄新的數(shù)據(jù)庫(kù)，例如新的情緒或語(yǔ)調(diào)。

為了克服其中一些問題，他們說(shuō)有時(shí)會(huì)使用替代模型，即參數(shù)化TTS。這種方法使用關(guān)于嘴部運(yùn)動(dòng)和語(yǔ)法的規(guī)則和參數(shù)來(lái)傳遞聲音，這些聲音聽起來(lái)并不完全自然。

有WaveNet。

那么，DeepMind，下一步是什么?他們說(shuō)這只是WaveNet的開始。他們表示，他們對(duì)“語(yǔ)音接口的強(qiáng)大功能現(xiàn)在可以解鎖所有世界語(yǔ)言”的可能性感到興奮。

標(biāo)簽： WaveNet模型