Microsoft Azure 人工智能認知服務首席技術官黃學東表示,該公司基于“自定義神經語音”技術的文本轉語音(TTS)功能已經正式推出。據悉,自 2019 年 9 月開放預覽以來,這項技術已被 AT&T、多鄰國、Progressive 和瑞士電信等組織用于開發讓客戶感到滿意的品牌語音解決方案。

(來自:Microsoft)
黃學東表示,開發者可使用其音頻數據和深度神經網絡(DNN)打造個性化的語音體驗。不過這項技術的切實突破,體現在能夠高效利用深度學習技術來處理文本,以確保 TTS 發音和韻律的準確無誤。
所謂韻律,特指每個音素的音調和持續時間。微軟 AI 技術研究人員將之無縫地結合到了一起,以盡可能地再現類似真人的語音。此外,自定義神經語音技術能夠帶來較傳統 TTS 語音轉換更自然的效果。
具體說來是,微軟借助了“語音字庫”(Voice Fonts)和多種神經網絡,來確保持續時間和每個因素音調的準確性,讓機器學習模型推導出聽起來更自然的合成語音。
Getting started with Custom Neural Voice(via)
對此感興趣的客戶,只需將其錄制的基礎語音庫上傳到 Custom Neural Voice 平臺展開模型訓練,然后就能產出自然的合成語音,且期間無需開發者的更多干預。
微軟詳細介紹了包括華納兄弟和 AT&T 在內的多家公司的實際用例,比如你可以在達拉斯的 AT&T 體驗店與 Bugs Bunny 展開互動。
對于語音助手、客服聊天機器人、有聲書朗讀、以及在線學習等應用場景來說,這項技術顯得特別實用。不過為了防止被惡意利用,微軟還是決定對其開放有限的訪問。
除了需要預先獲得批準,微軟還計劃在合成語音中加入數字水印,以便人們可據此分辨聽到的是由 Custom Neural Voice 技術創建的合成語音內容。
特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。