午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

重磅 | 蘋(píng)果發(fā)布最新論文: 揭秘Siri新聲音背后的技術(shù)(文末福利)

 dxw555 2017-08-24




2011 年 10 月,在 iPhone 4S 的發(fā)布會(huì),Siri 作為首款語(yǔ)音助手,驚艷亮相,然而 6 年過(guò)后,Siri 卻依舊不溫不火,為此,蘋(píng)果在最新的 iOS 11 中為 Siri 增加了更多的新功能,而且 Siri 合成的聲音也更加自然流暢。


近日,蘋(píng)果在自家的“Apple Machine Learning Journal”的博客上發(fā)表了三篇論文,詳細(xì)解釋了 Siri 聲音背后有關(guān)深度學(xué)習(xí)的技術(shù)細(xì)節(jié)。其中,《Deep Learning for Siri's Voice:On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis 》可讀性為最強(qiáng),價(jià)值含量也比較高,AI科技大本營(yíng)在第一時(shí)間對(duì)該論文進(jìn)行編譯,希望對(duì)你有用。



簡(jiǎn)介


從輔助技術(shù)到游戲娛樂(lè),語(yǔ)音合成的應(yīng)用非常廣泛。最近,將語(yǔ)音識(shí)別和語(yǔ)音合成相結(jié)合,已經(jīng)成為包括 Siri 在內(nèi)的虛擬個(gè)人助理的重要組成部分。


關(guān)于語(yǔ)音合成,目前業(yè)界里用的比較多的基本上是這兩種技術(shù):?jiǎn)卧暨x(unit selection)和參數(shù)合成(parametric synthesis)。


在給定足夠多的高品質(zhì)語(yǔ)音數(shù)據(jù)的前提下,單元挑選合成(Unit selection synthesis)能夠產(chǎn)生最高質(zhì)量的聲音,因此這種方法是目前商業(yè)產(chǎn)品中使用最廣泛的語(yǔ)音合成技術(shù)。


而另一方面,參數(shù)合成可以合成明白易懂而且非常流利的語(yǔ)音,但是這種方法有個(gè)缺陷,那就是聲音的整體質(zhì)量較低。


因此,當(dāng)語(yǔ)料庫(kù)較小或者內(nèi)存空間不夠時(shí),我們通常會(huì)使用參數(shù)合成?,F(xiàn)代單元挑選系統(tǒng)結(jié)合了以上兩種方法的一些優(yōu)點(diǎn),因此被稱為混合系統(tǒng)。這種混合單元挑選方法和經(jīng)典單元挑選技術(shù)類似,但是前者使用了參數(shù)的方法來(lái)預(yù)測(cè)應(yīng)該選擇那些單元。


最近,深度學(xué)習(xí)在語(yǔ)音方面取得了突破,大大超過(guò)了包括隱馬爾可夫模型(HMM)在內(nèi)的傳統(tǒng)技術(shù)。參數(shù)綜合從深度學(xué)習(xí)技術(shù)中獲益良多。此外,深度學(xué)習(xí)的出現(xiàn),也使得一種全新的語(yǔ)音合成方法——直接波形建模(例如使用 WaveNet)——成為可能,這種方法有同時(shí)提供高質(zhì)量的單元挑選合成的高質(zhì)量以及參數(shù)合成的靈活性的潛力。然而,這種方法需要極高的計(jì)算成本,因此還不能應(yīng)用到生產(chǎn)系統(tǒng)中去。


為了讓 Siri 在全平臺(tái)上都能具備高質(zhì)量的合成聲音,蘋(píng)果公司正在設(shè)備端上推進(jìn)深度學(xué)習(xí)在混合單元挑選系統(tǒng)中的應(yīng)用。



語(yǔ)音合成的原理


為個(gè)人助理搭建一個(gè)高質(zhì)量的 TTS(文本轉(zhuǎn)語(yǔ)音)系統(tǒng)并不是一件容易的事。首先,我們需要找一個(gè)專門(mén)的聲優(yōu),他的聲音不僅聽(tīng)起來(lái)要清晰明白,而且還要讓人愉悅,并且符合 Siri 的個(gè)性。為了覆蓋各種人類聲音,我們首先要在專業(yè)的工作室里錄制 10~20 個(gè)小時(shí)的語(yǔ)音內(nèi)容。從音頻書(shū)籍到導(dǎo)航指令,從有趣的答案到詼諧的笑話,錄音腳本的內(nèi)容幾乎無(wú)所不包。通常,這種自然語(yǔ)音不能按照錄制的方式使用,因?yàn)樗豢赡芨采w到所有可能的問(wèn)題。因此,單元挑選TTS 是基于將錄音切割成基本單元,比如半音素(half-phones),然后將這些基本單元重新組合以創(chuàng)建全新的語(yǔ)音。在實(shí)際操作過(guò)程中,選擇合適的語(yǔ)音片段并將它們組合起來(lái)并不容易,因?yàn)槊總€(gè)音素(phone)的聲學(xué)特性取決于相鄰的音素和語(yǔ)音的韻律,這通常使得語(yǔ)音單元彼此不兼容。圖1展示了如何使用由半音素組成的語(yǔ)音數(shù)據(jù)庫(kù)來(lái)合成語(yǔ)音。


圖1:使用半音素的單元選擇語(yǔ)音合成圖示。 合成語(yǔ)音“單位選擇合成”及其使用半音素的語(yǔ)音轉(zhuǎn)錄過(guò)程如圖上半部分所示,相應(yīng)的合成波形及其頻譜如圖下半部分所示,由線分隔的語(yǔ)音段是數(shù)據(jù)庫(kù)中的連續(xù)語(yǔ)音段,這些語(yǔ)段可能包含一個(gè)或多個(gè)半音素。


單位選擇 TTS 的基本問(wèn)題是找到滿足輸入文本和預(yù)測(cè)目標(biāo)韻律的單元序列(例如半音素),前提是這些單元可以連接在一起,并且不存在可聽(tīng)見(jiàn)的刺音。 


傳統(tǒng)上,這個(gè)過(guò)程由兩個(gè)明顯的階段組成:前端和后端(見(jiàn)圖2),盡管在現(xiàn)代系統(tǒng)中,前端和后端之間的邊界有時(shí)可能是模糊的。 前端的目的是根據(jù)原始文本輸入提供語(yǔ)音轉(zhuǎn)錄和韻律信息,這包括標(biāo)準(zhǔn)化原始文本,由于原始文本可能包括數(shù)字、縮寫(xiě)等,我們需將它們表示為標(biāo)準(zhǔn)的文字,并為每個(gè)單詞分配音標(biāo),以及從文本中解析語(yǔ)法、音節(jié)、單詞、重讀和與語(yǔ)句劃分有關(guān)的信息。請(qǐng)注意,前端具有高度的語(yǔ)言依賴性。


圖2. 從文本到語(yǔ)音的合成過(guò)程


借助由文本分析模塊生成的符號(hào)語(yǔ)言表征,韻律生成模塊可以預(yù)測(cè)聲學(xué)特征值,例如語(yǔ)調(diào)和持續(xù)時(shí)間,這些值用于選擇適當(dāng)?shù)膯螁卧?單元選擇的任務(wù)十分復(fù)雜,現(xiàn)代語(yǔ)音合成系統(tǒng)采用機(jī)器學(xué)習(xí)方法來(lái)學(xué)習(xí)文本與語(yǔ)音之間的對(duì)應(yīng)關(guān)系,然后根據(jù)不可見(jiàn)文本的特征值預(yù)測(cè)語(yǔ)音特征的值。


因此,我們必須使用大量文本和語(yǔ)音數(shù)據(jù)來(lái)訓(xùn)練階段該模型的合成系統(tǒng)。韻律模型的輸入是數(shù)字語(yǔ)言特征,如轉(zhuǎn)換為方便的數(shù)值形式的音素同一性、音素上下文、音節(jié),單詞和短語(yǔ)級(jí)位置特征。模型的輸出由語(yǔ)音的數(shù)字聲學(xué)特征組成,如頻譜、基頻和音素持續(xù)時(shí)間。


在合成階段,訓(xùn)練后的統(tǒng)計(jì)模型將輸入的文本特征映射到語(yǔ)音特征中,然后用這些語(yǔ)音特征指導(dǎo)單元選擇后端過(guò)程,在此過(guò)程中適當(dāng)?shù)恼Z(yǔ)調(diào)和持續(xù)時(shí)間至關(guān)重要。


與前端相反,后端大多是語(yǔ)言無(wú)關(guān)的。它由單元選擇和波形拼接組成。當(dāng)系統(tǒng)經(jīng)過(guò)訓(xùn)練后,錄制的語(yǔ)音數(shù)據(jù)通過(guò)錄制語(yǔ)音和錄音腳本之間的強(qiáng)制對(duì)準(zhǔn)(使用語(yǔ)音識(shí)別聲學(xué)模型)被分割成單獨(dú)的語(yǔ)音段。


分段語(yǔ)音用于生成單元數(shù)據(jù)庫(kù),然后我們?cè)偈褂弥匾庞眠M(jìn)一步擴(kuò)大單位數(shù)據(jù)庫(kù),如每個(gè)單元的語(yǔ)境和聲學(xué)特征。我們將這些數(shù)據(jù)稱為單位索引。利用構(gòu)建的單元數(shù)據(jù)庫(kù)和指導(dǎo)選擇過(guò)程的預(yù)測(cè)韻律特征,系統(tǒng)會(huì)在語(yǔ)音單元空間中執(zhí)行維特比搜索(Viterbi search),以找出合成單位的最佳路徑(見(jiàn)圖3)。


圖3:利用維特比搜索找出格子中單元的最佳合成路徑的圖示。圖3頂部是需要進(jìn)行合成的目標(biāo)半音素,下面每個(gè)框?qū)?yīng)一個(gè)單獨(dú)的單元。連接所選單元的線表示維特比搜索找到的最佳路徑。


該選擇基于兩個(gè)標(biāo)準(zhǔn):


  1. 單元必須遵照目標(biāo)韻律;

  2. 單元應(yīng)該盡可能拼接起來(lái),并且確保單元邊界處無(wú)聽(tīng)得見(jiàn)的刺聲。這兩個(gè)標(biāo)準(zhǔn)分別被稱為目標(biāo)損失(target costs)和拼接損失(concatenation costs)。目標(biāo)損失是預(yù)測(cè)目標(biāo)聲音特征與從每個(gè)單元中提取出來(lái)的聲音特征(儲(chǔ)存在單元索引中)之間的差異。而拼接損失則是結(jié)果單元(consequent units,見(jiàn)圖4)之間的差異??倱p失的計(jì)算公式如下所示:



其中“un”是第 n 個(gè)單元,N 是單元的數(shù)量,“wt”和“wc”分別代表目標(biāo)損失權(quán)重和拼接損失權(quán)重。在確定了最佳單元序列之后,系統(tǒng)會(huì)對(duì)單獨(dú)單元波形進(jìn)行拼接以生成連續(xù)地合成語(yǔ)音。


圖4. 基于目標(biāo)損失和拼接損失的單元選擇方法



Siri 新聲音背后的技術(shù)


由于 HMM 直接對(duì)聲音參數(shù)的分布進(jìn)行建模,因此它常被用作為目標(biāo)預(yù)測(cè)任務(wù)中的統(tǒng)計(jì)模型,例如用 Kullback-Leibler 發(fā)散來(lái)計(jì)算目標(biāo)損失很容易。但是在參數(shù)語(yǔ)音合成上,基于深度學(xué)習(xí)的方法通常要比 HMM 更好,同時(shí)我們也希望可以將深度學(xué)習(xí)的優(yōu)勢(shì)轉(zhuǎn)移到混合單元挑選合成中。


Siri 的 TTS 系統(tǒng)的目標(biāo)是訓(xùn)練出一個(gè)基于深度學(xué)習(xí)的一體化模型,該模型可以自動(dòng)準(zhǔn)確預(yù)測(cè)數(shù)據(jù)庫(kù)中單元的目標(biāo)損失和拼接損失。我們沒(méi)有采用 HMM ,而是使用深度的混合密度網(wǎng)絡(luò)(mixture density network,MDN )來(lái)預(yù)測(cè)特征值的分布。MDN 是卷積深度神經(jīng)網(wǎng)絡(luò)(DNN)和高斯混合模型(Gaussian mixture models,GMM)的組合。


卷積 DNN 是一種人工神經(jīng)網(wǎng)絡(luò),它的輸入層和輸出層之間有很多隱藏的神經(jīng)元層。DNN 可以對(duì)輸入特征和輸出特征之間的復(fù)雜非線性關(guān)系進(jìn)行建模。使用反向傳播法調(diào)整網(wǎng)絡(luò)的權(quán)重,是訓(xùn)練 DNN 的常用方法。與 DNN 相反,在給定一系列高斯分布的輸入數(shù)據(jù)下,GMM 對(duì)輸出數(shù)據(jù)的概率分布進(jìn)行建模,而 GMM 的訓(xùn)練通常采用最大期望算法(Expectation maximization,EM)。


MDN 則使用 DNN 對(duì)輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的復(fù)雜關(guān)系進(jìn)行建模,但是將概率分布作為輸出(見(jiàn)圖5),它很好地結(jié)合了 DNN 和 GMM 各自的優(yōu)點(diǎn)。


圖5:用于建模指導(dǎo)單元選擇合成的語(yǔ)音特征均值和偏差的深度混合密度網(wǎng)絡(luò)


在 Siri 的開(kāi)發(fā)中,我們使用了一種基于 MDN 的一體化目標(biāo)和拼接模型,這個(gè)模型可以預(yù)測(cè)語(yǔ)音特征(波譜、音調(diào)和時(shí)長(zhǎng))以及單元間的拼接損失,為單元搜索提供指導(dǎo)。由于 MDN 的輸出形式為高斯概率分布,我們可以將概率作為目標(biāo)損失和拼接損失的損失函數(shù):



在這個(gè)損失函數(shù)中, xi 是第 i 個(gè)目標(biāo)特征,μi 是預(yù)測(cè)的均值,σi2 是預(yù)測(cè)的偏差。在實(shí)際成本計(jì)算中,使用負(fù)對(duì)數(shù)似然值(negative log-likelihood),以及消除常量項(xiàng)更易于計(jì)算,然后我們就得出以下這個(gè)簡(jiǎn)化后的成本函數(shù):



其中wi為特征權(quán)重。


當(dāng)我們考慮語(yǔ)音的自然度時(shí),這種方法的優(yōu)勢(shì)會(huì)愈發(fā)明顯。有時(shí)語(yǔ)音特征(如共振峰)相當(dāng)穩(wěn)定,其演變也很緩慢,例如元音就是這樣。


而有些時(shí)候語(yǔ)音的變化非常快,例如有聲語(yǔ)音和無(wú)聲語(yǔ)音之間的轉(zhuǎn)變。考慮到這種變化性,模型需要能夠根據(jù)前面提到的變化性對(duì)其參數(shù)作出調(diào)整,深度 MDN 的做法是在模型中嵌入方差。


由于預(yù)測(cè)的參數(shù)是依賴于上下文的,我們可以將它們視為損失的自動(dòng)上下文權(quán)重。這對(duì)改進(jìn)語(yǔ)音合成質(zhì)量很重要,因?yàn)槲覀兿M茚槍?duì)當(dāng)前的上下文計(jì)算其目標(biāo)損失和拼接損失??倱p失為目標(biāo)損失和拼接損失的加權(quán)和:



在上面這個(gè)公式中,wt 和 wc 分別為目標(biāo)損失和拼接損失的權(quán)重。在最終的公式中,目標(biāo)損失的作用是確保在合成語(yǔ)音中正確復(fù)制韻律(語(yǔ)調(diào)和時(shí)長(zhǎng)),拼接損失的作用是確保韻律的流暢和拼接的平滑。


在使用深度 MDN 根據(jù)總成本對(duì)單元進(jìn)行評(píng)分后,我們通過(guò)傳統(tǒng)的維特比(Viterbi)搜索尋找單元的最佳路徑。然后,我們使用波形相似重疊相加算法(waveform similarity overlap-add,WSOLA)找出最佳拼接時(shí)刻,以此生成平滑且連續(xù)合成語(yǔ)音。



結(jié)論


我們?yōu)?nbsp;Siri 的新聲音搭建了一整套基于深度 MDN 系統(tǒng)的 TTS 混合單元挑選系統(tǒng)。用于訓(xùn)練的語(yǔ)音數(shù)據(jù)包括在 48KHz 的頻率下采樣的不少于 15 小時(shí)錄音。


我們采取了強(qiáng)制對(duì)齊的方式將這些語(yǔ)音數(shù)據(jù)分割成了一系列的半音素(half-phones),即自動(dòng)語(yǔ)音識(shí)別,它將輸入的語(yǔ)音序列與從語(yǔ)音信號(hào)中提取出的聲學(xué)特征進(jìn)行對(duì)準(zhǔn)。這個(gè)分割的過(guò)程根據(jù)語(yǔ)音數(shù)據(jù)的數(shù)量產(chǎn)生了1~2百萬(wàn)的半音素單元。


為了引導(dǎo)這個(gè)單元選擇的過(guò)程,我們采用了深度 MDN 架構(gòu)來(lái)訓(xùn)練統(tǒng)一的目標(biāo)和級(jí)聯(lián)模型。其中,深度 MDN 的輸入主要由一系列具備額外的連續(xù)性特征的二進(jìn)制數(shù)值構(gòu)成。


這些特征代表了一系列在語(yǔ)句中多元音素(quinphones)信息(2個(gè)前向、當(dāng)前以及2個(gè)后續(xù)音素),音節(jié)、單詞、短語(yǔ)和句級(jí)的信息,以及額外的重讀和強(qiáng)調(diào)特征。而輸出向量則主要由以下幾種聲學(xué)特征組成:美爾倒譜系數(shù)(MFCCs),美爾差分倒譜系數(shù)(delta-MFCCs),基頻(fundamental frequency - f0)和差分基頻(delta-f0)(包含每個(gè)單元的開(kāi)始和結(jié)束的值),以及每個(gè)單元的持續(xù)時(shí)間。


由于我們采取了 MDN 作為我們的聲學(xué)模型,因此輸出上還包含了作為自動(dòng)上下文相關(guān)權(quán)重的每個(gè)特征的方差值。


另外,由于語(yǔ)音區(qū)域的基頻處理高度依賴語(yǔ)句的整體性,因此為了讓合成的語(yǔ)音中能夠具備自然而又活潑的語(yǔ)調(diào),我們采用了一種更為復(fù)雜的深層 MDN 對(duì) f0 特征進(jìn)行建模。


這個(gè)用于訓(xùn)練的深度 MDN 網(wǎng)絡(luò)架構(gòu)包含了 3 個(gè)由 512 個(gè) ReLU 單元組成的隱藏層,用于處理其非線性特征。此外,輸入和輸出的特征都在訓(xùn)練前進(jìn)行了均值化和方差歸一化處理。最終的單元挑選聲音(unit selection voice)由包含特征和每個(gè)單元的語(yǔ)音數(shù)據(jù)的單元數(shù)據(jù)庫(kù)、以及訓(xùn)練好的深度 MDN 模型組成。


新的 TTS 系統(tǒng)的聲音質(zhì)量要優(yōu)于過(guò)去的 Siri 系統(tǒng)。在一次主觀性的 AB 測(cè)試中,被測(cè)者們明顯更加傾向于基于深度 MDN 所產(chǎn)生的聲音。我們將結(jié)果展示在圖6 中。更好的聲音質(zhì)量可歸功于 TTS 系統(tǒng)的多重改進(jìn),例如,基于深度 MDN 的后端系統(tǒng)能夠挑選出更好的選擇和級(jí)聯(lián)單元,更高的采樣率(22kHz vs 48kHz),還有更好的音頻壓縮。


圖6:AB 主觀性測(cè)試的結(jié)果,相對(duì)于老聲音,新聲音在評(píng)比中更勝一籌。


由于 TTS 系統(tǒng)需要在移動(dòng)設(shè)備上運(yùn)行,我們采用了快速預(yù)選、單元修剪及并行計(jì)算技術(shù)來(lái)提升其運(yùn)行速度、內(nèi)存占用及空間占用等一系列運(yùn)行表現(xiàn)。



新的聲音


在 iOS 11 中, 為了提升 Siri 聲音的自然度及表達(dá)能力,我們選擇了一位新的女性聲優(yōu)來(lái)到達(dá)這個(gè)目的。在選出最好的候選人之前,我們?cè)u(píng)估了上百位的候選人,然后錄制了超過(guò) 20 小時(shí)的聲音,并使用新的基于深度學(xué)習(xí)的 TTS 技術(shù)創(chuàng)建了新的 TTS 語(yǔ)音。結(jié)果表明,這種新的帶有美式英語(yǔ)風(fēng)味的 Siri 聲音比任何時(shí)候都要好。表1 包含了與傳統(tǒng)的 iOS 9 提供的語(yǔ)音相比,iOS 11 和 iOS 10 中 Siri 聲音的幾個(gè)例子。


更多新版 Siri 處理文本到語(yǔ)音發(fā)聲的更多細(xì)節(jié),可以參閱我們發(fā)表的論文“Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System”。


 iOS 11中 Siri 新聲音的示例(請(qǐng)點(diǎn)擊原文鏈接收聽(tīng))


參考文獻(xiàn)

[1] A. J. Hunt, A. W. Black. Unit selection in a concatenative speech synthesis system using a large speech database, ICASSP, 1996.

[2] H. Zen, K. Tokuda, A. W. Black. Statistical parametric speech synthesis Speech Communication, Vol. 51, no. 11, pp. 1039-1064, 2009.

[3] S. King, Measuring a decade of progress in Text-to-Speech, Loquens, vol. 1, no. 1, 2006.

[4] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, K. Kavukcuoglu. Wavenet: A generative model for raw audio, arXiv preprint arXiv:1609.03499, 2016.

[5] Y. Qian, F. K. Soong, Z. J. Yan. A Unified Trajectory Tiling Approach to High Quality Speech Rendering, IEEE Transactions on Audio, Speech, and Language Processingv, Vol. 21, no. 2, pp. 280-290, Feb. 2013.

[6] X. Gonzalvo, S. Tazari, C. Chan, M. Becker, A. Gutkin, H. Silen, Recent Advances in Google Real-time HMM-driven Unit Selection Synthesizer, Interspeech, 2016.

[7] C. Bishop. Mixture density networks, Tech. Rep. NCRG/94/004, Neural Computing Research Group. Aston University, 1994.

[8] H. Zen, A. Senior. Deep mixture density networks for acoustic modeling in statistical parametric speech synthesis, ICASSP, 2014.

[9] T. Capes, P. Coles, A. Conkie, L. Golipour, A. Hadjitarkhani, Q. Hu, N. Huddleston, M. Hunt, J. Li, M. Neeracher, K. Prahallad, T. Raitio, R. Rasipuram, G. Townsend, B. Williamson, D. Winarsky, Z. Wu, H. Zhang. Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System, Interspeech, 2017.



    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多