語(yǔ)音識(shí)別實(shí)際問題：（八）小語(yǔ)種語(yǔ)音識(shí)別

520jefferson 2020-08-14

展開全文

世界上存在近7000種語(yǔ)言 [1]，其中絕大部分是小語(yǔ)種，使用人數(shù)超過1億人的也就10余種（見圖 8.1）。在我國(guó)，漢語(yǔ)的使用人口最多，占總?cè)丝诘?0%以上，余下的70多種語(yǔ)言絕大部分是小語(yǔ)種，使用人數(shù)少，語(yǔ)音和語(yǔ)言資源有限。一般認(rèn)為小語(yǔ)種是除聯(lián)合國(guó)六種通用語(yǔ)言（漢語(yǔ)，英語(yǔ)，法語(yǔ)，俄語(yǔ)，西班牙語(yǔ)和阿拉伯語(yǔ)）以外的所有語(yǔ)言。本章將討論小語(yǔ)種識(shí)別的若干關(guān)鍵技術(shù)。

值得說明的是，小語(yǔ)種和方言有所不同。小語(yǔ)種本質(zhì)上是一門獨(dú)立的語(yǔ)言，有獨(dú)立且完備的發(fā)音體系、書寫方式及語(yǔ)法現(xiàn)象。對(duì)于方言(Dialect)的界定則不像小語(yǔ)種那么清晰，一般認(rèn)為是因地理差異形成的較大規(guī)模的語(yǔ)言變體，包括發(fā)音和用詞等方面的改變。比方言再低一個(gè)層次的語(yǔ)言變化稱為口音（Accent）。口音只包含發(fā)音上的改變，這種改變既可能是因?yàn)榈赜蛟?，也可能來源于外語(yǔ)習(xí)得時(shí)遺留的母語(yǔ)影響。我們所討論的小語(yǔ)種識(shí)別技術(shù)同樣可用于改進(jìn)對(duì)方言和口音的識(shí)別。

目前，小語(yǔ)種識(shí)別受到越來越多關(guān)注。著名的Babel項(xiàng)目給自己設(shè)定的目標(biāo)即是“在一周內(nèi)就為一種新語(yǔ)言構(gòu)造一個(gè)語(yǔ)音識(shí)別系統(tǒng)”。該項(xiàng)目于2011年啟動(dòng)，參與單位包括CMU、UC Berkeley ICSI實(shí)驗(yàn)室、IBM Watson研究中心、BBN公司等著名機(jī)構(gòu)。Babel項(xiàng)目不僅取得了豐碩的科研成果，同時(shí)對(duì)研究者開放了超過20種語(yǔ)言的數(shù)據(jù)包，有力促進(jìn)了小語(yǔ)種研究。M2ASR項(xiàng)目是由國(guó)家基金委支持的重點(diǎn)研究項(xiàng)目，目的是研究面向少數(shù)民族語(yǔ)言的多語(yǔ)種識(shí)別方法，特別是對(duì)數(shù)據(jù)稀缺的少數(shù)民族語(yǔ)言的識(shí)別方法。該項(xiàng)目于2017年啟動(dòng)，參與單位包括清華大學(xué)、西北民族大學(xué)和新疆大學(xué)。目前，該項(xiàng)目已經(jīng)輸出大量研究成果，向?qū)W術(shù)界公開了維、哈、藏、蒙等少數(shù)民族語(yǔ)音數(shù)據(jù)資源超過800小時(shí)（http://m2asr.）。

圖 8.1: 世界語(yǔ)言分布圖。圖片來自https://www./statistics。

8.1 小語(yǔ)種語(yǔ)音識(shí)別面臨的主要困難

資源普遍稀缺。幾乎所有小語(yǔ)種都存在資源稀缺問題。資源稀缺性表現(xiàn)在語(yǔ)音數(shù)據(jù)、文本數(shù)據(jù)、音素集、發(fā)音詞典等各個(gè)方面。即使是資源相對(duì)豐富的幾個(gè)語(yǔ)言（如維吾爾語(yǔ)），數(shù)據(jù)資源的總量也很小，而且分散在各個(gè)研究機(jī)構(gòu)，缺少統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范，且很少公開.
語(yǔ)言的復(fù)雜性和各異性較強(qiáng)。資源的稀缺使得為每種語(yǔ)言單獨(dú)建模幾乎不可能，因而只能借助語(yǔ)言之間的共性，通過共享建模來提高性能。然而，人類語(yǔ)言極為復(fù)雜，不同語(yǔ)言在語(yǔ)音和語(yǔ)法層次有很大差異。這種復(fù)雜性和各異性使得不同語(yǔ)言共享建模變得困難。
多語(yǔ)言融合為識(shí)別系統(tǒng)帶來挑戰(zhàn)。不同語(yǔ)言的互相融合，特別是英語(yǔ)和漢語(yǔ)等主流語(yǔ)言對(duì)其它語(yǔ)言的滲透是大勢(shì)所趨。然而，語(yǔ)言融合會(huì)顯著降低小語(yǔ)種識(shí)別的性能。其一，外來語(yǔ)帶來的新詞增大了音素空間和詞表空間，增加了解碼時(shí)的混淆度；其二，加入外來語(yǔ)需要對(duì)詞表和語(yǔ)言模型等進(jìn)行動(dòng)態(tài)更新，給當(dāng)前的靜態(tài)解碼方法帶來挑戰(zhàn)；第三，外來語(yǔ)在語(yǔ)言模型中一般不具有足夠的代表性，如何將這些新詞有效加入到識(shí)別系統(tǒng)中并不容易。
多元化帶來建模上的困難。很多小語(yǔ)種在發(fā)音和書寫上都相對(duì)多元化，如地方口音的差異，口語(yǔ)用法與書面語(yǔ)用法的差異，不同教育水平的人群對(duì)主流語(yǔ)言的接受差異，不同年齡人群對(duì)網(wǎng)絡(luò)語(yǔ)、社會(huì)媒體用語(yǔ)等新詞匯的接受差異。更有的語(yǔ)言基本沒有標(biāo)準(zhǔn)化的發(fā)音和語(yǔ)法，使用語(yǔ)言隨人群不同具有很強(qiáng)的隨意性。這些多元化與隨意性給語(yǔ)音識(shí)別系統(tǒng)帶來極大挑戰(zhàn)，特別是在數(shù)據(jù)資源稀缺的大前提下，這一挑戰(zhàn)顯得尤為嚴(yán)峻。

基于上述困難，小語(yǔ)種語(yǔ)音識(shí)別的基本思路是分拆與復(fù)用。所謂分拆，是將語(yǔ)音信號(hào)中的信息分解為共性和特性兩部分并分別處理。所謂復(fù)用，是指對(duì)分拆出的共性部分通過“共享”或“借用”的方式實(shí)現(xiàn)更好的建模。這里的共享方式是指收集多種語(yǔ)言的共性資源訓(xùn)練出大家可用的公共模型；借用方式是指利用主流語(yǔ)言的豐富資源學(xué)習(xí)出基礎(chǔ)模型，再基于該基礎(chǔ)模型訓(xùn)練小語(yǔ)種模型。一般認(rèn)為，語(yǔ)言的差異主要體現(xiàn)在詞法和語(yǔ)法的不同，在發(fā)音上的差異相對(duì)較小。因此，我們通常將語(yǔ)音信息拆分成聲學(xué)層和語(yǔ)言層兩部分，對(duì)聲學(xué)層信息進(jìn)行多語(yǔ)言共享或借用學(xué)習(xí)，對(duì)語(yǔ)言層信息單獨(dú)建模。

8.2 基于音素共享的小語(yǔ)種語(yǔ)音識(shí)別

傳統(tǒng)基于GMM-HMM的語(yǔ)音識(shí)別系統(tǒng)多采用音素共享和映射的方法實(shí)現(xiàn)小語(yǔ)種識(shí)別。音素共享最早被用于解決多語(yǔ)種混合解碼問題。例如，Cohen等 [2] 應(yīng)用這一方法將英語(yǔ)與法語(yǔ)的音素進(jìn)行合并（見圖 8.2），從而實(shí)現(xiàn)英語(yǔ)和法語(yǔ)兩種語(yǔ)言的混合識(shí)別。

Schultz等人 [3, 4]基于國(guó)際音標(biāo)（International Phonetic Alphabet, IPA）將不同語(yǔ)言統(tǒng)一到一個(gè)通用音素集上，并基于該音素集構(gòu)造多語(yǔ)言GMM-HMM模型，訓(xùn)練時(shí)利用多語(yǔ)言數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練，如圖 8.3所示。在Global Phone數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明，音素共享和多語(yǔ)言數(shù)據(jù)訓(xùn)練可以為小語(yǔ)種提供更好的初始模型，經(jīng)過少量數(shù)據(jù)做自適應(yīng)訓(xùn)練后，可取得比單獨(dú)訓(xùn)練更好的識(shí)別性能。Lin等人 [5] 的工作同樣基于共享音素的多語(yǔ)言建模，只不過實(shí)驗(yàn)基于通用音素集（Universal Phone Set, UPS）。UPS和IPA基本上是對(duì)應(yīng)的，不同之處是UPS包含了一些組合音，如鼻化元音等。

另一種音素共享方法基于數(shù)據(jù)驅(qū)動(dòng)。假設(shè)有語(yǔ)言A和B，首先為這兩種語(yǔ)言單獨(dú)建立語(yǔ)音識(shí)別器，之后對(duì)這些語(yǔ)言的所有或部分?jǐn)?shù)據(jù)利用A和B兩個(gè)語(yǔ)言的識(shí)別器分別解碼，得到基于兩種語(yǔ)言的識(shí)別結(jié)果。基于這些識(shí)別結(jié)果，可以統(tǒng)計(jì)這些語(yǔ)言之間的音素混淆矩陣，從而得到這些語(yǔ)言之間的映射。這里的混淆矩陣是指一種語(yǔ)言中的某個(gè)音素被映射為另一種語(yǔ)言中的某個(gè)音素的概率。所有這些概率將組成一個(gè)N ×M的矩陣T，其中M和N分別是兩種語(yǔ)言的音素集大小，，即語(yǔ)言A中的第i個(gè)音素映射到語(yǔ)言 B中的第j個(gè)音素的概率。在實(shí)際建模時(shí)，通常對(duì)兩種語(yǔ)言的識(shí)別結(jié)果做幀級(jí)別的強(qiáng)制對(duì)齊，再統(tǒng)計(jì)不同語(yǔ)言各個(gè)音素之間的對(duì)應(yīng)幀數(shù)，即可統(tǒng)計(jì)出混淆矩陣中對(duì)應(yīng)的概率。Sim等[6]基于這一思路實(shí)現(xiàn)了一個(gè)用俄語(yǔ)模型來識(shí)別捷克語(yǔ)的跨語(yǔ)言識(shí)別系統(tǒng)，首先基于數(shù)據(jù)驅(qū)動(dòng)建立俄語(yǔ)到捷克語(yǔ)的音素映射，然后利用俄語(yǔ)模型對(duì)捷克語(yǔ)進(jìn)行識(shí)別，最后再把得到的俄語(yǔ)音素串轉(zhuǎn)換成捷克語(yǔ)音素串。

Schultz [3]等人對(duì)比研究了基于IPA的音素映射方法和基于數(shù)據(jù)驅(qū)動(dòng)的音素映射方法。他們首先基于IPA對(duì)七種語(yǔ)言建立一個(gè)多語(yǔ)言識(shí)別系統(tǒng)，之后基于IPA或數(shù)據(jù)驅(qū)動(dòng)建立一個(gè)七種語(yǔ)言音素集到瑞典語(yǔ)音素集的映射，最后基于該映射對(duì)瑞典語(yǔ)進(jìn)行識(shí)別。這一識(shí)別可以直接利用七種語(yǔ)言的識(shí)別系統(tǒng)，并將識(shí)別結(jié)果依音素映射表轉(zhuǎn)換為瑞典語(yǔ)輸出；也可以用七種語(yǔ)言的模型做初始化，并用少量瑞典語(yǔ)數(shù)據(jù)做自適應(yīng)訓(xùn)練。圖 8.4給出了基于IPA和數(shù)據(jù)驅(qū)動(dòng)得到的映射表，表中每一行為一個(gè)瑞典音素。在數(shù)據(jù)驅(qū)動(dòng)方式中，選擇混淆度最大的七種語(yǔ)言音素作為映射結(jié)果。

圖 8.2: 基于知識(shí)的英語(yǔ)-法語(yǔ)音素共享與映射。圖片來自 [2]。

圖 8.3: 國(guó)際音標(biāo)（International Phonetic Alphabet, IPA）對(duì)應(yīng)表 2018修訂版。

8.4:基于[3]。

音素共享也可以用于DNN識(shí)別系統(tǒng)中。例如，Das等人 [7]基于IPA建立了英語(yǔ)和土耳其語(yǔ)聯(lián)合音素集，基于這一音素集，可以訓(xùn)練多語(yǔ)言GMM-HMM和多語(yǔ)言DNN-HMM 系統(tǒng)。不論哪種模型，音素共享方法都可以顯著提高小語(yǔ)種（土爾其語(yǔ)）的識(shí)別性能。

8.2.1 基于特征共享的小語(yǔ)種識(shí)別

人類語(yǔ)言在語(yǔ)音層具有共性，因此可以利用多語(yǔ)言或主流語(yǔ)言的數(shù)據(jù)資源訓(xùn)練語(yǔ)音特征提取器，直接用于小語(yǔ)種數(shù)據(jù)做特征提取并構(gòu)造聲學(xué)模型。這一特征共享方案既可用于GMM-HMM系統(tǒng)，也可用于DNN-HMM系統(tǒng)。

常用的可共享特征包括瓶頸（Bottle Neck, BN)特征[8, 9]和后驗(yàn)概率特征[10, 11]。如圖 8.5所示，首先構(gòu)造一個(gè)MLP/DNN音素分類器，該分類器的中間層輸出具有顯著的發(fā)音區(qū)分性。一般中間層比其它層具有較少的節(jié)點(diǎn)數(shù)，因此稱為瓶頸層，相應(yīng)的輸出稱為瓶頸特征。同時(shí)，該分類器的輸出為輸入語(yǔ)音幀對(duì)應(yīng)的音素后驗(yàn)概率，同樣具有明顯的發(fā)音區(qū)分性，稱為后驗(yàn)概率特征。

Tuske等人 [12]用多語(yǔ)言數(shù)據(jù)訓(xùn)練一個(gè)多語(yǔ)言DNN模型（圖 8.6），通過提取瓶頸特征用于小語(yǔ)種語(yǔ)音識(shí)別。該特征在GMM-HMM和DNN-HMM系統(tǒng)中都取得了較好較果。類似的方法也用在Thomas [13]和 Knill [14]等人的工作中。

Stolcke等人 [15]研究了基于后驗(yàn)概率特征的跨語(yǔ)言識(shí)別。他們發(fā)現(xiàn)一個(gè)用英語(yǔ)訓(xùn)練的音素區(qū)分網(wǎng)絡(luò)得到的后驗(yàn)概率特征可以直接用于漢語(yǔ)和阿拉伯語(yǔ)等語(yǔ)音識(shí)別任務(wù)中。Toth等人 [16]的工作也發(fā)現(xiàn)，基于英語(yǔ)訓(xùn)練的MLP可直接對(duì)匈牙利語(yǔ)數(shù)據(jù)提取后驗(yàn)概率特征并用于聲學(xué)模型建模。

圖 8.5: 瓶頸特征和后驗(yàn)概率特征。

圖 8.6: 用于BN特征提取的多語(yǔ)言DNN模型。

8.3 基于參數(shù)共享的小語(yǔ)種識(shí)別

在基于DNN的語(yǔ)音識(shí)別系統(tǒng)中，DNN用來逐層學(xué)習(xí)語(yǔ)音信號(hào)中的區(qū)分性信息并最終輸出在音素（或senones）上的后驗(yàn)概率?；谌祟愓Z(yǔ)音的共性，可以想象該DNN模型在前幾層都在學(xué)習(xí)和語(yǔ)言無關(guān)的特征，只有在最后幾層，語(yǔ)言信息才開始變得明確。因此，我們可以通過共享DNN的前幾層參數(shù)來克服小語(yǔ)種建模的數(shù)據(jù)稀缺問題。和特征共享方式不同，參數(shù)共享主要用于DNN-HMM系統(tǒng)中的DNN模型訓(xùn)練。這一共享通常有兩種方式：多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)。

多任務(wù)學(xué)習(xí)(Multi-task Learning)是指通過共享同一個(gè)網(wǎng)絡(luò)或網(wǎng)絡(luò)的一部分對(duì)多個(gè)任務(wù)進(jìn)行同時(shí)學(xué)習(xí)?；谶@一學(xué)習(xí)方式，參與共享的網(wǎng)絡(luò)在參數(shù)更新時(shí)可利用多個(gè)任務(wù)的誤差信息，從而實(shí)現(xiàn)不同任務(wù)之間的信息共享。應(yīng)用到小語(yǔ)種識(shí)別上，可以將包括小語(yǔ)種在內(nèi)的多個(gè)語(yǔ)言作為不同任務(wù)，這些任務(wù)共享DNN特征提取層，輸出層則互相獨(dú)立[17, 18,19]。圖 8.7給出了一個(gè)多語(yǔ)言共享的DNN模型結(jié)構(gòu)。

圖 8.7: 基于多任務(wù)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)。圖片來自 [17]。

Chen 等人 [20]將多任務(wù)學(xué)習(xí)方法應(yīng)用到小語(yǔ)種識(shí)別中。他們采用的模型如圖 8.8 所示。該模型除了將多個(gè)小語(yǔ)種識(shí)別作為獨(dú)立任務(wù)外，還引入了一個(gè)通用音素識(shí)別任務(wù)，即將所有語(yǔ)言的音素集統(tǒng)一為一個(gè)通用音素集，在訓(xùn)練時(shí)不僅計(jì)算在特定語(yǔ)言音素集上的誤差，而且計(jì)算在通用音素集上的誤差。作者利用南非的3個(gè)小語(yǔ)種數(shù)據(jù)進(jìn)行研究，每種語(yǔ)言數(shù)據(jù)量為3-8小時(shí)。實(shí)驗(yàn)證明，多任務(wù)學(xué)習(xí)可有效提高小語(yǔ)種的識(shí)別性能。

圖 8.8: 基于多任務(wù)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)，其中每個(gè)語(yǔ)言上的識(shí)別作為一個(gè)獨(dú)立任務(wù)，外加一個(gè)在通用音素集上的識(shí)別任務(wù)。圖片來自 [20]。

遷移學(xué)習(xí) (Transfer learning) [21]是另一種常用的小語(yǔ)種建模方法。該方法首先利用多語(yǔ)言數(shù)據(jù)或主流語(yǔ)言數(shù)據(jù)建立一個(gè)DNN模型，基于該模型對(duì)小語(yǔ)種模型進(jìn)行初始化，再利用少量小語(yǔ)種數(shù)據(jù)進(jìn)行針對(duì)性訓(xùn)練。如圖 8.9所示，我們有大量漢語(yǔ)數(shù)據(jù)，但日語(yǔ)數(shù)據(jù)稀缺。遷移學(xué)習(xí)首先訓(xùn)練一個(gè)漢語(yǔ)DNN模型，再基于該模型初始化日語(yǔ)DNN模型。由于漢語(yǔ)和日語(yǔ)音素集不同，我們僅能遷移底層的部分網(wǎng)絡(luò)（圖中為第一層），其余網(wǎng)絡(luò)參數(shù)需要隨機(jī)初始化。日語(yǔ)DNN初始化完成后，可利用少量日語(yǔ)數(shù)據(jù)做進(jìn)一步訓(xùn)練。

圖 8.9: 基于遷移學(xué)習(xí)的小語(yǔ)種建模。首先利用漢語(yǔ)數(shù)據(jù)訓(xùn)練一個(gè)DNN模型，取其第一層參數(shù)復(fù)制到日語(yǔ)DNN模型中，再利用少量日語(yǔ)數(shù)據(jù)做針對(duì)性訓(xùn)練。

8.3.1 基于半監(jiān)督學(xué)習(xí)的小語(yǔ)種識(shí)別方法

小語(yǔ)種識(shí)別的主要困難在于語(yǔ)音數(shù)據(jù)的稀缺。在很多時(shí)候，稀缺的并不是語(yǔ)音數(shù)據(jù)本身，而是語(yǔ)音的文本標(biāo)注。如果可以利用大量未標(biāo)注數(shù)據(jù)，則小語(yǔ)種識(shí)別的困難有望得到很大緩解?；谶@一思想，Shi等人 [22]提出一種稱為MaR（Map and Relabel）的半監(jiān)督學(xué)習(xí)方法。該方法分為Map和Relable兩個(gè)步驟。在Map步中，作者首先利用漢語(yǔ)訓(xùn)練一個(gè)大規(guī)模DNN，其輸出為Senone（對(duì)應(yīng)共享的tri-phone）。基于遷移學(xué)習(xí)的思路，將該漢語(yǔ)DNN去掉最后一個(gè)線性層后作為維語(yǔ)DNN的特征提取網(wǎng)絡(luò)，并加入一個(gè)隨機(jī)初始化的線性層，用來預(yù)測(cè)維語(yǔ)的音素（圖 8.10）。因?yàn)橐羲亓恳h(yuǎn)小于Senone，這一隨機(jī)初始化的線性層可通過少量標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。學(xué)習(xí)完畢后，即得到一個(gè)維語(yǔ)DNN。在Relabel步，基于該維語(yǔ)DNN 對(duì)未標(biāo)注的維語(yǔ)數(shù)據(jù)進(jìn)行識(shí)別，得到這些數(shù)據(jù)的偽標(biāo)注。這些偽標(biāo)注的數(shù)據(jù)可以用來對(duì)維語(yǔ)進(jìn)行DNN建模。實(shí)驗(yàn)結(jié)果表明，基于該方法，利用10個(gè)小時(shí)的數(shù)據(jù)即可獲得傳統(tǒng)方法用100小時(shí)數(shù)據(jù)得到的識(shí)別率。

圖 8.10: MaR方法中的Map步。左圖為一個(gè)基于Senone的漢語(yǔ)音DNN，右圖為基于音素的維語(yǔ)DNN。維語(yǔ)DNN的特征提取層由漢語(yǔ)DNN復(fù)制得到。

8.4 其它小語(yǔ)種識(shí)別方法

8.4.1 Grapheme 建模

很多小語(yǔ)種的語(yǔ)音學(xué)和語(yǔ)言學(xué)研究還不充分，缺少完整的發(fā)音詞典。對(duì)這些語(yǔ)言可以基于Grapheme建模。所謂Grapheme，是指組成單詞的字母。這些字母有可能對(duì)應(yīng)多個(gè)發(fā)音（如英語(yǔ)里的k，在kat和skip里發(fā)音不同），或字母組合對(duì)應(yīng)一個(gè)發(fā)音（如英語(yǔ)里的th和ph）?；贕rapheme的語(yǔ)音識(shí)別系統(tǒng)可以省去構(gòu)造發(fā)音詞典的麻煩 [23]。Le等人[24]以越南語(yǔ)為例研究了基于Graphame在小語(yǔ)種上的建模問題，Chen 等人 [20]將Grapheme作為輔助任務(wù)來訓(xùn)練多任務(wù)DNN，提高了小語(yǔ)種識(shí)別性能。

8.4.2 網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練方法

因?yàn)閿?shù)據(jù)量小，小語(yǔ)種建模容易產(chǎn)生過訓(xùn)練問題。Miao等人 [25]發(fā)現(xiàn)在DNN訓(xùn)練中引入Dropout操作可有效防止DNN的過訓(xùn)練。同時(shí)，利用Maxout激活函數(shù)可進(jìn)一步提高小語(yǔ)種建模的性能。作者認(rèn)為這是因?yàn)镸axout激活函數(shù)可以學(xué)習(xí)到語(yǔ)音信號(hào)中的稀疏特征，從而提高對(duì)噪音等干擾因素的抵抗力。圖 8.11給出了Droput操作和Maxout激活函數(shù)對(duì)DNN識(shí)別性能的影響。

圖 8.11: 基于Dropout和MaxOut激活函數(shù)的小語(yǔ)種語(yǔ)音識(shí)別。左圖為低資源建模，右圖為較大數(shù)據(jù)建模。可以看到，在低資源建模情況下， Dropout和Maxout激活函數(shù)對(duì)DNN模型有更大幫助。圖片來自 [25]。

8.4.2 網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練方法

數(shù)據(jù)增強(qiáng) (Data Augmentation)是一種增加DNN模型魯棒性的常見做法 [26, 27, 28]。所謂數(shù)據(jù)增強(qiáng)，是指人為往訓(xùn)練數(shù)據(jù)中混入各種噪聲和干擾，以提高數(shù)據(jù)的覆蓋度。對(duì)小語(yǔ)種識(shí)別，基本訓(xùn)練數(shù)據(jù)量很小，這時(shí)語(yǔ)音增強(qiáng)就顯得非常重要。例如，Ragni等人 [29]基于Babel數(shù)據(jù)研究了語(yǔ)音增強(qiáng)在阿薩姆和祖魯語(yǔ)上的效果，發(fā)現(xiàn)基于聲道長(zhǎng)度變換的語(yǔ)音增強(qiáng)可提高小語(yǔ)種語(yǔ)音識(shí)別的性能。

8.5 小語(yǔ)種語(yǔ)音識(shí)別實(shí)踐

8.5.1 音頻數(shù)據(jù)采集

在前文中，我們已經(jīng)提到了小語(yǔ)種語(yǔ)音識(shí)別面臨的首要問題是數(shù)據(jù)資源稀缺性，這主要是因?yàn)樾≌Z(yǔ)種的適用人群與流通范圍相對(duì)較小，且很多小語(yǔ)種分布的地區(qū)信息化尚不完備，導(dǎo)致對(duì)語(yǔ)音數(shù)據(jù)的收集和整理成本偏高，且質(zhì)量難以控制。因此，在有限的條件下收集最有價(jià)值的語(yǔ)音數(shù)據(jù)就顯得至關(guān)重要。什么樣的數(shù)據(jù)是有價(jià)值的數(shù)據(jù)呢？首先要保證音素的覆蓋度，包括單個(gè)音素和上下文相關(guān)音素的覆蓋度。滿足了發(fā)音覆蓋度，還需要考慮說話人的覆蓋度，包括性別、年齡、口音等。除此之外，還需要增加信道、噪聲，混響，音量、語(yǔ)速等發(fā)音特性上的覆蓋度。這些特性雖然可以用數(shù)據(jù)增強(qiáng)方法模擬，但真實(shí)場(chǎng)景
下的數(shù)據(jù)對(duì)提高識(shí)別率更有價(jià)值。

8.5.2 文本數(shù)據(jù)采集

相對(duì)于語(yǔ)音數(shù)據(jù)，文本數(shù)據(jù)的采集比較容易，一般用網(wǎng)絡(luò)爬蟲即可不間斷地獲取。文本數(shù)據(jù)主要用于構(gòu)建語(yǔ)言模型，因此需要考慮的主要是對(duì)領(lǐng)域的匹配度。例如，如果我們的任務(wù)是識(shí)別口語(yǔ)對(duì)話，那么收集論壇的評(píng)論就比收集新聞網(wǎng)頁(yè)有價(jià)值的多。文本的領(lǐng)域匹配度可以用候選文本在一個(gè)領(lǐng)域相關(guān)語(yǔ)言模型上的混淆度（Perplexity, PPL ）來衡量，PPL越低，說明該文本與目標(biāo)領(lǐng)域的匹配度越高。例如，可以選取一些和領(lǐng)域相關(guān)的文本作為種子訓(xùn)練一個(gè)n-gram模型，在數(shù)據(jù)采集時(shí)計(jì)算每句話在該模型上的PPL并保留PPL相對(duì)較低的句子。SRILM工具包 [30]提供了計(jì)算PPL的接口，可直接調(diào)用。

8.5.3 文本正規(guī)化

處理小語(yǔ)種的語(yǔ)音標(biāo)注或語(yǔ)言模型文本時(shí)，一般會(huì)將其轉(zhuǎn)換成拉丁字母形式，以方便計(jì)算機(jī)處理和非母語(yǔ)研究者進(jìn)行檢查。一些小語(yǔ)種的拼寫方式很不規(guī)范，需要在處理時(shí)特別注意。以維語(yǔ)為例，該語(yǔ)言的拼寫和發(fā)音是一一對(duì)應(yīng)的，而不同地區(qū)對(duì)同一個(gè)單詞的發(fā)音可能很不相同，直接導(dǎo)致拼寫上的各異性。這種拼寫上的各異性給語(yǔ)言模型建模帶來很大困難，需要在建模前將各異化的拼寫歸一到標(biāo)準(zhǔn)拼寫。

對(duì)非母語(yǔ)研究來說，在對(duì)某種小語(yǔ)種建模之前可以多了解一下該語(yǔ)言的特性，以選擇最合理的建模方法。這些特性包括：該語(yǔ)種是否存在元音和諧律，元音和諧律是否會(huì)為文本處理帶來歧義，如何處理外來詞，如何處理網(wǎng)絡(luò)用語(yǔ)，如何進(jìn)行字詞分割（例如，大部分阿拉伯文以空格分割，而藏語(yǔ)則有特定的分隔符）等等。這些經(jīng)驗(yàn)可以讓研究者少走彎路。

8.5.4 發(fā)音詞典設(shè)計(jì)

合理的發(fā)音詞典可降低聲學(xué)模型和語(yǔ)言模型的建模難度。對(duì)小語(yǔ)種語(yǔ)音識(shí)別來說，設(shè)計(jì)發(fā)音詞典最重要的是選擇合理的發(fā)音單元和語(yǔ)言模型單元，而這一選擇與語(yǔ)言本身的特性直接相關(guān)。以漢語(yǔ)為例，發(fā)音單元一般可選音素或聲韻母，語(yǔ)言模型單元一般選詞。對(duì)維語(yǔ)而言，因?yàn)榘l(fā)音與拼寫對(duì)應(yīng)，發(fā)音單元選擇Grapheme 即可。同時(shí)，因?yàn)榫S語(yǔ)是粘著語(yǔ)，以詞干為基礎(chǔ)，可以加入若干后綴形成新詞。這意味著維語(yǔ)的詞匯量極大，且新詞產(chǎn)生率較高。這時(shí)以詞為單位建立語(yǔ)言模型就不合適，一般可選擇詞素（Morpheme）為建模單元 [31]。

8.6 小結(jié)

本章主要討論了小語(yǔ)種語(yǔ)音識(shí)別的建模方法。不論是傳統(tǒng)方法還是基于深度學(xué)習(xí)的方法，共享是提高小語(yǔ)種識(shí)別性能的基本思想。這一共享可以在音素、特征和模型參數(shù)三個(gè)層次體現(xiàn)。音素共享目的是在不同語(yǔ)言的發(fā)音單元間建立映射關(guān)系，從而可以用其它語(yǔ)言的語(yǔ)音數(shù)據(jù)對(duì)目標(biāo)語(yǔ)言的音素進(jìn)行訓(xùn)練。這一方法簡(jiǎn)單有效，但這種離散單元之間的映射忽略了不同語(yǔ)言在發(fā)音上的細(xì)節(jié)差異，常會(huì)帶來性能損失。特征共享和參數(shù)共享本質(zhì)上都是復(fù)用基于神經(jīng)網(wǎng)絡(luò)的特征提取單元，而這一復(fù)用的基本假設(shè)是不同語(yǔ)言在發(fā)音上的相似性。得益于DNN對(duì)復(fù)雜場(chǎng)景的特征學(xué)習(xí)能力，這兩種共享方案在當(dāng)前大數(shù)據(jù)學(xué)習(xí)時(shí)代取得了很大成功，顯著提高了小語(yǔ)種語(yǔ)音識(shí)別的性能。除了基礎(chǔ)的共享方法外，我們還討論了小語(yǔ)種建模中的若干技巧，包括對(duì)未標(biāo)注數(shù)據(jù)的利用、模型結(jié)構(gòu)選擇與訓(xùn)練方法、數(shù)據(jù)采集方案、詞典設(shè)計(jì)方案等。

總體來說，近年來小語(yǔ)種語(yǔ)音識(shí)別取得了長(zhǎng)足進(jìn)展，特別是基于DNN的特征共享和參數(shù)共享方法極大提高了小語(yǔ)種的聲學(xué)建模能力。目前制約小語(yǔ)種識(shí)別性能進(jìn)一步提高的主因可能是發(fā)音詞典、語(yǔ)言模型這些和語(yǔ)言本身特性相關(guān)的部分。另外，外來語(yǔ)、地域口音等語(yǔ)言現(xiàn)象在小語(yǔ)種里表現(xiàn)得更為普遍，需要設(shè)計(jì)合理的模型方法進(jìn)行針對(duì)性處理。

References

[1]Victoria Fromkin, Robert Rodman, and Nina Hyams. An introduction to language. 2018.

[2]P Cohen et al. “Towards a universal speech recognizer for multiple languages”. In: IEEE 1997 Workshop on Automatic Speech Recognition and Understanding Proceedings. 1997, pages 591–598.

[3]Tanja Schultz and Alex Waibel. “Experiments on cross-language acoustic modeling”. In:Seventh European Conference on Speech Communication and Technology. 2001.

[4]Tanja Schultz and Alex Waibel. “Polyphone decision tree specialization for language adap- tation”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2000, pages 1707–1710.

[5]Hui Lin et al. “A study on multilingual acoustic modeling for large vocabulary ASR”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2009, pages 4333–4336.

[6]Khe Chai Sim and Haizhou Li. “Robust phone set mapping using decision tree clustering for cross-lingual phone recognition”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2008, pages 4309–4312.

[7]Amit Das and Mark Hasegawa-Johnson. “Cross-lingual transfer learning during supervised training in low resource scenarios”. In: Sixteenth Annual Conference of the International Speech Communication Association. 2015.

[8]Dong Yu and Michael L Seltzer. “Improved bottleneck features using pretrained deep neu- ral networks”. In: Twelfth annual conference of the international speech communication association. 2011.

[9]Karel Vesel et al. “The language-independent bottleneck features”. In: IEEE 2012 Spoken Language Technology Workshop. 2012, pages 336–341.

[10]Andreas Stolcke et al. “Cross-domain and cross-language portability of acoustic features es- timated by multilayer perceptrons”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2006, pages I–I.

[11]Mireia Diez et al. “On the use of phone log-likelihood ratios as features in spoken language recognition”. In: IEEE 2012 Spoken Language Technology Workshop. 2012, pages 274–279.

[12]Zoltán Tüske et al. “Investigation on cross-and multilingual MLP features under matched and mismatched acoustical conditions”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 7349–7353.

[13]Samuel Thomas et al. “Deep neural network features and semi-supervised training for low resource speech recognition”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 6704–6708.

[14]Katherine Knill et al. “Language independent and unsupervised acoustic models for speech recognition and keyword spotting”. In: (2014).

[15]Andreas Stolcke et al. “Cross-domain and cross-language portability of acoustic features es- timated by multilayer perceptrons”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2006, pages I–I.

[16]László Tóth et al. “Cross-lingual Portability of MLP-Based Tandem Features–A Case Study for English and Hungarian”. In: (2008).

[17]Jui-Ting Huang et al. “Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 7304–7308.

[18]Georg Heigold et al. “Multilingual acoustic models using distributed deep neural networks”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 8619–8623.

[19]Arnab Ghoshal, Pawel Swietojanski, and Steve Renals. “Multilingual training of deep neu- ral networks”. In: IEEE International Conference on Acoustics, Speech and Signal Process- ing. 2013, pages 7319–7323.

[20]Dongpeng Chen and Brian Kan-Wing Mak. “Multitask learning of deep neural networks for low-resource speech recognition”. In: IEEE Transactions on Audio, Speech, and Language Processing (2015), pages 1172–1183.

[21]Dong Wang and Thomas Fang Zheng. “Transfer learning for speech and language process- ing”. In: Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. 2015, pages 1225–1237.

[22]Ying Shi et al. “Map and Relabel: Towards Almost-Zero Resource Speech Recognition”. In: Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. 2018, pages 591–595.

[23]Mirjam Killer, Sebastian Stuker, and Tanja Schultz. “Grapheme based speech recognition”. In: Eighth European Conference on Speech Communication and Technology. 2003.

[24]Viet-Bac Le and Laurent Besacier. “Automatic speech recognition for under-resourced lan- guages: application to Vietnamese language”. In: IEEE Transactions on Audio, Speech, and Language Processing (2009), pages 1471–1482.

[25]Yajie Miao, Florian Metze, and Shourabh Rawat. “Deep maxout networks for low-resource speech recognition”. In: IEEE 2013 Workshop on Automatic Speech Recognition and Under- standing. 2013, pages 398–403.

[26]Shi Yin et al. “Noisy training for deep neural networks in speech recognition”. In: EURASIP Journal on Audio, Speech, and Music Processing (2015), pages 1–14.

[27]Tom Ko et al. “Audio augmentation for speech recognition”. In: Sixteenth Annual Confer- ence of the International Speech Communication Association. 2015.

[28]Tom Ko et al. “A study on data augmentation of reverberant speech for robust speech recog- nition”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2017, pages 5220–5224.

[29]Anton Ragni et al. “Data augmentation for low resource languages”. In: (2014).

[30]Andreas Stolcke. “SRILM-an extensible language modeling toolkit”. In: Seventh interna- tional conference on spoken language processing. 2002.

[31]Mijit Ablimit, Tatsuya Kawahara, and Askar Hamdulla. “Lexicon optimization based on discriminative learning for automatic speech recognition of agglutinative language”. In: Speech communication (2014), pages 78–87.

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： 520jefferson > 《機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/tensorflow》

舉報(bào)/認(rèn)領(lǐng)