午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

語(yǔ)音識(shí)別實(shí)際問題:(八)小語(yǔ)種語(yǔ)音識(shí)別

 520jefferson 2020-08-14

世界上存在近7000種語(yǔ)言 [1],其中絕大部分是小語(yǔ)種,使用人數(shù)超過1億人的也就10余種(見圖 8.1)。在我國(guó),漢語(yǔ)的使用人口最多,占總?cè)丝诘?0%以上,余下的70多種語(yǔ)言絕大部分是小語(yǔ)種,使用人數(shù)少,語(yǔ)音和語(yǔ)言資源有限。一般認(rèn)為小語(yǔ)種是除聯(lián)合國(guó)六種通用語(yǔ)言(漢語(yǔ),英語(yǔ),法語(yǔ),俄語(yǔ),西班牙語(yǔ)和阿拉伯語(yǔ))以外的所有語(yǔ)言。本章將討論小語(yǔ)種識(shí)別的若干關(guān)鍵技術(shù)。

值得說明的是,小語(yǔ)種和方言有所不同。小語(yǔ)種本質(zhì)上是一門獨(dú)立的語(yǔ)言,有獨(dú)立且完備的發(fā)音體系、書寫方式及語(yǔ)法現(xiàn)象。對(duì)于方言(Dialect)的界定則不像小語(yǔ)種那么清晰,一般認(rèn)為是因地理差異形成的較大規(guī)模的語(yǔ)言變體,包括發(fā)音和用詞等方面的改變。比方言再低一個(gè)層次的語(yǔ)言變化稱為口音(Accent)。口音只包含發(fā)音上的改變,這種改變既可能是因?yàn)榈赜蛟?,也可能來源于外語(yǔ)習(xí)得時(shí)遺留的母語(yǔ)影響。我們所討論的小語(yǔ)種識(shí)別技術(shù)同樣可用于改進(jìn)對(duì)方言和口音的識(shí)別。

目前,小語(yǔ)種識(shí)別受到越來越多關(guān)注。著名的Babel項(xiàng)目給自己設(shè)定的目標(biāo)即是“在一周內(nèi)就為一種新語(yǔ)言構(gòu)造一個(gè)語(yǔ)音識(shí)別系統(tǒng)”。該項(xiàng)目于2011年啟動(dòng),參與單位包括CMU、UC Berkeley ICSI實(shí)驗(yàn)室、IBM Watson研究中心、BBN公司等著名機(jī)構(gòu)。Babel項(xiàng)目不僅取得了豐碩的科研成果,同時(shí)對(duì)研究者開放了超過20種語(yǔ)言的數(shù)據(jù)包,有力促進(jìn)了小語(yǔ)種研究。M2ASR項(xiàng)目是由國(guó)家基金委支持的重點(diǎn)研究項(xiàng)目,目的是研究面向少數(shù)民族語(yǔ)言的多語(yǔ)種識(shí)別方法,特別是對(duì)數(shù)據(jù)稀缺的少數(shù)民族語(yǔ)言的識(shí)別方法。該項(xiàng)目于2017年啟動(dòng),參與單位包括清華大學(xué)、西北民族大學(xué)和新疆大學(xué)。目前,該項(xiàng)目已經(jīng)輸出大量研究成果,向?qū)W術(shù)界公開了維、哈、藏、蒙等少數(shù)民族語(yǔ)音數(shù)據(jù)資源超過800小時(shí)(http://m2asr.)
圖 8.1: 世界語(yǔ)言分布圖。圖片來自https://www./statistics。

8.1  小語(yǔ)種語(yǔ)音識(shí)別面臨的主要困難

  • 資源普遍稀缺。幾乎所有小語(yǔ)種都存在資源稀缺問題。資源稀缺性表現(xiàn)在語(yǔ)音數(shù)據(jù)、文本數(shù)據(jù)、音素集、發(fā)音詞典等各個(gè)方面。即使是資源相對(duì)豐富的幾個(gè)語(yǔ)言(如維吾爾語(yǔ)),數(shù)據(jù)資源的總量也很小,而且分散在各個(gè)研究機(jī)構(gòu),缺少統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,且很少公開.

  • 語(yǔ)言的復(fù)雜性和各異性較強(qiáng)。資源的稀缺使得為每種語(yǔ)言單獨(dú)建模幾乎不可能,因而只能借助語(yǔ)言之間的共性,通過共享建模來提高性能。然而,人類語(yǔ)言極為復(fù)雜,不同語(yǔ)言在語(yǔ)音和語(yǔ)法層次有很大差異。這種復(fù)雜性和各異性使得不同語(yǔ)言共享建模變得困難。

  • 多語(yǔ)言融合為識(shí)別系統(tǒng)帶來挑戰(zhàn)。不同語(yǔ)言的互相融合,特別是英語(yǔ)和漢語(yǔ)等主流語(yǔ)言對(duì)其它語(yǔ)言的滲透是大勢(shì)所趨。然而,語(yǔ)言融合會(huì)顯著降低小語(yǔ)種識(shí)別的性能。其一,外來語(yǔ)帶來的新詞增大了音素空間和詞表空間,增加了解碼時(shí)的混淆度;其二,加入外來語(yǔ)需要對(duì)詞表和語(yǔ)言模型等進(jìn)行動(dòng)態(tài)更新,給當(dāng)前的靜態(tài)解碼方法帶來挑戰(zhàn);第三,外來語(yǔ)在語(yǔ)言模型中一般不具有足夠的代表性,如何將這些新詞有效加入到識(shí)別系統(tǒng)中并不容易。

  • 多元化帶來建模上的困難。很多小語(yǔ)種在發(fā)音和書寫上都相對(duì)多元化,如地方口音的差異,口語(yǔ)用法與書面語(yǔ)用法的差異,不同教育水平的人群對(duì)主流語(yǔ)言的接受差異,不同年齡人群對(duì)網(wǎng)絡(luò)語(yǔ)、社會(huì)媒體用語(yǔ)等新詞匯的接受差異。更有的語(yǔ)言基本沒有標(biāo)準(zhǔn)化的發(fā)音和語(yǔ)法,使用語(yǔ)言隨人群不同具有很強(qiáng)的隨意性。這些多元化與隨意性給語(yǔ)音識(shí)別系統(tǒng)帶來極大挑戰(zhàn),特別是在數(shù)據(jù)資源稀缺的大前提下,這一挑戰(zhàn)顯得尤為嚴(yán)峻。

基于上述困難,小語(yǔ)種語(yǔ)音識(shí)別的基本思路是分拆與復(fù)用。所謂分拆,是將語(yǔ)音信號(hào)中的信息分解為共性和特性兩部分并分別處理。所謂復(fù)用,是指對(duì)分拆出的共性部分通過“共享”或“借用”的方式實(shí)現(xiàn)更好的建模。這里的共享方式是指收集多種語(yǔ)言的共性資源訓(xùn)練出大家可用的公共模型;借用方式是指利用主流語(yǔ)言的豐富資源學(xué)習(xí)出基礎(chǔ)模型,再基于該基礎(chǔ)模型訓(xùn)練小語(yǔ)種模型。一般認(rèn)為,語(yǔ)言的差異主要體現(xiàn)在詞法和語(yǔ)法的不同,在發(fā)音上的差異相對(duì)較小。因此,我們通常將語(yǔ)音信息拆分成聲學(xué)層和語(yǔ)言層兩部分,對(duì)聲學(xué)層信息進(jìn)行多語(yǔ)言共享或借用學(xué)習(xí),對(duì)語(yǔ)言層信息單獨(dú)建模。
8.2  基于音素共享的小語(yǔ)種語(yǔ)音識(shí)別
傳統(tǒng)基于GMM-HMM的語(yǔ)音識(shí)別系統(tǒng)多采用音素共享和映射的方法實(shí)現(xiàn)小語(yǔ)種識(shí)別。音素共享最早被用于解決多語(yǔ)種混合解碼問題。例如,Cohen等 [2] 應(yīng)用這一方法將英語(yǔ)與法語(yǔ)的音素進(jìn)行合并(見圖 8.2),從而實(shí)現(xiàn)英語(yǔ)和法語(yǔ)兩種語(yǔ)言的混合識(shí)別。

Schultz等人 [3, 4]基于國(guó)際音標(biāo)(International Phonetic Alphabet, IPA)將不同語(yǔ)言統(tǒng)一到一個(gè)通用音素集上,并基于該音素集構(gòu)造多語(yǔ)言GMM-HMM模型,訓(xùn)練時(shí)利用多語(yǔ)言數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,如圖 8.3所示。在Global Phone數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,音素共享和多語(yǔ)言數(shù)據(jù)訓(xùn)練可以為小語(yǔ)種提供更好的初始模型,經(jīng)過少量數(shù)據(jù)做自適應(yīng)訓(xùn)練后,可取得比單獨(dú)訓(xùn)練更好的識(shí)別性能。Lin等人 [5] 的工作同樣基于共享音素的多語(yǔ)言建模,只不過實(shí)驗(yàn)基于通用音素集(Universal Phone Set, UPS)。UPS和IPA基本上是對(duì)應(yīng)的,不同之處是UPS包含了一些組合音,如鼻化元音等。

另一種音素共享方法基于數(shù)據(jù)驅(qū)動(dòng)。假設(shè)有語(yǔ)言A和B,首先為這兩種語(yǔ)言單獨(dú)建立語(yǔ)音識(shí)別器,之后對(duì)這些語(yǔ)言的所有或部分?jǐn)?shù)據(jù)利用A和B兩個(gè)語(yǔ)言的識(shí)別器分別解碼,得到基于兩種語(yǔ)言的識(shí)別結(jié)果。基于這些識(shí)別結(jié)果,可以統(tǒng)計(jì)這些語(yǔ)言之間的音素混淆矩陣,從而得到這些語(yǔ)言之間的映射。這里的混淆矩陣是指一種語(yǔ)言中的某個(gè)音素被映射為另一種語(yǔ)言中的某個(gè)音素的概率。所有這些概率將組成一個(gè)N ×M的矩陣T,其中M和N分別是兩種語(yǔ)言的音素集大小,,即語(yǔ)言A中的第i個(gè)音素映射到語(yǔ)言 B中的第j個(gè)音素的概率。在實(shí)際建模時(shí),通常對(duì)兩種語(yǔ)言的識(shí)別結(jié)果做幀級(jí)別的強(qiáng)制對(duì)齊,再統(tǒng)計(jì)不同語(yǔ)言各個(gè)音素之間的對(duì)應(yīng)幀數(shù),即可統(tǒng)計(jì)出混淆矩陣中對(duì)應(yīng)的概率。Sim等[6]基于這一思路實(shí)現(xiàn)了一個(gè)用俄語(yǔ)模型來識(shí)別捷克語(yǔ)的跨語(yǔ)言識(shí)別系統(tǒng),首先基于數(shù)據(jù)驅(qū)動(dòng)建立俄語(yǔ)到捷克語(yǔ)的音素映射,然后利用俄語(yǔ)模型對(duì)捷克語(yǔ)進(jìn)行識(shí)別,最后再把得到的俄語(yǔ)音素串轉(zhuǎn)換成捷克語(yǔ)音素串。

Schultz [3]等人對(duì)比研究了基于IPA的音素映射方法和基于數(shù)據(jù)驅(qū)動(dòng)的音素映射方法。他們首先基于IPA對(duì)七種語(yǔ)言建立一個(gè)多語(yǔ)言識(shí)別系統(tǒng),之后基于IPA或數(shù)據(jù)驅(qū)動(dòng)建立一個(gè)七種語(yǔ)言音素集到瑞典語(yǔ)音素集的映射,最后基于該映射對(duì)瑞典語(yǔ)進(jìn)行識(shí)別。這一識(shí)別可以直接利用七種語(yǔ)言的識(shí)別系統(tǒng),并將識(shí)別結(jié)果依音素映射表轉(zhuǎn)換為瑞典語(yǔ)輸出;也可以用七種語(yǔ)言的模型做初始化,并用少量瑞典語(yǔ)數(shù)據(jù)做自適應(yīng)訓(xùn)練。圖 8.4給出了基于IPA和數(shù)據(jù)驅(qū)動(dòng)得到的映射表,表中每一行為一個(gè)瑞典音素。在數(shù)據(jù)驅(qū)動(dòng)方式中,選擇混淆度最大的七種語(yǔ)言音素作為映射結(jié)果。

圖 8.2: 基于知識(shí)的英語(yǔ)-法語(yǔ)音素共享與映射。圖片來自 [2]。

圖 8.3: 國(guó)際音標(biāo)(International Phonetic Alphabet, IPA)對(duì)應(yīng)表 2018修訂版 。

8.4:基于[3]。

音素共享也可以用于DNN識(shí)別系統(tǒng)中。例如,Das等人 [7]基于IPA建立了英語(yǔ)和土耳其語(yǔ)聯(lián)合音素集,基于這一音素集,可以訓(xùn)練多語(yǔ)言GMM-HMM和多語(yǔ)言DNN-HMM 系統(tǒng)。不論哪種模型,音素共享方法都可以顯著提高小語(yǔ)種(土爾其語(yǔ))的識(shí)別性能。

8.2.1       基于特征共享的小語(yǔ)種識(shí)別

人類語(yǔ)言在語(yǔ)音層具有共性,因此可以利用多語(yǔ)言或主流語(yǔ)言的數(shù)據(jù)資源訓(xùn)練語(yǔ)音特征提取器,直接用于小語(yǔ)種數(shù)據(jù)做特征提取并構(gòu)造聲學(xué)模型。這一特征共享方案既可用于GMM-HMM系統(tǒng),也可用于DNN-HMM系統(tǒng)。

常用的可共享特征包括瓶頸(Bottle Neck, BN)特征[8, 9]和后驗(yàn)概率特征[10, 11]。如圖 8.5所示,首先構(gòu)造一個(gè)MLP/DNN音素分類器,該分類器的中間層輸出具有顯著的發(fā)音區(qū)分性。一般中間層比其它層具有較少的節(jié)點(diǎn)數(shù),因此稱為瓶頸層,相應(yīng)的輸出稱為瓶頸特征。同時(shí),該分類器的輸出為輸入語(yǔ)音幀對(duì)應(yīng)的音素后驗(yàn)概率,同樣具有明顯的發(fā)音區(qū)分性,稱為后驗(yàn)概率特征。

Tuske等人 [12]用多語(yǔ)言數(shù)據(jù)訓(xùn)練一個(gè)多語(yǔ)言DNN模型(圖 8.6),通過提取瓶頸特征用于小語(yǔ)種語(yǔ)音識(shí)別。該特征在GMM-HMM和DNN-HMM系統(tǒng)中都取得了較好較果。類似的方法也用在Thomas [13]和 Knill [14]等人的工作中。

Stolcke等人 [15]研究了基于后驗(yàn)概率特征的跨語(yǔ)言識(shí)別。他們發(fā)現(xiàn)一個(gè)用英語(yǔ)訓(xùn)練的音素區(qū)分網(wǎng)絡(luò)得到的后驗(yàn)概率特征可以直接用于漢語(yǔ)和阿拉伯語(yǔ)等語(yǔ)音識(shí)別任務(wù)中。Toth等人 [16]的工作也發(fā)現(xiàn),基于英語(yǔ)訓(xùn)練的MLP可直接對(duì)匈牙利語(yǔ)數(shù)據(jù)提取后驗(yàn)概率特征并用于聲學(xué)模型建模。

圖 8.5: 瓶頸特征和后驗(yàn)概率特征。

圖 8.6: 用于BN特征提取的多語(yǔ)言DNN模型。

8.3    基于參數(shù)共享的小語(yǔ)種識(shí)別

在基于DNN的語(yǔ)音識(shí)別系統(tǒng)中,DNN用來逐層學(xué)習(xí)語(yǔ)音信號(hào)中的區(qū)分性信息并最終輸出在音素(或senones)上的后驗(yàn)概率?;谌祟愓Z(yǔ)音的共性,可以想象該DNN模型在前幾層都在學(xué)習(xí)和語(yǔ)言無關(guān)的特征,只有在最后幾層,語(yǔ)言信息才開始變得明確。因此,我們可以通過共享DNN的前幾層參數(shù)來克服小語(yǔ)種建模的數(shù)據(jù)稀缺問題。和特征共享方式不同,參數(shù)共享主要用于DNN-HMM系統(tǒng)中的DNN模型訓(xùn)練。這一共享通常有兩種方式:多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)。

多任務(wù)學(xué)習(xí)(Multi-task Learning)是指通過共享同一個(gè)網(wǎng)絡(luò)或網(wǎng)絡(luò)的一部分對(duì)多個(gè)任務(wù)進(jìn)行同時(shí)學(xué)習(xí)?;谶@一學(xué)習(xí)方式,參與共享的網(wǎng)絡(luò)在參數(shù)更新時(shí)可利用多個(gè)任務(wù)的誤差信息,從而實(shí)現(xiàn)不同任務(wù)之間的信息共享。應(yīng)用到小語(yǔ)種識(shí)別上,可以將包括小語(yǔ)種在內(nèi)的多個(gè)語(yǔ)言作為不同任務(wù),這些任務(wù)共享DNN特征提取層,輸出層則互相獨(dú)立[17, 18,19]。圖 8.7給出了一個(gè)多語(yǔ)言共享的DNN模型結(jié)構(gòu)。

圖 8.7: 基于多任務(wù)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)。圖片來自 [17]。

Chen 等人 [20]將多任務(wù)學(xué)習(xí)方法應(yīng)用到小語(yǔ)種識(shí)別中。他們采用的模型如圖 8.8 所示。該模型除了將多個(gè)小語(yǔ)種識(shí)別作為獨(dú)立任務(wù)外,還引入了一個(gè)通用音素識(shí)別任務(wù),即將所有語(yǔ)言的音素集統(tǒng)一為一個(gè)通用音素集,在訓(xùn)練時(shí)不僅計(jì)算在特定語(yǔ)言音素集上的誤差,而且計(jì)算在通用音素集上的誤差。作者利用南非的3個(gè)小語(yǔ)種數(shù)據(jù)進(jìn)行研究,每種語(yǔ)言數(shù)據(jù)量為3-8小時(shí)。實(shí)驗(yàn)證明,多任務(wù)學(xué)習(xí)可有效提高小語(yǔ)種的識(shí)別性能。

圖 8.8: 基于多任務(wù)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò),其中每個(gè)語(yǔ)言上的識(shí)別作為一個(gè)獨(dú)立任務(wù),外加一個(gè)在通用音素集上的識(shí)別任務(wù)。圖片來自 [20]。

遷移學(xué)習(xí) (Transfer learning) [21]是另一種常用的小語(yǔ)種建模方法。該方法首先利用多語(yǔ)言數(shù)據(jù)或主流語(yǔ)言數(shù)據(jù)建立一個(gè)DNN模型,基于該模型對(duì)小語(yǔ)種模型進(jìn)行初始化,再利用少量小語(yǔ)種數(shù)據(jù)進(jìn)行針對(duì)性訓(xùn)練。如圖 8.9所示,我們有大量漢語(yǔ)數(shù)據(jù),但日語(yǔ)數(shù)據(jù)稀缺。遷移學(xué)習(xí)首先訓(xùn)練一個(gè)漢語(yǔ)DNN模型,再基于該模型初始化日語(yǔ)DNN模型。由于漢語(yǔ)和日語(yǔ)音素集不同,我們僅能遷移底層的部分網(wǎng)絡(luò)(圖中為第一層),其余網(wǎng)絡(luò)參數(shù)需要隨機(jī)初始化。日語(yǔ)DNN初始化完成后,可利用少量日語(yǔ)數(shù)據(jù)做進(jìn)一步訓(xùn)練。

圖 8.9: 基于遷移學(xué)習(xí)的小語(yǔ)種建模。首先利用漢語(yǔ)數(shù)據(jù)訓(xùn)練一個(gè)DNN模型,取其第一層參數(shù)復(fù)制到日語(yǔ)DNN模型中,再利用少量日語(yǔ)數(shù)據(jù)做針對(duì)性訓(xùn)練。

8.3.1       基于半監(jiān)督學(xué)習(xí)的小語(yǔ)種識(shí)別方法

小語(yǔ)種識(shí)別的主要困難在于語(yǔ)音數(shù)據(jù)的稀缺。在很多時(shí)候,稀缺的并不是語(yǔ)音數(shù)據(jù)本身,而是語(yǔ)音的文本標(biāo)注。如果可以利用大量未標(biāo)注數(shù)據(jù),則小語(yǔ)種識(shí)別的困難有望得到很大緩解?;谶@一思想,Shi等人 [22]提出一種稱為MaR(Map and Relabel)的半監(jiān)督學(xué)習(xí)方法。該方法分為Map和Relable兩個(gè)步驟。在Map步中,作者首先利用漢語(yǔ)訓(xùn)練一個(gè)大規(guī)模DNN,其輸出為Senone(對(duì)應(yīng)共享的tri-phone)。基于遷移學(xué)習(xí)的思路,將該漢語(yǔ)DNN去掉最后一個(gè)線性層后作為維語(yǔ)DNN的特征提取網(wǎng)絡(luò),并加入一個(gè)隨機(jī)初始化的線性層,用來預(yù)測(cè)維語(yǔ)的音素(圖 8.10)。因?yàn)橐羲亓恳h(yuǎn)小于Senone,這一隨機(jī)初始化的線性層可通過少量標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。學(xué)習(xí)完畢后,即得到一個(gè)維語(yǔ)DNN。在Relabel步,基于該維語(yǔ)DNN 對(duì)未標(biāo)注的維語(yǔ)數(shù)據(jù)進(jìn)行識(shí)別,得到這些數(shù)據(jù)的偽標(biāo)注。這些偽標(biāo)注的數(shù)據(jù)可以用來對(duì)維語(yǔ)進(jìn)行DNN建模。實(shí)驗(yàn)結(jié)果表明,基于該方法,利用10個(gè)小時(shí)的數(shù)據(jù)即可獲得傳統(tǒng)方法用100小時(shí)數(shù)據(jù)得到的識(shí)別率。

圖 8.10: MaR方法中的Map步。左圖為一個(gè)基于Senone的漢語(yǔ)音DNN,右圖為基于音素的維語(yǔ)DNN。維語(yǔ)DNN的特征提取層由漢語(yǔ)DNN復(fù)制得到。

8.4    其它小語(yǔ)種識(shí)別方法
8.4.1       Grapheme 建模

很多小語(yǔ)種的語(yǔ)音學(xué)和語(yǔ)言學(xué)研究還不充分,缺少完整的發(fā)音詞典。對(duì)這些語(yǔ)言可以基于Grapheme建模。所謂Grapheme,是指組成單詞的字母。這些字母有可能對(duì)應(yīng)多個(gè)發(fā)音(如英語(yǔ)里的k,在katskip里發(fā)音不同),或字母組合對(duì)應(yīng)一個(gè)發(fā)音(如英語(yǔ)里的thph)?;贕rapheme的語(yǔ)音識(shí)別系統(tǒng)可以省去構(gòu)造發(fā)音詞典的麻煩 [23]。Le等人[24]以越南語(yǔ)為例研究了基于Graphame在小語(yǔ)種上的建模問題,Chen 等人 [20]將Grapheme作為輔助任務(wù)來訓(xùn)練多任務(wù)DNN,提高了小語(yǔ)種識(shí)別性能。

8.4.2       網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練方法

因?yàn)閿?shù)據(jù)量小,小語(yǔ)種建模容易產(chǎn)生過訓(xùn)練問題。Miao等人 [25]發(fā)現(xiàn)在DNN訓(xùn)練中引入Dropout操作可有效防止DNN的過訓(xùn)練。同時(shí),利用Maxout激活函數(shù)可進(jìn)一步提高小語(yǔ)種建模的性能。作者認(rèn)為這是因?yàn)镸axout激活函數(shù)可以學(xué)習(xí)到語(yǔ)音信號(hào)中的稀疏特征,從而提高對(duì)噪音等干擾因素的抵抗力。圖 8.11給出了Droput操作和Maxout激活函數(shù)對(duì)DNN識(shí)別性能的影響。

圖 8.11: 基于Dropout和MaxOut激活函數(shù)的小語(yǔ)種語(yǔ)音識(shí)別。左圖為低資源建模,右圖為較大數(shù)據(jù)建模。可以看到,在低資源建模情況下, Dropout和Maxout激活函數(shù)對(duì)DNN模型有更大幫助。圖片來自 [25]。

8.4.2       網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練方法

數(shù)據(jù)增強(qiáng) (Data Augmentation)是一種增加DNN模型魯棒性的常見做法 [26, 27, 28]。所謂數(shù)據(jù)增強(qiáng),是指人為往訓(xùn)練數(shù)據(jù)中混入各種噪聲和干擾,以提高數(shù)據(jù)的覆蓋度。對(duì)小語(yǔ)種識(shí)別,基本訓(xùn)練數(shù)據(jù)量很小,這時(shí)語(yǔ)音增強(qiáng)就顯得非常重要。例如,Ragni等人 [29]基于Babel數(shù)據(jù)研究了語(yǔ)音增強(qiáng)在阿薩姆和祖魯語(yǔ)上的效果,發(fā)現(xiàn)基于聲道長(zhǎng)度變換的語(yǔ)音增強(qiáng)可提高小語(yǔ)種語(yǔ)音識(shí)別的性能。

8.5    小語(yǔ)種語(yǔ)音識(shí)別實(shí)踐

8.5.1       音頻數(shù)據(jù)采集

在前文中,我們已經(jīng)提到了小語(yǔ)種語(yǔ)音識(shí)別面臨的首要問題是數(shù)據(jù)資源稀缺性,這主要是因?yàn)樾≌Z(yǔ)種的適用人群與流通范圍相對(duì)較小,且很多小語(yǔ)種分布的地區(qū)信息化尚不完備,導(dǎo)致對(duì)語(yǔ)音數(shù)據(jù)的收集和整理成本偏高,且質(zhì)量難以控制。因此,在有限的條件下收集最有價(jià)值的語(yǔ)音數(shù)據(jù)就顯得至關(guān)重要。什么樣的數(shù)據(jù)是有價(jià)值的數(shù)據(jù)呢?首先要保證音素的覆蓋度,包括單個(gè)音素和上下文相關(guān)音素的覆蓋度。滿足了發(fā)音覆蓋度,還需要考慮說話人的覆蓋度,包括性別、年齡、口音等。除此之外,還需要增加信道、噪聲,混響,音量、語(yǔ)速等發(fā)音特性上的覆蓋度。這些特性雖然可以用數(shù)據(jù)增強(qiáng)方法模擬,但真實(shí)場(chǎng)景
下的數(shù)據(jù)對(duì)提高識(shí)別率更有價(jià)值。

8.5.2       文本數(shù)據(jù)采集

相對(duì)于語(yǔ)音數(shù)據(jù),文本數(shù)據(jù)的采集比較容易,一般用網(wǎng)絡(luò)爬蟲即可不間斷地獲取。文本數(shù)據(jù)主要用于構(gòu)建語(yǔ)言模型,因此需要考慮的主要是對(duì)領(lǐng)域的匹配度。例如,如果我們的任務(wù)是識(shí)別口語(yǔ)對(duì)話,那么收集論壇的評(píng)論就比收集新聞網(wǎng)頁(yè)有價(jià)值的多。文本的領(lǐng)域匹配度可以用候選文本在一個(gè)領(lǐng)域相關(guān)語(yǔ)言模型上的混淆度(Perplexity, PPL )來衡量,PPL越低,說明該文本與目標(biāo)領(lǐng)域的匹配度越高。例如,可以選取一些和領(lǐng)域相關(guān)的文本作為種子訓(xùn)練一個(gè)n-gram模型,在數(shù)據(jù)采集時(shí)計(jì)算每句話在該模型上的PPL并保留PPL相對(duì)較低的句子。SRILM工具包 [30]提供了計(jì)算PPL的接口,可直接調(diào)用。

8.5.3       文本正規(guī)化

處理小語(yǔ)種的語(yǔ)音標(biāo)注或語(yǔ)言模型文本時(shí),一般會(huì)將其轉(zhuǎn)換成拉丁字母形式,以方便計(jì)算機(jī)處理和非母語(yǔ)研究者進(jìn)行檢查。一些小語(yǔ)種的拼寫方式很不規(guī)范,需要在處理時(shí)特別注意。以維語(yǔ)為例,該語(yǔ)言的拼寫和發(fā)音是一一對(duì)應(yīng)的,而不同地區(qū)對(duì)同一個(gè)單詞的發(fā)音可能很不相同,直接導(dǎo)致拼寫上的各異性。這種拼寫上的各異性給語(yǔ)言模型建模帶來很大困難,需要在建模前將各異化的拼寫歸一到標(biāo)準(zhǔn)拼寫。

對(duì)非母語(yǔ)研究來說,在對(duì)某種小語(yǔ)種建模之前可以多了解一下該語(yǔ)言的特性,以選擇最合理的建模方法。這些特性包括:該語(yǔ)種是否存在元音和諧律,元音和諧律是否會(huì)為文本處理帶來歧義,如何處理外來詞,如何處理網(wǎng)絡(luò)用語(yǔ),如何進(jìn)行字詞分割(例如,大部分阿拉伯文以空格分割,而藏語(yǔ)則有特定的分隔符)等等。這些經(jīng)驗(yàn)可以讓研究者少走彎路。

8.5.4       發(fā)音詞典設(shè)計(jì)
 

合理的發(fā)音詞典可降低聲學(xué)模型和語(yǔ)言模型的建模難度。對(duì)小語(yǔ)種語(yǔ)音識(shí)別來說,設(shè)計(jì)發(fā)音詞典最重要的是選擇合理的發(fā)音單元和語(yǔ)言模型單元,而這一選擇與語(yǔ)言本身的特性直接相關(guān)。以漢語(yǔ)為例,發(fā)音單元一般可選音素或聲韻母,語(yǔ)言模型單元一般選詞。對(duì)維語(yǔ)而言,因?yàn)榘l(fā)音與拼寫對(duì)應(yīng),發(fā)音單元選擇Grapheme 即可。同時(shí),因?yàn)榫S語(yǔ)是粘著語(yǔ),以詞干為基礎(chǔ),可以加入若干后綴形成新詞。這意味著維語(yǔ)的詞匯量極大,且新詞產(chǎn)生率較高。這時(shí)以詞為單位建立語(yǔ)言模型就不合適,一般可選擇詞素(Morpheme)為建模單元 [31]。

8.6    小結(jié)

本章主要討論了小語(yǔ)種語(yǔ)音識(shí)別的建模方法。不論是傳統(tǒng)方法還是基于深度學(xué)習(xí)的方法,共享是提高小語(yǔ)種識(shí)別性能的基本思想。這一共享可以在音素、特征和模型參數(shù)三個(gè)層次體現(xiàn)。音素共享目的是在不同語(yǔ)言的發(fā)音單元間建立映射關(guān)系,從而可以用其它語(yǔ)言的語(yǔ)音數(shù)據(jù)對(duì)目標(biāo)語(yǔ)言的音素進(jìn)行訓(xùn)練。這一方法簡(jiǎn)單有效,但這種離散單元之間的映射忽略了不同語(yǔ)言在發(fā)音上的細(xì)節(jié)差異,常會(huì)帶來性能損失。特征共享和參數(shù)共享本質(zhì)上都是復(fù)用基于神經(jīng)網(wǎng)絡(luò)的特征提取單元,而這一復(fù)用的基本假設(shè)是不同語(yǔ)言在發(fā)音上的相似性。得益于DNN對(duì)復(fù)雜場(chǎng)景的特征學(xué)習(xí)能力,這兩種共享方案在當(dāng)前大數(shù)據(jù)學(xué)習(xí)時(shí)代取得了很大成功,顯著提高了小語(yǔ)種語(yǔ)音識(shí)別的性能。除了基礎(chǔ)的共享方法外,我們還討論了小語(yǔ)種建模中的若干技巧,包括對(duì)未標(biāo)注數(shù)據(jù)的利用、模型結(jié)構(gòu)選擇與訓(xùn)練方法、數(shù)據(jù)采集方案、詞典設(shè)計(jì)方案等。

總體來說,近年來小語(yǔ)種語(yǔ)音識(shí)別取得了長(zhǎng)足進(jìn)展,特別是基于DNN的特征共享和參數(shù)共享方法極大提高了小語(yǔ)種的聲學(xué)建模能力。目前制約小語(yǔ)種識(shí)別性能進(jìn)一步提高的主因可能是發(fā)音詞典、語(yǔ)言模型這些和語(yǔ)言本身特性相關(guān)的部分。另外,外來語(yǔ)、地域口音等語(yǔ)言現(xiàn)象在小語(yǔ)種里表現(xiàn)得更為普遍,需要設(shè)計(jì)合理的模型方法進(jìn)行針對(duì)性處理。 

References

[1]Victoria Fromkin, Robert Rodman, and Nina Hyams. An introduction to language. 2018.

[2]P Cohen et al. “Towards a universal speech recognizer for multiple languages”. In: IEEE 1997 Workshop on Automatic Speech Recognition and Understanding Proceedings. 1997, pages 591–598.

[3]Tanja Schultz and Alex Waibel. “Experiments on cross-language acoustic modeling”. In:Seventh European Conference on Speech Communication and Technology. 2001.

[4]Tanja Schultz and Alex Waibel. “Polyphone decision tree specialization for language adap- tation”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2000, pages 1707–1710.

[5]Hui Lin et al. “A study on multilingual acoustic modeling for large vocabulary ASR”.   In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2009, pages 4333–4336.

[6]Khe Chai Sim and Haizhou Li. “Robust phone set mapping using decision tree clustering for cross-lingual phone recognition”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2008, pages 4309–4312.

[7]Amit Das and Mark Hasegawa-Johnson. “Cross-lingual transfer learning during supervised training in low resource scenarios”. In: Sixteenth Annual Conference of the International Speech Communication Association. 2015.

[8]Dong Yu and Michael L Seltzer. “Improved bottleneck features using pretrained deep neu- ral networks”. In: Twelfth annual conference of the international speech communication association. 2011.

[9]Karel Vesel et al. “The language-independent bottleneck features”. In: IEEE 2012 Spoken Language Technology Workshop. 2012, pages 336–341.

[10]Andreas Stolcke et al. “Cross-domain and cross-language portability of acoustic features es- timated by multilayer perceptrons”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2006, pages I–I.

[11]Mireia Diez et al. “On the use of phone log-likelihood ratios as features in spoken language recognition”. In: IEEE 2012 Spoken Language Technology Workshop. 2012, pages 274–279.

[12]Zoltán Tüske et al. “Investigation on cross-and multilingual MLP features under matched and mismatched acoustical conditions”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 7349–7353.

[13]Samuel Thomas et al. “Deep neural network features and semi-supervised training for low resource speech recognition”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 6704–6708.

[14]Katherine Knill et al. “Language independent and unsupervised acoustic models for speech recognition and keyword spotting”. In: (2014).

[15]Andreas Stolcke et al. “Cross-domain and cross-language portability of acoustic features es- timated by multilayer perceptrons”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2006, pages I–I.

[16]László Tóth et al. “Cross-lingual Portability of MLP-Based Tandem Features–A Case Study for English and Hungarian”. In: (2008).

[17]Jui-Ting Huang et al. “Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 7304–7308.

[18]Georg Heigold et al. “Multilingual acoustic models using distributed deep neural networks”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 8619–8623.

[19]Arnab Ghoshal, Pawel Swietojanski, and Steve Renals. “Multilingual training of deep neu- ral networks”. In: IEEE International Conference on Acoustics, Speech and Signal Process- ing. 2013, pages 7319–7323.

[20]Dongpeng Chen and Brian Kan-Wing Mak. “Multitask learning of deep neural networks for low-resource speech recognition”. In: IEEE Transactions on Audio, Speech, and Language Processing (2015), pages 1172–1183.

[21]Dong Wang and Thomas Fang Zheng. “Transfer learning for speech and language process- ing”. In: Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. 2015, pages 1225–1237.

[22]Ying Shi et al. “Map and Relabel: Towards Almost-Zero Resource Speech Recognition”. In: Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. 2018, pages 591–595.

[23]Mirjam Killer, Sebastian Stuker, and Tanja Schultz. “Grapheme based speech recognition”. In: Eighth European Conference on Speech Communication and Technology. 2003.

[24]Viet-Bac Le and Laurent Besacier. “Automatic speech recognition for under-resourced lan- guages: application to Vietnamese language”. In: IEEE Transactions on Audio, Speech, and Language Processing (2009), pages 1471–1482.

[25]Yajie Miao, Florian Metze, and Shourabh Rawat. “Deep maxout networks for low-resource speech recognition”. In: IEEE 2013 Workshop on Automatic Speech Recognition and Under- standing. 2013, pages 398–403.

[26]Shi Yin et al. “Noisy training for deep neural networks in speech recognition”. In: EURASIP Journal on Audio, Speech, and Music Processing (2015), pages 1–14.

[27]Tom Ko et al. “Audio augmentation for speech recognition”. In: Sixteenth Annual Confer- ence of the International Speech Communication Association. 2015.

[28]Tom Ko et al. “A study on data augmentation of reverberant speech for robust speech recog- nition”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2017, pages 5220–5224.

[29]Anton Ragni et al. “Data augmentation for low resource languages”. In: (2014).

[30]Andreas Stolcke. “SRILM-an extensible language modeling toolkit”. In: Seventh interna- tional conference on spoken language processing. 2002.

[31]Mijit Ablimit, Tatsuya Kawahara, and Askar Hamdulla. “Lexicon optimization based on discriminative learning for automatic speech recognition of agglutinative language”. In: Speech communication (2014), pages 78–87.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多