世界上存在近7000種語(yǔ)言 [1],其中絕大部分是小語(yǔ)種,使用人數(shù)超過1億人的也就10余種(見圖 8.1)。在我國(guó),漢語(yǔ)的使用人口最多,占總?cè)丝诘?0%以上,余下的70多種語(yǔ)言絕大部分是小語(yǔ)種,使用人數(shù)少,語(yǔ)音和語(yǔ)言資源有限。一般認(rèn)為小語(yǔ)種是除聯(lián)合國(guó)六種通用語(yǔ)言(漢語(yǔ),英語(yǔ),法語(yǔ),俄語(yǔ),西班牙語(yǔ)和阿拉伯語(yǔ))以外的所有語(yǔ)言。本章將討論小語(yǔ)種識(shí)別的若干關(guān)鍵技術(shù)。 值得說明的是,小語(yǔ)種和方言有所不同。小語(yǔ)種本質(zhì)上是一門獨(dú)立的語(yǔ)言,有獨(dú)立且完備的發(fā)音體系、書寫方式及語(yǔ)法現(xiàn)象。對(duì)于方言(Dialect)的界定則不像小語(yǔ)種那么清晰,一般認(rèn)為是因地理差異形成的較大規(guī)模的語(yǔ)言變體,包括發(fā)音和用詞等方面的改變。比方言再低一個(gè)層次的語(yǔ)言變化稱為口音(Accent)。口音只包含發(fā)音上的改變,這種改變既可能是因?yàn)榈赜蛟?,也可能來源于外語(yǔ)習(xí)得時(shí)遺留的母語(yǔ)影響。我們所討論的小語(yǔ)種識(shí)別技術(shù)同樣可用于改進(jìn)對(duì)方言和口音的識(shí)別。 8.1 小語(yǔ)種語(yǔ)音識(shí)別面臨的主要困難
Schultz等人 [3, 4]基于國(guó)際音標(biāo)(International Phonetic Alphabet, IPA)將不同語(yǔ)言統(tǒng)一到一個(gè)通用音素集上,并基于該音素集構(gòu)造多語(yǔ)言GMM-HMM模型,訓(xùn)練時(shí)利用多語(yǔ)言數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,如圖 8.3所示。在Global Phone數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,音素共享和多語(yǔ)言數(shù)據(jù)訓(xùn)練可以為小語(yǔ)種提供更好的初始模型,經(jīng)過少量數(shù)據(jù)做自適應(yīng)訓(xùn)練后,可取得比單獨(dú)訓(xùn)練更好的識(shí)別性能。Lin等人 [5] 的工作同樣基于共享音素的多語(yǔ)言建模,只不過實(shí)驗(yàn)基于通用音素集(Universal Phone Set, UPS)。UPS和IPA基本上是對(duì)應(yīng)的,不同之處是UPS包含了一些組合音,如鼻化元音等。 另一種音素共享方法基于數(shù)據(jù)驅(qū)動(dòng)。假設(shè)有語(yǔ)言A和B,首先為這兩種語(yǔ)言單獨(dú)建立語(yǔ)音識(shí)別器,之后對(duì)這些語(yǔ)言的所有或部分?jǐn)?shù)據(jù)利用A和B兩個(gè)語(yǔ)言的識(shí)別器分別解碼,得到基于兩種語(yǔ)言的識(shí)別結(jié)果。基于這些識(shí)別結(jié)果,可以統(tǒng)計(jì)這些語(yǔ)言之間的音素混淆矩陣,從而得到這些語(yǔ)言之間的映射。這里的混淆矩陣是指一種語(yǔ)言中的某個(gè)音素被映射為另一種語(yǔ)言中的某個(gè)音素的概率。所有這些概率將組成一個(gè)N ×M的矩陣T,其中M和N分別是兩種語(yǔ)言的音素集大小,,即語(yǔ)言A中的第i個(gè)音素映射到語(yǔ)言 B中的第j個(gè)音素的概率。在實(shí)際建模時(shí),通常對(duì)兩種語(yǔ)言的識(shí)別結(jié)果做幀級(jí)別的強(qiáng)制對(duì)齊,再統(tǒng)計(jì)不同語(yǔ)言各個(gè)音素之間的對(duì)應(yīng)幀數(shù),即可統(tǒng)計(jì)出混淆矩陣中對(duì)應(yīng)的概率。Sim等[6]基于這一思路實(shí)現(xiàn)了一個(gè)用俄語(yǔ)模型來識(shí)別捷克語(yǔ)的跨語(yǔ)言識(shí)別系統(tǒng),首先基于數(shù)據(jù)驅(qū)動(dòng)建立俄語(yǔ)到捷克語(yǔ)的音素映射,然后利用俄語(yǔ)模型對(duì)捷克語(yǔ)進(jìn)行識(shí)別,最后再把得到的俄語(yǔ)音素串轉(zhuǎn)換成捷克語(yǔ)音素串。 Schultz [3]等人對(duì)比研究了基于IPA的音素映射方法和基于數(shù)據(jù)驅(qū)動(dòng)的音素映射方法。他們首先基于IPA對(duì)七種語(yǔ)言建立一個(gè)多語(yǔ)言識(shí)別系統(tǒng),之后基于IPA或數(shù)據(jù)驅(qū)動(dòng)建立一個(gè)七種語(yǔ)言音素集到瑞典語(yǔ)音素集的映射,最后基于該映射對(duì)瑞典語(yǔ)進(jìn)行識(shí)別。這一識(shí)別可以直接利用七種語(yǔ)言的識(shí)別系統(tǒng),并將識(shí)別結(jié)果依音素映射表轉(zhuǎn)換為瑞典語(yǔ)輸出;也可以用七種語(yǔ)言的模型做初始化,并用少量瑞典語(yǔ)數(shù)據(jù)做自適應(yīng)訓(xùn)練。圖 8.4給出了基于IPA和數(shù)據(jù)驅(qū)動(dòng)得到的映射表,表中每一行為一個(gè)瑞典音素。在數(shù)據(jù)驅(qū)動(dòng)方式中,選擇混淆度最大的七種語(yǔ)言音素作為映射結(jié)果。 圖 8.2: 基于知識(shí)的英語(yǔ)-法語(yǔ)音素共享與映射。圖片來自 [2]。 圖 8.3: 國(guó)際音標(biāo)(International Phonetic Alphabet, IPA)對(duì)應(yīng)表 2018修訂版 。 音素共享也可以用于DNN識(shí)別系統(tǒng)中。例如,Das等人 [7]基于IPA建立了英語(yǔ)和土耳其語(yǔ)聯(lián)合音素集,基于這一音素集,可以訓(xùn)練多語(yǔ)言GMM-HMM和多語(yǔ)言DNN-HMM 系統(tǒng)。不論哪種模型,音素共享方法都可以顯著提高小語(yǔ)種(土爾其語(yǔ))的識(shí)別性能。 8.2.1 基于特征共享的小語(yǔ)種識(shí)別 人類語(yǔ)言在語(yǔ)音層具有共性,因此可以利用多語(yǔ)言或主流語(yǔ)言的數(shù)據(jù)資源訓(xùn)練語(yǔ)音特征提取器,直接用于小語(yǔ)種數(shù)據(jù)做特征提取并構(gòu)造聲學(xué)模型。這一特征共享方案既可用于GMM-HMM系統(tǒng),也可用于DNN-HMM系統(tǒng)。 常用的可共享特征包括瓶頸(Bottle Neck, BN)特征[8, 9]和后驗(yàn)概率特征[10, 11]。如圖 8.5所示,首先構(gòu)造一個(gè)MLP/DNN音素分類器,該分類器的中間層輸出具有顯著的發(fā)音區(qū)分性。一般中間層比其它層具有較少的節(jié)點(diǎn)數(shù),因此稱為瓶頸層,相應(yīng)的輸出稱為瓶頸特征。同時(shí),該分類器的輸出為輸入語(yǔ)音幀對(duì)應(yīng)的音素后驗(yàn)概率,同樣具有明顯的發(fā)音區(qū)分性,稱為后驗(yàn)概率特征。 Tuske等人 [12]用多語(yǔ)言數(shù)據(jù)訓(xùn)練一個(gè)多語(yǔ)言DNN模型(圖 8.6),通過提取瓶頸特征用于小語(yǔ)種語(yǔ)音識(shí)別。該特征在GMM-HMM和DNN-HMM系統(tǒng)中都取得了較好較果。類似的方法也用在Thomas [13]和 Knill [14]等人的工作中。 Stolcke等人 [15]研究了基于后驗(yàn)概率特征的跨語(yǔ)言識(shí)別。他們發(fā)現(xiàn)一個(gè)用英語(yǔ)訓(xùn)練的音素區(qū)分網(wǎng)絡(luò)得到的后驗(yàn)概率特征可以直接用于漢語(yǔ)和阿拉伯語(yǔ)等語(yǔ)音識(shí)別任務(wù)中。Toth等人 [16]的工作也發(fā)現(xiàn),基于英語(yǔ)訓(xùn)練的MLP可直接對(duì)匈牙利語(yǔ)數(shù)據(jù)提取后驗(yàn)概率特征并用于聲學(xué)模型建模。 圖 8.5: 瓶頸特征和后驗(yàn)概率特征。 圖 8.6: 用于BN特征提取的多語(yǔ)言DNN模型。 8.3 基于參數(shù)共享的小語(yǔ)種識(shí)別 在基于DNN的語(yǔ)音識(shí)別系統(tǒng)中,DNN用來逐層學(xué)習(xí)語(yǔ)音信號(hào)中的區(qū)分性信息并最終輸出在音素(或senones)上的后驗(yàn)概率?;谌祟愓Z(yǔ)音的共性,可以想象該DNN模型在前幾層都在學(xué)習(xí)和語(yǔ)言無關(guān)的特征,只有在最后幾層,語(yǔ)言信息才開始變得明確。因此,我們可以通過共享DNN的前幾層參數(shù)來克服小語(yǔ)種建模的數(shù)據(jù)稀缺問題。和特征共享方式不同,參數(shù)共享主要用于DNN-HMM系統(tǒng)中的DNN模型訓(xùn)練。這一共享通常有兩種方式:多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)。 圖 8.7: 基于多任務(wù)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)。圖片來自 [17]。 Chen 等人 [20]將多任務(wù)學(xué)習(xí)方法應(yīng)用到小語(yǔ)種識(shí)別中。他們采用的模型如圖 8.8 所示。該模型除了將多個(gè)小語(yǔ)種識(shí)別作為獨(dú)立任務(wù)外,還引入了一個(gè)通用音素識(shí)別任務(wù),即將所有語(yǔ)言的音素集統(tǒng)一為一個(gè)通用音素集,在訓(xùn)練時(shí)不僅計(jì)算在特定語(yǔ)言音素集上的誤差,而且計(jì)算在通用音素集上的誤差。作者利用南非的3個(gè)小語(yǔ)種數(shù)據(jù)進(jìn)行研究,每種語(yǔ)言數(shù)據(jù)量為3-8小時(shí)。實(shí)驗(yàn)證明,多任務(wù)學(xué)習(xí)可有效提高小語(yǔ)種的識(shí)別性能。 遷移學(xué)習(xí) (Transfer learning) [21]是另一種常用的小語(yǔ)種建模方法。該方法首先利用多語(yǔ)言數(shù)據(jù)或主流語(yǔ)言數(shù)據(jù)建立一個(gè)DNN模型,基于該模型對(duì)小語(yǔ)種模型進(jìn)行初始化,再利用少量小語(yǔ)種數(shù)據(jù)進(jìn)行針對(duì)性訓(xùn)練。如圖 8.9所示,我們有大量漢語(yǔ)數(shù)據(jù),但日語(yǔ)數(shù)據(jù)稀缺。遷移學(xué)習(xí)首先訓(xùn)練一個(gè)漢語(yǔ)DNN模型,再基于該模型初始化日語(yǔ)DNN模型。由于漢語(yǔ)和日語(yǔ)音素集不同,我們僅能遷移底層的部分網(wǎng)絡(luò)(圖中為第一層),其余網(wǎng)絡(luò)參數(shù)需要隨機(jī)初始化。日語(yǔ)DNN初始化完成后,可利用少量日語(yǔ)數(shù)據(jù)做進(jìn)一步訓(xùn)練。 8.3.1 基于半監(jiān)督學(xué)習(xí)的小語(yǔ)種識(shí)別方法 圖 8.10: MaR方法中的Map步。左圖為一個(gè)基于Senone的漢語(yǔ)音DNN,右圖為基于音素的維語(yǔ)DNN。維語(yǔ)DNN的特征提取層由漢語(yǔ)DNN復(fù)制得到。 很多小語(yǔ)種的語(yǔ)音學(xué)和語(yǔ)言學(xué)研究還不充分,缺少完整的發(fā)音詞典。對(duì)這些語(yǔ)言可以基于Grapheme建模。所謂Grapheme,是指組成單詞的字母。這些字母有可能對(duì)應(yīng)多個(gè)發(fā)音(如英語(yǔ)里的k,在kat和skip里發(fā)音不同),或字母組合對(duì)應(yīng)一個(gè)發(fā)音(如英語(yǔ)里的th和ph)?;贕rapheme的語(yǔ)音識(shí)別系統(tǒng)可以省去構(gòu)造發(fā)音詞典的麻煩 [23]。Le等人[24]以越南語(yǔ)為例研究了基于Graphame在小語(yǔ)種上的建模問題,Chen 等人 [20]將Grapheme作為輔助任務(wù)來訓(xùn)練多任務(wù)DNN,提高了小語(yǔ)種識(shí)別性能。 8.4.2 網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練方法 因?yàn)閿?shù)據(jù)量小,小語(yǔ)種建模容易產(chǎn)生過訓(xùn)練問題。Miao等人 [25]發(fā)現(xiàn)在DNN訓(xùn)練中引入Dropout操作可有效防止DNN的過訓(xùn)練。同時(shí),利用Maxout激活函數(shù)可進(jìn)一步提高小語(yǔ)種建模的性能。作者認(rèn)為這是因?yàn)镸axout激活函數(shù)可以學(xué)習(xí)到語(yǔ)音信號(hào)中的稀疏特征,從而提高對(duì)噪音等干擾因素的抵抗力。圖 8.11給出了Droput操作和Maxout激活函數(shù)對(duì)DNN識(shí)別性能的影響。 8.4.2 網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練方法 8.5 小語(yǔ)種語(yǔ)音識(shí)別實(shí)踐 8.5.1 音頻數(shù)據(jù)采集 在前文中,我們已經(jīng)提到了小語(yǔ)種語(yǔ)音識(shí)別面臨的首要問題是數(shù)據(jù)資源稀缺性,這主要是因?yàn)樾≌Z(yǔ)種的適用人群與流通范圍相對(duì)較小,且很多小語(yǔ)種分布的地區(qū)信息化尚不完備,導(dǎo)致對(duì)語(yǔ)音數(shù)據(jù)的收集和整理成本偏高,且質(zhì)量難以控制。因此,在有限的條件下收集最有價(jià)值的語(yǔ)音數(shù)據(jù)就顯得至關(guān)重要。什么樣的數(shù)據(jù)是有價(jià)值的數(shù)據(jù)呢?首先要保證音素的覆蓋度,包括單個(gè)音素和上下文相關(guān)音素的覆蓋度。滿足了發(fā)音覆蓋度,還需要考慮說話人的覆蓋度,包括性別、年齡、口音等。除此之外,還需要增加信道、噪聲,混響,音量、語(yǔ)速等發(fā)音特性上的覆蓋度。這些特性雖然可以用數(shù)據(jù)增強(qiáng)方法模擬,但真實(shí)場(chǎng)景 相對(duì)于語(yǔ)音數(shù)據(jù),文本數(shù)據(jù)的采集比較容易,一般用網(wǎng)絡(luò)爬蟲即可不間斷地獲取。文本數(shù)據(jù)主要用于構(gòu)建語(yǔ)言模型,因此需要考慮的主要是對(duì)領(lǐng)域的匹配度。例如,如果我們的任務(wù)是識(shí)別口語(yǔ)對(duì)話,那么收集論壇的評(píng)論就比收集新聞網(wǎng)頁(yè)有價(jià)值的多。文本的領(lǐng)域匹配度可以用候選文本在一個(gè)領(lǐng)域相關(guān)語(yǔ)言模型上的混淆度(Perplexity, PPL )來衡量,PPL越低,說明該文本與目標(biāo)領(lǐng)域的匹配度越高。例如,可以選取一些和領(lǐng)域相關(guān)的文本作為種子訓(xùn)練一個(gè)n-gram模型,在數(shù)據(jù)采集時(shí)計(jì)算每句話在該模型上的PPL并保留PPL相對(duì)較低的句子。SRILM工具包 [30]提供了計(jì)算PPL的接口,可直接調(diào)用。 8.5.3 文本正規(guī)化 處理小語(yǔ)種的語(yǔ)音標(biāo)注或語(yǔ)言模型文本時(shí),一般會(huì)將其轉(zhuǎn)換成拉丁字母形式,以方便計(jì)算機(jī)處理和非母語(yǔ)研究者進(jìn)行檢查。一些小語(yǔ)種的拼寫方式很不規(guī)范,需要在處理時(shí)特別注意。以維語(yǔ)為例,該語(yǔ)言的拼寫和發(fā)音是一一對(duì)應(yīng)的,而不同地區(qū)對(duì)同一個(gè)單詞的發(fā)音可能很不相同,直接導(dǎo)致拼寫上的各異性。這種拼寫上的各異性給語(yǔ)言模型建模帶來很大困難,需要在建模前將各異化的拼寫歸一到標(biāo)準(zhǔn)拼寫。 對(duì)非母語(yǔ)研究來說,在對(duì)某種小語(yǔ)種建模之前可以多了解一下該語(yǔ)言的特性,以選擇最合理的建模方法。這些特性包括:該語(yǔ)種是否存在元音和諧律,元音和諧律是否會(huì)為文本處理帶來歧義,如何處理外來詞,如何處理網(wǎng)絡(luò)用語(yǔ),如何進(jìn)行字詞分割(例如,大部分阿拉伯文以空格分割,而藏語(yǔ)則有特定的分隔符)等等。這些經(jīng)驗(yàn)可以讓研究者少走彎路。 8.5.4 發(fā)音詞典設(shè)計(jì) 合理的發(fā)音詞典可降低聲學(xué)模型和語(yǔ)言模型的建模難度。對(duì)小語(yǔ)種語(yǔ)音識(shí)別來說,設(shè)計(jì)發(fā)音詞典最重要的是選擇合理的發(fā)音單元和語(yǔ)言模型單元,而這一選擇與語(yǔ)言本身的特性直接相關(guān)。以漢語(yǔ)為例,發(fā)音單元一般可選音素或聲韻母,語(yǔ)言模型單元一般選詞。對(duì)維語(yǔ)而言,因?yàn)榘l(fā)音與拼寫對(duì)應(yīng),發(fā)音單元選擇Grapheme 即可。同時(shí),因?yàn)榫S語(yǔ)是粘著語(yǔ),以詞干為基礎(chǔ),可以加入若干后綴形成新詞。這意味著維語(yǔ)的詞匯量極大,且新詞產(chǎn)生率較高。這時(shí)以詞為單位建立語(yǔ)言模型就不合適,一般可選擇詞素(Morpheme)為建模單元 [31]。 8.6 小結(jié) 本章主要討論了小語(yǔ)種語(yǔ)音識(shí)別的建模方法。不論是傳統(tǒng)方法還是基于深度學(xué)習(xí)的方法,共享是提高小語(yǔ)種識(shí)別性能的基本思想。這一共享可以在音素、特征和模型參數(shù)三個(gè)層次體現(xiàn)。音素共享目的是在不同語(yǔ)言的發(fā)音單元間建立映射關(guān)系,從而可以用其它語(yǔ)言的語(yǔ)音數(shù)據(jù)對(duì)目標(biāo)語(yǔ)言的音素進(jìn)行訓(xùn)練。這一方法簡(jiǎn)單有效,但這種離散單元之間的映射忽略了不同語(yǔ)言在發(fā)音上的細(xì)節(jié)差異,常會(huì)帶來性能損失。特征共享和參數(shù)共享本質(zhì)上都是復(fù)用基于神經(jīng)網(wǎng)絡(luò)的特征提取單元,而這一復(fù)用的基本假設(shè)是不同語(yǔ)言在發(fā)音上的相似性。得益于DNN對(duì)復(fù)雜場(chǎng)景的特征學(xué)習(xí)能力,這兩種共享方案在當(dāng)前大數(shù)據(jù)學(xué)習(xí)時(shí)代取得了很大成功,顯著提高了小語(yǔ)種語(yǔ)音識(shí)別的性能。除了基礎(chǔ)的共享方法外,我們還討論了小語(yǔ)種建模中的若干技巧,包括對(duì)未標(biāo)注數(shù)據(jù)的利用、模型結(jié)構(gòu)選擇與訓(xùn)練方法、數(shù)據(jù)采集方案、詞典設(shè)計(jì)方案等。 總體來說,近年來小語(yǔ)種語(yǔ)音識(shí)別取得了長(zhǎng)足進(jìn)展,特別是基于DNN的特征共享和參數(shù)共享方法極大提高了小語(yǔ)種的聲學(xué)建模能力。目前制約小語(yǔ)種識(shí)別性能進(jìn)一步提高的主因可能是發(fā)音詞典、語(yǔ)言模型這些和語(yǔ)言本身特性相關(guān)的部分。另外,外來語(yǔ)、地域口音等語(yǔ)言現(xiàn)象在小語(yǔ)種里表現(xiàn)得更為普遍,需要設(shè)計(jì)合理的模型方法進(jìn)行針對(duì)性處理。 [1]Victoria Fromkin, Robert Rodman, and Nina Hyams. An introduction to language. 2018. [2]P Cohen et al. “Towards a universal speech recognizer for multiple languages”. In: IEEE 1997 Workshop on Automatic Speech Recognition and Understanding Proceedings. 1997, pages 591–598. [3]Tanja Schultz and Alex Waibel. “Experiments on cross-language acoustic modeling”. In:Seventh European Conference on Speech Communication and Technology. 2001. [4]Tanja Schultz and Alex Waibel. “Polyphone decision tree specialization for language adap- tation”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2000, pages 1707–1710. [5]Hui Lin et al. “A study on multilingual acoustic modeling for large vocabulary ASR”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2009, pages 4333–4336. [6]Khe Chai Sim and Haizhou Li. “Robust phone set mapping using decision tree clustering for cross-lingual phone recognition”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2008, pages 4309–4312. [7]Amit Das and Mark Hasegawa-Johnson. “Cross-lingual transfer learning during supervised training in low resource scenarios”. In: Sixteenth Annual Conference of the International Speech Communication Association. 2015. [8]Dong Yu and Michael L Seltzer. “Improved bottleneck features using pretrained deep neu- ral networks”. In: Twelfth annual conference of the international speech communication association. 2011. [9]Karel Vesel et al. “The language-independent bottleneck features”. In: IEEE 2012 Spoken Language Technology Workshop. 2012, pages 336–341. [10]Andreas Stolcke et al. “Cross-domain and cross-language portability of acoustic features es- timated by multilayer perceptrons”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2006, pages I–I. [11]Mireia Diez et al. “On the use of phone log-likelihood ratios as features in spoken language recognition”. In: IEEE 2012 Spoken Language Technology Workshop. 2012, pages 274–279. [12]Zoltán Tüske et al. “Investigation on cross-and multilingual MLP features under matched and mismatched acoustical conditions”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 7349–7353. [13]Samuel Thomas et al. “Deep neural network features and semi-supervised training for low resource speech recognition”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 6704–6708. [14]Katherine Knill et al. “Language independent and unsupervised acoustic models for speech recognition and keyword spotting”. In: (2014). [15]Andreas Stolcke et al. “Cross-domain and cross-language portability of acoustic features es- timated by multilayer perceptrons”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2006, pages I–I. [16]László Tóth et al. “Cross-lingual Portability of MLP-Based Tandem Features–A Case Study for English and Hungarian”. In: (2008). [17]Jui-Ting Huang et al. “Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 7304–7308. [18]Georg Heigold et al. “Multilingual acoustic models using distributed deep neural networks”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2013, pages 8619–8623. [19]Arnab Ghoshal, Pawel Swietojanski, and Steve Renals. “Multilingual training of deep neu- ral networks”. In: IEEE International Conference on Acoustics, Speech and Signal Process- ing. 2013, pages 7319–7323. [20]Dongpeng Chen and Brian Kan-Wing Mak. “Multitask learning of deep neural networks for low-resource speech recognition”. In: IEEE Transactions on Audio, Speech, and Language Processing (2015), pages 1172–1183. [21]Dong Wang and Thomas Fang Zheng. “Transfer learning for speech and language process- ing”. In: Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. 2015, pages 1225–1237. [22]Ying Shi et al. “Map and Relabel: Towards Almost-Zero Resource Speech Recognition”. In: Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. 2018, pages 591–595. [23]Mirjam Killer, Sebastian Stuker, and Tanja Schultz. “Grapheme based speech recognition”. In: Eighth European Conference on Speech Communication and Technology. 2003. [24]Viet-Bac Le and Laurent Besacier. “Automatic speech recognition for under-resourced lan- guages: application to Vietnamese language”. In: IEEE Transactions on Audio, Speech, and Language Processing (2009), pages 1471–1482. [25]Yajie Miao, Florian Metze, and Shourabh Rawat. “Deep maxout networks for low-resource speech recognition”. In: IEEE 2013 Workshop on Automatic Speech Recognition and Under- standing. 2013, pages 398–403. [26]Shi Yin et al. “Noisy training for deep neural networks in speech recognition”. In: EURASIP Journal on Audio, Speech, and Music Processing (2015), pages 1–14. [27]Tom Ko et al. “Audio augmentation for speech recognition”. In: Sixteenth Annual Confer- ence of the International Speech Communication Association. 2015. [28]Tom Ko et al. “A study on data augmentation of reverberant speech for robust speech recog- nition”. In: IEEE International Conference on Acoustics, Speech and Signal Processing. 2017, pages 5220–5224. [29]Anton Ragni et al. “Data augmentation for low resource languages”. In: (2014). [30]Andreas Stolcke. “SRILM-an extensible language modeling toolkit”. In: Seventh interna- tional conference on spoken language processing. 2002. [31]Mijit Ablimit, Tatsuya Kawahara, and Askar Hamdulla. “Lexicon optimization based on discriminative learning for automatic speech recognition of agglutinative language”. In: Speech communication (2014), pages 78–87. |
|