【原】耳聽也不一定為實，AI語音已能騙得百萬巨款

三易生活 2021-01-15

展開全文

日前，AI換臉應用ZAO在國內市場引發(fā)了大量的關注，而人工智能的普及也讓日常生活發(fā)生了不小的改變。但AI作為工具來說，自然是無所謂善惡的，就像ZAO以AI為武器試圖獲取用戶隱私相關信息一樣，在國外市場AI也成為了犯罪分子手中的工具。

日前根據《華爾街日報》的報道，有黑客團伙成功模仿了英國某能源公司在德國母公司CEO的聲音，并其手中騙取了22萬歐元。而這一騙局說起來也十分簡單，這家英國能源公司的CEO以為其正在與他老板，也就是母公司的CEO通話，后者要求他將資金匯給匈牙利供應商。

這種套路對于國人來說是不是異常熟悉，這正是此前出現(xiàn)QQ冒充老板詐騙的變種或者升級版了。而二者的區(qū)別就在于，騙子是盜取QQ號利用文字詐騙，而海外黑客則技高一籌，直接模仿了老板的聲音。毫無疑問，這伙黑客并不是什么能夠模仿他人聲音的奇人異士，而只是使用AI來復刻了德國老板的德味英語和說話音調，讓來自英國的下屬認可其就是他老板。那么這一切究竟是怎么做到的呢？我們不妨從頭說起。

首先，我們此前曾經提到過，目前在電話營銷領域，機器人的比重越來越大，而且聲音也與真人無異。不過這種模式基于關鍵詞播放錄音，而錄音本身則是由真人完成，是千篇一律的話術。而量身定制的詐騙行為，肯定是不會用這樣無法隨機應變的方式。

眾所周知，人工智能背后依靠的是機器學習和深度學習作為技術支持，大數(shù)據作為訓練對象。比如說，谷歌Duplex作為當下最知名的智能語音代表，其之所以能實現(xiàn)“自然對話”，背后靠的是自然語義理解、自然行為建模，以及自然語氣三大核心，谷歌在循環(huán)神經網絡的基礎上，使用低置信度模型來解決響應問題、基于WaveNet和Tacotron的合成TTS（文本到語音）引擎，來控制語音語調。

其中，TTS引擎就是今天的主角，也正是海外黑客團伙能夠合成他人自然語音的關鍵。比如說，谷歌旗下的DeepMind團隊在2016年推出的WaveNet，百度方面在2018年拿出的Deep Voice系統(tǒng)，就是典型的TTS引擎。但無論是WaveNet還是Deep Voice，其實都是從海量人聲樣本中提取數(shù)據及特征，并建立一個音頻模型，而語音合成神經網絡則根據這些模型進行調整，以設計出不同特征的聲音。在實踐過程中，Deep Voice能夠將各種文本特征（文字、音素、重音）轉換為聲學特征，然后再將這些聲學特征作為聲音波形合成模型輸入。

當然，WaveNet與Deep Voice還要依靠大數(shù)據來進行訓練，并需要一段時間的學習，才能達到模仿真人聲音的效果。而科技進步的腳步是不會停下的，谷歌在去年實現(xiàn)了能夠實時語音克隆的SV2TTS，這是一個三階深度學習框架，只需要5秒鐘的低分辨率原音信息，這一框架就能提取其中的聲紋和聲線來生成梅爾（mel）譜圖，最后基于自回歸波的語音生成網絡，將梅爾譜圖數(shù)據轉換為與原音相似度極高的合成語音波型文件。

而作為國際知名的科技巨頭和創(chuàng)新先鋒，谷歌并沒有將SV2TT敝帚自珍，而是將其上傳到Github等開源社區(qū)中。因此這個詐騙了22萬歐元的黑客團伙，在通過某渠道獲得了德國老板的聯(lián)系方式，通過短暫對話拿到后者語音素材之后，很容易就以此為基礎生成了用于詐騙的實時語音。