日前,AI換臉應用ZAO在國內市場引發(fā)了大量的關注,而人工智能的普及也讓日常生活發(fā)生了不小的改變。但AI作為工具來說,自然是無所謂善惡的,就像ZAO以AI為武器試圖獲取用戶隱私相關信息一樣,在國外市場AI也成為了犯罪分子手中的工具。日前根據《華爾街日報》的報道,有黑客團伙成功模仿了英國某能源公司在德國母公司CEO的聲音,并其手中騙取了22萬歐元。而這一騙局說起來也十分簡單,這家英國能源公司的CEO以為其正在與他老板,也就是母公司的CEO通話,后者要求他將資金匯給匈牙利供應商。這種套路對于國人來說是不是異常熟悉,這正是此前出現(xiàn)QQ冒充老板詐騙的變種或者升級版了。而二者的區(qū)別就在于,騙子是盜取QQ號利用文字詐騙,而海外黑客則技高一籌,直接模仿了老板的聲音。毫無疑問,這伙黑客并不是什么能夠模仿他人聲音的奇人異士,而只是使用AI來復刻了德國老板的德味英語和說話音調,讓來自英國的下屬認可其就是他老板。那么這一切究竟是怎么做到的呢?我們不妨從頭說起。首先,我們此前曾經提到過,目前在電話營銷領域,機器人的比重越來越大,而且聲音也與真人無異。不過這種模式基于關鍵詞播放錄音,而錄音本身則是由真人完成,是千篇一律的話術。而量身定制的詐騙行為,肯定是不會用這樣無法隨機應變的方式。眾所周知,人工智能背后依靠的是機器學習和深度學習作為技術支持,大數(shù)據作為訓練對象。比如說,谷歌Duplex作為當下最知名的智能語音代表,其之所以能實現(xiàn)“自然對話”,背后靠的是自然語義理解、自然行為建模,以及自然語氣三大核心,谷歌在循環(huán)神經網絡的基礎上,使用低置信度模型來解決響應問題、基于WaveNet和Tacotron的合成TTS(文本到語音)引擎,來控制語音語調。其中,TTS引擎就是今天的主角,也正是海外黑客團伙能夠合成他人自然語音的關鍵。比如說,谷歌旗下的DeepMind團隊在2016年推出的WaveNet,百度方面在2018年拿出的Deep Voice系統(tǒng),就是典型的TTS引擎。但無論是WaveNet還是Deep Voice,其實都是從海量人聲樣本中提取數(shù)據及特征,并建立一個音頻模型,而語音合成神經網絡則根據這些模型進行調整,以設計出不同特征的聲音。在實踐過程中,Deep Voice能夠將各種文本特征(文字、音素、重音)轉換為聲學特征,然后再將這些聲學特征作為聲音波形合成模型輸入。當然,WaveNet與Deep Voice還要依靠大數(shù)據來進行訓練,并需要一段時間的學習,才能達到模仿真人聲音的效果。而科技進步的腳步是不會停下的,谷歌在去年實現(xiàn)了能夠實時語音克隆的SV2TTS,這是一個三階深度學習框架,只需要5秒鐘的低分辨率原音信息,這一框架就能提取其中的聲紋和聲線來生成梅爾(mel)譜圖,最后基于自回歸波的語音生成網絡,將梅爾譜圖數(shù)據轉換為與原音相似度極高的合成語音波型文件。而作為國際知名的科技巨頭和創(chuàng)新先鋒,谷歌并沒有將SV2TT敝帚自珍,而是將其上傳到Github等開源社區(qū)中。因此這個詐騙了22萬歐元的黑客團伙,在通過某渠道獲得了德國老板的聯(lián)系方式,通過短暫對話拿到后者語音素材之后,很容易就以此為基礎生成了用于詐騙的實時語音。那么有沒有辦法針對這種新型高科技詐騙的辦法呢?其實從技術層面來看很難,所謂以AI制AI的方法也并沒有太多普適性,但大家不妨多一個心眼,如果未來接到了你老板打來要求轉賬給其他人的電話,試試用其他方式聯(lián)絡老板來做個“雙因素驗證”,畢竟騙子也不太可能做到面面俱到。
【本文圖片來自網絡】在昨天的技術溝通會上,OPPO一口氣推出了三個閃充家族的新技術。 此次RedmiBook 14增強版的評測,也讓我們得以一窺Redmi的未來。
|