我自己的配置是: CPU:13700kf 內(nèi)存:80G 顯卡:RTX3080 以下是會用到的工具及軟件(下載鏈接) NVIDIA Broadcast(輸入聲音降噪) https://www./geforce/broadcasting/broadcast-app/ RVC語音轉(zhuǎn)換(變聲器) GitHub項目開源地址:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI 變聲器框架:花兒不哭 Voicemeeter Potato(虛擬聲卡) https:///Voicemeeter/potato.htm 這里為了方便學(xué)習(xí),我已經(jīng)整理好了所有用到的軟件 鏈接:https://pan.baidu.com/s/1QZp1thWs5AGwlV70rZ8Huw?pwd=59bg
完整圖文教程在群里?。?! 下載完這4個文件 這些先把這兩個軟件安裝了(應(yīng)該會讓你重啟電腦,如果沒讓你重啟,也最好手動重啟一下) 使用NVIDIA Broadcast降噪然后打開NVIDIA Broadcast 把麥克風(fēng)源改成你的輸入設(shè)備 如果不知道哪個是輸入設(shè)備,可以打開聲音設(shè)置 看哪個有顯示波形哪個就是輸入設(shè)備 這個噪聲消除是默認打開的,你也可以調(diào)節(jié)它的強度 使用RVC實時語音轉(zhuǎn)換(變聲器)然后我們打開RVC 點擊以后會彈出cmd以及前端 在使用過程中cmd和前端都不能關(guān) 加載模型 1.Hubert模型,在RVC-beta內(nèi),往下拉找到它 (提醒一下所有的模型文件庫必須設(shè)置英文) 2.pth文件,(聲音模型文件) 剛剛網(wǎng)盤下載的文件中有,請放在英文路徑的模型文件夾中?。。?/p> 3.index文件,(聲音特征索引文件)同上 4.npy文件,可以忽視, 音頻設(shè)置 這樣輸入設(shè)置設(shè)置為nvidia broadcast的麥克風(fēng)(因為這是nvidia broadcast降噪過的輸出源) 然后我們在把輸出設(shè)備調(diào)整為VoiceMeeter Input(這是Voicemeeter Potato安裝后的跳線通道) 注:這里選擇輸入輸出設(shè)備的時候注意看后面是否有帶(MME),選擇帶(MME)的 參數(shù)設(shè)置(該參數(shù)部分參考:Abbott風(fēng)) 1.響應(yīng)閾值 盡量拉滿-60,這里說一下,同時開多個ai處理軟件,對顯存要求比較高,盡量8gb以上,不然打游戲都會卡的。 在提醒一下RVC在運行時主要對CPU有一定的要求,CPU差的話它的延時(推理時間)就會很長 2.音調(diào)設(shè)置 男轉(zhuǎn)女一般在+12,在這附近左右調(diào)整可以變粗或變細,選好之后就不要動了。 女轉(zhuǎn)男一般在-12, 3.index rate 這東西左邊是接近底模的音色,右邊是接近模型的音色。如果調(diào)高不影響口齒,可以略微調(diào)高,一般0.3-0.5都是可以的。如果模型效果不理想盡量往左。 4.采樣長度 盡量調(diào)低一些,只要不卡,0.3以上都可以。我一般就默認1.0 5.淡入淡出長度 可以理解為尾音的長短,小了聲音清脆但容易斷字,大了聲音連貫但音色會糊。根據(jù)自己聽感來。 6.額外推理時長 一般2種選擇,當(dāng)采樣長度比較大的適合,可以保持采樣長度一樣的數(shù)值,但是說話會比較干,沒什么拖音。 另外一種選擇,可以考慮公式:采樣長度+額外推理時長=2這個公式,一般效果效果還不錯,說話連續(xù)性更強。 推理這個參數(shù)有點像壓限器的釋放時長,如果你想你的尾音拖的比較長就拉到1.5左右,如果想清爽點,吐字如機關(guān)槍,那就往低了拉,一般到采樣長度左右就行。 7.輸入降噪 輸出降噪 下面的輸入輸出降噪建議不要開(影響變聲效果,而且影響推理時間,所以這里用了nvidia broadcast的ai降噪) 使用Voicemeeter Potato(虛擬聲卡)做音頻跳線操作然后打開Voicemeeter Potato 你可以把這些默認點亮的A1、B1關(guān)掉(劃線的是要關(guān)的) 我們點右上角A1 我們可以看到這里有很多的輸出設(shè)備,選擇你要輸出的設(shè)備就可以了 下面是整個聲音源的轉(zhuǎn)換流程圖 下面是聲音模型的訓(xùn)練教程訓(xùn)練聲音模型打開文件夾里的這個程序 會自動打開cmd跳轉(zhuǎn)到網(wǎng)頁端(前端) 使用的時候cmd不要關(guān) 進來以后這樣一個界面,我們點擊“訓(xùn)練” 采樣這邊越高越好(不過要看你的訓(xùn)練素材,如果訓(xùn)練素材采樣不好,再高也沒有用) 這是你的CPU線程數(shù)一般默認最高就好了 用于聲音訓(xùn)練的文件夾(這里是文件夾,就算只有一條用于訓(xùn)練的聲音也要在音頻文件的上層建立一個文件夾) 里面放好聲音源 一般wav格式的聲源最好,MP3也行(MP3格式的采樣率不高,有wav格式優(yōu)先wav格式) 這里可以鼠標(biāo)右鍵復(fù)制文件地址 我一般就選擇這個(13700kf無所畏懼) 這里我一般就這么設(shè)置 保存頻率:默認是5,不過我一般設(shè)置20 總訓(xùn)練輪數(shù):1000 不過這個訓(xùn)練輪數(shù)不是越高越好的,訓(xùn)練輪數(shù)多了會過擬合 反正就是模型效果會變差, 而且訓(xùn)練時間是真的慢,10分鐘的訓(xùn)練音源(干凈的人聲)RTX3080跑1000輪要一個小時左右, 不過如果真的要煉一個非常好的聲音,推薦音源都是在一個小時以上的(音源干凈非常重要) 每張顯卡的batch_size:這是調(diào)整訓(xùn)練時顯存占用的,你調(diào)的越大訓(xùn)練的越快,不過重點就是看你的顯卡了 像我RTX3080 10G 給20就跑滿了,再高就會報錯或無法訓(xùn)練 然后這個,我推薦打開“是”, 不開的話非常容易滿硬盤(500輪就100G了) 然后我推薦把這個RVC軟件放在固態(tài)里面的,可以加速訓(xùn)練時間 下面這兩個是預(yù)訓(xùn)練的底模路徑(大佬可以自行調(diào)整) 底模路徑就在RVC文件夾里 打開可以看到預(yù)訓(xùn)練的底模 設(shè)置好這些就可以開始訓(xùn)練了 訓(xùn)練的時候它會幫你把完整的音頻文件拆開(在logs文件夾里) 點你命名的那個模型名的文件夾 這兩個文件夾里面是拆好的音頻文件 然后 訓(xùn)練完后在你命名的模型名文件夾里,有這個added開頭的文件,這是模型的聲音特征索引文件 如果訓(xùn)練完沒有的話可以點這個,重新訓(xùn)練一份聲音特征索引(這個聲音特征索引,訓(xùn)練幾秒鐘就好了) 看右下角輸出信息,顯示訓(xùn)練完成就好了 使用模型推理查看訓(xùn)練效果然后可以去模型推理查看訓(xùn)練效果 選擇你剛剛訓(xùn)練出來的模型 變調(diào):男轉(zhuǎn)女+12,女轉(zhuǎn)男-12 然后選擇你的原聲錄音,添加到待處理音頻文件路徑中(這里是音頻文件,不是文件夾) 提取算法選擇 harvest 點擊這個index路徑選擇框,選擇訓(xùn)練好的模型聲音特征索引,這個聲音特征索引要跟你訓(xùn)練出來的聲音模型是匹配的,用不匹配的模型聲音特征索引轉(zhuǎn)換出來的聲音會很奇怪 這邊設(shè)置好以后轉(zhuǎn)換就可以了,稍等一會右側(cè)就會出現(xiàn)播放按鈕 |
|