【RVC教程】 AI 實時變聲器使用教程｜AI降噪｜音頻跳線

龍?zhí)督裾Z 2023-05-29 發(fā)布于上海

展開全文

我自己的配置是：

CPU：13700kf

內(nèi)存：80G

顯卡：RTX3080

以下是會用到的工具及軟件（下載鏈接）

NVIDIA Broadcast（輸入聲音降噪）

https://www./geforce/broadcasting/broadcast-app/

RVC語音轉(zhuǎn)換（變聲器）

GitHub項目開源地址：https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

變聲器框架：花兒不哭

Voicemeeter Potato（虛擬聲卡）

https:///Voicemeeter/potato.htm

這里為了方便學(xué)習(xí)，我已經(jīng)整理好了所有用到的軟件

鏈接：https://pan.baidu.com/s/1QZp1thWs5AGwlV70rZ8Huw?pwd=59bg

完整圖文教程在群里?。?！

下載完這4個文件

這些先把這兩個軟件安裝了（應(yīng)該會讓你重啟電腦，如果沒讓你重啟，也最好手動重啟一下）

使用NVIDIA Broadcast降噪

然后打開NVIDIA Broadcast

把麥克風(fēng)源改成你的輸入設(shè)備

如果不知道哪個是輸入設(shè)備，可以打開聲音設(shè)置

看哪個有顯示波形哪個就是輸入設(shè)備

這個噪聲消除是默認打開的，你也可以調(diào)節(jié)它的強度

使用RVC實時語音轉(zhuǎn)換（變聲器）

然后我們打開RVC

點擊以后會彈出cmd以及前端

在使用過程中cmd和前端都不能關(guān)

加載模型

1.Hubert模型，在RVC-beta內(nèi)，往下拉找到它

（提醒一下所有的模型文件庫必須設(shè)置英文）

2.pth文件，（聲音模型文件）

剛剛網(wǎng)盤下載的文件中有，請放在英文路徑的模型文件夾中?。。?/p>

3.index文件，（聲音特征索引文件）同上

4.npy文件，可以忽視，

音頻設(shè)置

這樣輸入設(shè)置設(shè)置為nvidia broadcast的麥克風(fēng)（因為這是nvidia broadcast降噪過的輸出源）

然后我們在把輸出設(shè)備調(diào)整為VoiceMeeter Input（這是Voicemeeter Potato安裝后的跳線通道）

注：這里選擇輸入輸出設(shè)備的時候注意看后面是否有帶（MME），選擇帶（MME）的

參數(shù)設(shè)置（該參數(shù)部分參考：Abbott風(fēng)）

1.響應(yīng)閾值

盡量拉滿-60，這里說一下，同時開多個ai處理軟件，對顯存要求比較高，盡量8gb以上，不然打游戲都會卡的。

在提醒一下RVC在運行時主要對CPU有一定的要求，CPU差的話它的延時（推理時間）就會很長

2.音調(diào)設(shè)置

男轉(zhuǎn)女一般在+12，在這附近左右調(diào)整可以變粗或變細，選好之后就不要動了。

女轉(zhuǎn)男一般在-12，

3.index rate

這東西左邊是接近底模的音色，右邊是接近模型的音色。如果調(diào)高不影響口齒，可以略微調(diào)高，一般0.3-0.5都是可以的。如果模型效果不理想盡量往左。

4.采樣長度

盡量調(diào)低一些，只要不卡，0.3以上都可以。我一般就默認1.0

5.淡入淡出長度

可以理解為尾音的長短，小了聲音清脆但容易斷字，大了聲音連貫但音色會糊。根據(jù)自己聽感來。

6.額外推理時長

一般2種選擇，當(dāng)采樣長度比較大的適合，可以保持采樣長度一樣的數(shù)值，但是說話會比較干，沒什么拖音。

另外一種選擇，可以考慮公式：采樣長度+額外推理時長=2這個公式，一般效果效果還不錯，說話連續(xù)性更強。

推理這個參數(shù)有點像壓限器的釋放時長，如果你想你的尾音拖的比較長就拉到1.5左右，如果想清爽點，吐字如機關(guān)槍，那就往低了拉，一般到采樣長度左右就行。

7.輸入降噪輸出降噪

下面的輸入輸出降噪建議不要開（影響變聲效果，而且影響推理時間，所以這里用了nvidia broadcast的ai降噪）

使用Voicemeeter Potato（虛擬聲卡）做音頻跳線操作

然后打開Voicemeeter Potato

你可以把這些默認點亮的A1、B1關(guān)掉（劃線的是要關(guān)的）

我們點右上角A1

我們可以看到這里有很多的輸出設(shè)備，選擇你要輸出的設(shè)備就可以了

下面是整個聲音源的轉(zhuǎn)換流程圖

下面是聲音模型的訓(xùn)練教程

訓(xùn)練聲音模型

打開文件夾里的這個程序

會自動打開cmd跳轉(zhuǎn)到網(wǎng)頁端（前端）

使用的時候cmd不要關(guān)

進來以后這樣一個界面，我們點擊“訓(xùn)練”

采樣這邊越高越好(不過要看你的訓(xùn)練素材，如果訓(xùn)練素材采樣不好，再高也沒有用)

這是你的CPU線程數(shù)一般默認最高就好了

用于聲音訓(xùn)練的文件夾（這里是文件夾，就算只有一條用于訓(xùn)練的聲音也要在音頻文件的上層建立一個文件夾）

里面放好聲音源

一般wav格式的聲源最好，MP3也行（MP3格式的采樣率不高，有wav格式優(yōu)先wav格式）

這里可以鼠標(biāo)右鍵復(fù)制文件地址

我一般就選擇這個（13700kf無所畏懼）

這里我一般就這么設(shè)置

保存頻率：默認是5，不過我一般設(shè)置20

總訓(xùn)練輪數(shù)：1000

不過這個訓(xùn)練輪數(shù)不是越高越好的，訓(xùn)練輪數(shù)多了會過擬合反正就是模型效果會變差，

而且訓(xùn)練時間是真的慢，10分鐘的訓(xùn)練音源（干凈的人聲）RTX3080跑1000輪要一個小時左右，

不過如果真的要煉一個非常好的聲音，推薦音源都是在一個小時以上的（音源干凈非常重要）

每張顯卡的batch_size:這是調(diào)整訓(xùn)練時顯存占用的，你調(diào)的越大訓(xùn)練的越快，不過重點就是看你的顯卡了

像我RTX3080 10G 給20就跑滿了，再高就會報錯或無法訓(xùn)練

然后這個，我推薦打開“是”，

不開的話非常容易滿硬盤（500輪就100G了）

然后我推薦把這個RVC軟件放在固態(tài)里面的，可以加速訓(xùn)練時間

下面這兩個是預(yù)訓(xùn)練的底模路徑（大佬可以自行調(diào)整）

底模路徑就在RVC文件夾里

打開可以看到預(yù)訓(xùn)練的底模

設(shè)置好這些就可以開始訓(xùn)練了

訓(xùn)練的時候它會幫你把完整的音頻文件拆開（在logs文件夾里）

點你命名的那個模型名的文件夾

這兩個文件夾里面是拆好的音頻文件

然后訓(xùn)練完后在你命名的模型名文件夾里，有這個added開頭的文件，這是模型的聲音特征索引文件

如果訓(xùn)練完沒有的話可以點這個，重新訓(xùn)練一份聲音特征索引（這個聲音特征索引，訓(xùn)練幾秒鐘就好了）

看右下角輸出信息，顯示訓(xùn)練完成就好了

使用模型推理查看訓(xùn)練效果

然后可以去模型推理查看訓(xùn)練效果

選擇你剛剛訓(xùn)練出來的模型

變調(diào)：男轉(zhuǎn)女+12，女轉(zhuǎn)男-12

然后選擇你的原聲錄音，添加到待處理音頻文件路徑中（這里是音頻文件，不是文件夾）

提取算法選擇 harvest

點擊這個index路徑選擇框，選擇訓(xùn)練好的模型聲音特征索引，這個聲音特征索引要跟你訓(xùn)練出來的聲音模型是匹配的，用不匹配的模型聲音特征索引轉(zhuǎn)換出來的聲音會很奇怪

這邊設(shè)置好以后轉(zhuǎn)換就可以了，稍等一會右側(cè)就會出現(xiàn)播放按鈕

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：龍?zhí)督裾Z > 《AI算法及程序》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

龍?zhí)督裾Z

關(guān)注對話

TA的最新館藏

還原版《道德經(jīng)》老子自序一：人不我知
《道德經(jīng)》究竟告訴了我們什么？
2023胡潤中國預(yù)制菜生產(chǎn)企業(yè)百強榜
[轉(zhuǎn)] 新商業(yè)賺錢36計之（五）
[轉(zhuǎn)] 新商業(yè)賺錢36計之（四）
[轉(zhuǎn)] 新商業(yè)賺錢36計之(三)

喜歡該文的人也喜歡更多

熱門閱讀換一換

午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频