使用开源模型克隆你的声音 [译]
真实声音克隆(RVC)是一种声音转换模型,能将任何输入声音转换成目标声音。以下是使用该技术的一个示例:摩根·弗里曼扮演汉尼拔·莱克特。
在本文中,我们将展示如何在 Replicate 上创建你自己的 RVC 声音模型。我们将创建数据集,调整模型,然后使用 Replicate 制作一些示例。
步骤概览
- 创建训练数据集:使用
zsxkib/create-rvc-dataset
模型从 YouTube 视频 URL 生成语音音频文件。 - 训练你的声音模型:使用
replicate/train-rvc-model
模型基于你的数据集创建精细调整的 RVC 模型。 - 运行推断:使用
zsxkib/realistic-voice-cloning
模型创建以你的声音为特色的新语音音频(或歌曲)。
先决条件
- YouTube 视频用作音频源
- Replicate 账户和 API 令牌
第 0 步:设置你的环境
你可以使用 Replicate 的网页界面或使用你选择的编程语言的 Replicate API 来运行这些模型。我们提供 JavaScript、Python 以及 Go、Swift 和 Elixir 等语言的官方客户端库。
我们还创建了一个包含本指南所需所有代码的 Google Colab 笔记本。
第 1 步:创建训练数据集
使用 zsxkib/create-rvc-dataset
模型从 YouTube 视频 URL 自动生成数据集。运行模型将执行以下操作:
- 下载 YouTube 音频
- 隔离目标声音并移除背景噪音或音乐
- 将音频切分成 10 秒长的片段
- 返回用于调整的样本 zip 文件
需要提供的信息:
youtube_url
:YouTube 视频链接audio_name
:数据集的唯一名称
第 2 步:训练你的声音模型
使用 replicate/train-rvc-model
模型训练 RVC 模型。开始训练时需要提供:
dataset_zip
:数据集 zip 文件的 URL 或直接上传sample_rate
:音频采样率(通常为 48k)version
:RVC 版本(v2 质量更高)f0method
:提取语音共振峰的方法(默认为 rmvpe_gpu)epoch
:遍历训练数据的次数(推荐设置为 80)batch_size
:每步处理的数据点数量(推荐设置为 7)
第 3 步:生成音频
使用 zsxkib/realistic-voice-cloning
模型运行已调整的 RVC 模型。上传起始音频文件或通过 API 传入 URL。配置参数以调整输出,例如:
rvc_model
:选择 CUSTOMcustom_rvc_model_download_url
:训练模型的 URL- 调整
pitch_change
、index_rate
、reverb_size
等参数以控制最终输出的 AI 声音特性
接下来
此时,你应该已经拥有了自己声音的可重用克隆。你可以用它来创建新的音频文件、睡前故事,甚至是歌曲。
原文作者:@zsxkib @fofr
原文链接:https://replicate.com/blog/how-to-tune-a-realistic-voice-clone
本文由作者按照
CC BY 4.0
进行授权