文章

使用开源模型克隆你的声音 [译]

真实声音克隆(RVC)是一种声音转换模型,能将任何输入声音转换成目标声音。以下是使用该技术的一个示例:摩根·弗里曼扮演汉尼拔·莱克特

在本文中,我们将展示如何在 Replicate 上创建你自己的 RVC 声音模型。我们将创建数据集,调整模型,然后使用 Replicate 制作一些示例。

步骤概览

  1. 创建训练数据集:使用 zsxkib/create-rvc-dataset 模型从 YouTube 视频 URL 生成语音音频文件。
  2. 训练你的声音模型:使用 replicate/train-rvc-model 模型基于你的数据集创建精细调整的 RVC 模型。
  3. 运行推断:使用 zsxkib/realistic-voice-cloning 模型创建以你的声音为特色的新语音音频(或歌曲)。

先决条件

  • YouTube 视频用作音频源
  • Replicate 账户和 API 令牌

第 0 步:设置你的环境

你可以使用 Replicate 的网页界面或使用你选择的编程语言的 Replicate API 来运行这些模型。我们提供 JavaScript、Python 以及 Go、Swift 和 Elixir 等语言的官方客户端库。

我们还创建了一个包含本指南所需所有代码的 Google Colab 笔记本。

第 1 步:创建训练数据集

使用 zsxkib/create-rvc-dataset 模型从 YouTube 视频 URL 自动生成数据集。运行模型将执行以下操作:

  • 下载 YouTube 音频
  • 隔离目标声音并移除背景噪音或音乐
  • 将音频切分成 10 秒长的片段
  • 返回用于调整的样本 zip 文件

需要提供的信息:

  • youtube_url:YouTube 视频链接
  • audio_name:数据集的唯一名称

第 2 步:训练你的声音模型

使用 replicate/train-rvc-model 模型训练 RVC 模型。开始训练时需要提供:

  • dataset_zip:数据集 zip 文件的 URL 或直接上传
  • sample_rate:音频采样率(通常为 48k)
  • version:RVC 版本(v2 质量更高)
  • f0method:提取语音共振峰的方法(默认为 rmvpe_gpu)
  • epoch:遍历训练数据的次数(推荐设置为 80)
  • batch_size:每步处理的数据点数量(推荐设置为 7)

第 3 步:生成音频

使用 zsxkib/realistic-voice-cloning 模型运行已调整的 RVC 模型。上传起始音频文件或通过 API 传入 URL。配置参数以调整输出,例如:

  • rvc_model:选择 CUSTOM
  • custom_rvc_model_download_url:训练模型的 URL
  • 调整 pitch_changeindex_ratereverb_size 等参数以控制最终输出的 AI 声音特性

接下来

此时,你应该已经拥有了自己声音的可重用克隆。你可以用它来创建新的音频文件、睡前故事,甚至是歌曲。



原文作者:@zsxkib @fofr
原文链接:https://replicate.com/blog/how-to-tune-a-realistic-voice-clone

本文由作者按照 CC BY 4.0 进行授权