Skip to content

Latest commit

 

History

History
96 lines (53 loc) · 9.69 KB

README_zh.md

File metadata and controls

96 lines (53 loc) · 9.69 KB

第二代Bark声音克隆 🐶 & 全新中文声音克隆 🎶

1️⃣ 第二代Bark声音克隆

11/08/2023更新:将AI变声模型KNN-VC与最新发布的OpenAI TTS结合,实现更加真实的AI变声,您可以在线体验或在Colab笔记本中运行

11/13/2023更新:将声音转换模型RVC与最新发布的OpenAI TTS结合,您可以使用Colab笔记本运行,点击这里试听效果

11/23/2023更新:Sambert声音克隆在线体验的bug已修复,点击使用

12/01/2023更新:ChatGLM2神里绫华模型+Bert-VITS2文本转语音,和绫华一起谈天说地吧,点击Colab笔记本运行,在线使用

12/03/2023更新:Sambert声音克隆本地部署教程以及Sambert UI Colab已上传,点击查看

01/06/2024更新:NeuCoSVC声音转换,无需训练、一键AI翻唱任意歌手的任意歌曲。点击在线使用,点击Colab笔记本

01/20/2024更新:GPT-SoVITS声音克隆,只需一分钟语音,“完美”复刻任何声音。点击在线体验,点击Colab笔记本视频教程

02/27/2024更新:AI歌手全明星在线训练+翻唱上线啦!第一个完全免费开源的AI歌手模型社区,全网AI歌手任您选择!点击访问滔滔AI解锁全部内容,感谢OpenXLab的算力支持!💕

在线快速运行:Colab笔记本

HuggingFace在线程序:Bark声音克隆 🤗

使用指南:B站视频 📺

注:(1) Bark声音克隆功能基于bark-gui项目;(2) 运行时需要使用GPU

如果您喜欢这个项目,请在Github上点赞吧! ⭐⭐⭐

2️⃣ VALL-E X 全新声音克隆

08/26/2023更新:VALL-E X 声音克隆,支持中日英三语;只需3秒语音,即可快速复刻您喜欢的音色

VALL-E X是由微软团队开发的支持多语种的语音合成模型,此部分基于Plachtaa的开源项目VALL-E-X,进行了用户界面和功能上的优化。您可以使用我们制作的专属工具从B站直接提取视频中的语音,只需要填写视频的BV号和起止时间。

Colab快速启动: Colab笔记本

HuggingFace在线程序: VALL-E X在线 🤗

3️⃣ SambertHifigan中文声音克隆

07/19/2023更新:在执行pip install kantts -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html前需要先执行pip install pysptk --no-build-isolation (已在对应的Colab笔记本中更新)

08/27/2023更新:已修复SambertHifigan对应的Colab Notebook中的所有bug,点击此处使用

09/09/2023更新:增加SambertHifigan中文声音克隆的在线一键启动版 Colab笔记本,使用更加方便 🌟

09/12/2023更新:增加AutoDL镜像,支持在线GPU一键部署,快速开启声音克隆之旅 🍻

训练5分钟,通话不限时! 🌞

因为Bark文本转语音的中文效果远远不如英文的效果好,所以我们采用一种新的技术路径SambertHifigan来实现中文的声音克隆功能。

如何使用 💡 视频教程

(1) 准备并上传一段中文语音:单一说话人、长度一分钟左右的.wav文件。

我们的程序能够自动将您上传的语音切片。您可以使用我们制作的专属工具从B站直接提取视频中的语音,只需要填写视频的BV号和起止时间。为了达到更好的声音克隆效果,中文语音素材需要符合以下要求

  • 音频尽量是干净人声,不要有BGM,不要有比较大的杂音,不要有一些特殊的声效,比如回声等
  • 声音的情绪尽量稳定,以说话的语料为主,不要是『嗯』『啊』『哈』之类的语气词

(2) 使用我们的Colab笔记本运行程序:运行所有代码即可。

您可以在Colab笔记本的推理代码模块更改中文文本,进而输出您想要的内容。运行笔记本时的注意事项

  • 上传音频素材后,需要将代码split_long_audio(whisper_model, "filename.wav", "test", "dataset_raw")中的filename替换成音频文件的名字
  • 需要在Colab中新建三个文件夹,分别名为:test_wavsoutput_training_datapretrain_work_dir
  • 训练完成后,在推理模块的output = inference(input="大家好呀,欢迎使用滔滔智能的声音克隆产品!")代码处可以自由编辑中文文本,实现中文声音克隆
  • 整个过程都需要使用GPU;如果使用阿里云笔记本,则不需要在终端中执行第一步的环境设置

(3) 一键在HuggingFace上免费部署 🤗

  • 完成训练后,在Colab或阿里云笔记本中运行!zip -r ./model.zip ./pretrain_work_dir打包模型文件夹,下载并解压到本地
  • 点击进入HuggingFace程序,点击右上角的三个圆点,选择Duplicate this Space将程序复制到自己的HuggingFace主页
  • 点击进入Files,选择右上角Add file后,点击Upload files,将解压后的文件夹pretrain_work_dir从本地直接拖拽上传;需要先删除原有的pretrain_work_dir同名文件夹

四种使用方式 😄

推荐🌟 阿里云笔记本在线运行:您也可以免费使用阿里云提供的在线笔记本进行训练,进入页面后点击右上角的Notebook快速开发,选择GPU环境,上传代码文件阿里云专属笔记本(可下载).wav文件素材后就能够以同样的方式运行啦! 🍻

Colab在线快速运行: Colab笔记本

HuggingFace在线程序: 全新中文声音克隆 🤗

阿里魔搭社区在线程序:个人声音定制 🎤

一键运行版本:最新Colab笔记本(有时不稳定)及AutoDL镜像运行(推荐)

  • 最简洁的操作界面,一键上传语音素材,无需修改代码
  • 点击进入AutoDL镜像,创建新实例,按照操作指南即可快速开启声音克隆之旅 🎶

注意❗:请不要生成会对个人以及组织造成侵害的内容,此程序仅供科研、学习及个人娱乐使用,严禁商业化运作。用户上传的语音及生成的内容均与本代码仓库所有者无关。

image

Star History Chart