OpenVoice准确灵活的音色零样本跨语言语音克隆AI声音整合包

加入我们的社区

加入我们的Discord 社区并Developer在加入时选择角色,以获得对我们的开发者专用频道的独家访问权限!不要错过宝贵的讨论和合作机会。

介绍

正如我们在论文和网站中详细介绍的那样,OpenVoice 的优势有三个方面:

1. 准确的音色克隆。 OpenVoice 可以准确克隆参考音色并生成多种语言和口音的语音。

2.灵活的音色控制。 OpenVoice 可以对语音风格(例如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。

3.零样本跨语言语音克隆。 生成语音的语言和参考语音的语言都不需要出现在大规模说话人多语言训练数据集中。

 开放语音.mp4 

 

自 2023 年 5 月以来,OpenVoice 一直为myshell.ai提供即时语音克隆功能。截至 2023 年 11 月,该语音克隆模型已被全球用户使用了数千万次,并见证了该平台用户的爆炸性增长。

主要贡献者

  • 秦增一在麻省理工学院和 MyShell
  • 赵文亮,清华大学
  • 于绪敏,清华大学
  • Ethan Sun在 MyShell

免责声明

这是一个近似myshell.ai内部语音克隆技术性能的实现。myshell.ai 中的在线版本具有更好的 1) 音频质量、2) 语音克隆相似度、3) 语音自然度和 4) 计算效率。

安装

克隆此存储库并运行

conda create -n openvoice python=3.9
conda activate openvoice
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
pip install -r requirements.txt

从这里下载检查点并将其解压到checkpoints文件夹中

用法

1.灵活的音色控制。 请参阅demo_part1.ipynbOpenVoice 如何对克隆语音进行灵活风格控制的示例用法。

2. 跨语言语音克隆。 请参阅demo_part2.ipynbMSML 训练集中看到或未看到的语言的示例。

3. 录音室演示。 使用 启动本地渐变演示python -m openvoice_app --share

4. 高级用法。 基本扬声器模型可以替换为用户喜欢的任何模型(任何语言和风格)。请使用se_extractor.get_se演示中演示的函数来提取新基础扬声器的音色嵌入。

5. 生成自然语音的技巧。 有许多单说话人或多说话人 TTS 方法可以生成自然语音,并且很容易获得。只需将基本扬声器模型替换为您喜欢的模型,您就可以将语音自然度提升到您想要的水平。

路线图

  • 推理代码
  • 音色转换器模型
  • 多款式底座音箱型号
  • 多风格、多语言演示
  • 基本扬声器模型 用其他语言
  • EN基础扬声器模型,自然度更好

引文

@article{qin2023openvoice,
  title={OpenVoice: Versatile Instant Voice Cloning},
  author={Qin, Zengyi and Zhao, Wenliang and Yu, Xumin and Sun, Xin},
  journal={arXiv preprint arXiv:2312.01479},
  year={2023}
}