Coqui.ai 是什么?
Coqui.ai 为文本转语音(TTS)技术提供了一个强大的开源深度学习工具包。Coqui TTS 最初是从 Mozilla 的 TTS 库分叉出来的,现已发展成为一个用于创建高质量、自然语音的先进平台。其最受赞誉的功能是生成式 AI 语音克隆,允许用户仅用几秒钟的音频就能克隆一个声音。尽管其背后的商业实体已经关闭,但该开源项目仍然充满活力,并由社区积极维护,为开发人员和研究人员免费提供尖端的语音合成技术。
主要特点
- XTTS(跨语言文本转语音): 从一个 3-6 秒的音频剪辑中克隆一个声音,并用它来生成超过 17 种不同语言的语音。
- 高质量合成: 以 24kHz 的采样率产生清晰、自然的音频,适用于专业应用。
- 流式 API: 低延迟的流式推理使其非常适合实时应用,如语音助手和交互式机器人。
- 情感和风格迁移: 从参考音频中捕捉情感基调和韵律,并将其应用于生成的语音。
- 开源和可扩展: 整个工具包在 Apache 2.0 许可下授权,允许完全定制、微调和集成到商业产品中(模型许可可能有所不同)。
- 预训练模型: 附带了各种各样的预训练模型,可以开箱即用,适用于各种语言和风格。
使用案例
- 内容创作: 使用一致、高质量的声音自动为 YouTube 视频、播客和有声读物创建画外音。
- 无障碍性: 为视力障碍或阅读困难的用户构建提供文本转语音功能的应用程序。
- 个性化语音助手: 开发具有独特品牌声音的定制语音助手,或允许用户克隆自己的声音以获得个性化体验。
- 游戏和娱乐: 生成动态的角色声音和游戏内旁白。
- 语言学习: 创建提供多种语言发音示例的教育工具。
入门指南
这是一个“Hello World”风格的示例,可帮助您开始使用 Coqui TTS。首先,请确保您已安装 Python,然后安装 TTS 库。
```bash pip install TTS
现在,您可以使用以下 Python 脚本来生成语音。此示例使用了强大的 XTTS 模型,该模型需要一个参考音频文件来进行语音克隆。
```python import torch from TTS.api import TTS
检查 CUDA 是否可用以进行 GPU 加速
device = “cuda” if torch.cuda.is_available() else “cpu”
初始化 TTS 模型。XTTS v2 是一个强大的多语言模型。
首次运行时将下载模型。
tts = TTS(“tts_models/multilingual/multi-dataset/xtts_v2”).to(device)
提供您想要克隆的声音的清晰音频文件的路径(至少3秒)。
例如:speaker_wav=”path/to/your/audio.wav”
要合成的文本和目标语言。
模型将在当前目录中生成一个 ‘output.wav’ 文件。
tts.tts_to_file( text=”你好,这是一个开源语音克隆的测试。”, speaker_wav=”my_audio.wav”, language=”zh-cn”, file_path=”output.wav” )
print(“语音已生成并保存到 output.wav”)
注意:您必须将 "my_audio.wav" 替换为您的音频样本的实际路径。
定价
Coqui TTS 框架是开源的,可免费使用。您可以在 Apache 2.0 许可下自由下载、修改和集成代码。但是,预训练模型,特别是 XTTS 模型,是在Coqui 公共模型许可证(CPML)下发布的,该许可证对商业使用有限制。请务必检查您打算使用的特定模型的许可证。
社区与传承
尽管 Coqui 公司于 2023 年底停止运营,但得益于一个专注的社区,该开源项目仍在蓬勃发展。GitHub 存储库是开发、讨论和支持的中心枢纽。这种持久的传承使 Coqui TTS 成为任何需要高级语音合成能力而又不想承担专有解决方案成本的人的可靠而强大的选择。