最近玩酒馆时了解到了这个 tts 模型,实测下来效果不错,可惜目前找到的几个整合包都是闭源的,开源的还未适配 CosyVoice2 版本
于是就参考前人的代码和功能,结合 Cursor 实现了期望的一些功能,支持预训练音色/3s极速复刻/自然语言控制/自动识别/音色保存/API 等
在 Windows/macOS/Ubuntu on WSL 部署运行测试通过,并提供了适用于 Windows 的一键包
仓库地址:GitHub - journey-ad/CosyVoice2-Ex: CosyVoice2 功能扩充(预训练音色推理/3s极速复刻/自然语言控制/自动识别/音色模型保存/API)
Modelscope Demo,免费版用的 cpu 推理,很慢,建议自行下载部署