增加Fishspeech等TTS模型的音色配置功能 #2731

lywy233 · 2025-01-02T16:31:47Z

增加配置项或者配置教程使得TTS启动时能预先定义一些voice选项，从而使得对于部分包含TTS功能的项目能够更快速的适配以及替换音色

使用openwebui等基于openai api的功能时其支持的TTS为openai格式，目前直接通过xinference部署的一系列TTS仅有echo音色，而无法将某个voice名称对应到对用的参考音频和参考文本，只通过voice选项无法更改音色，希望进行相关配置使得对于语音模型的调用更加统一

None
谢谢

qinxuye · 2025-01-03T02:44:18Z

目前没有提供 voice 主要是受限于模型本身没有提供类似的功能，比如 fish speech 本身提供的是语音克隆的功能，如果要支持 voice 可能需要内置一些模型的音色。大家可以集思广益。

lywy233 · 2025-01-03T16:41:15Z

目前没有提供 voice 主要是受限于模型本身没有提供类似的功能，比如 fish speech 本身提供的是语音克隆的功能，如果要支持 voice 可能需要内置一些模型的音色。大家可以集思广益。

语音克隆模型的音色控制就是参考文本和参考音频，（voice名称，参考文本，参考音频）就是一个完整的音色控制。我看到xinference在一些图像生成模型中引入了lora的配置功能，我觉得启动模型时配置（voice名称，参考文本，参考音频路径）这三个参数，进行类似的lora的配置即可

lywy233 added the feature label Jan 2, 2025

XprobeBot added this to the v1.x milestone Jan 2, 2025

Provide feedback