Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

增加Fishspeech等TTS模型的音色配置功能 #2731

Open
lywy233 opened this issue Jan 2, 2025 · 2 comments
Open

增加Fishspeech等TTS模型的音色配置功能 #2731

lywy233 opened this issue Jan 2, 2025 · 2 comments
Labels
Milestone

Comments

@lywy233
Copy link

lywy233 commented Jan 2, 2025

Feature request / 功能建议

增加配置项或者配置教程使得TTS启动时能预先定义一些voice选项,从而使得对于部分包含TTS功能的项目能够更快速的适配以及替换音色

Motivation / 动机

使用openwebui等基于openai api的功能时其支持的TTS为openai格式,目前直接通过xinference部署的一系列TTS仅有echo音色,而无法将某个voice名称对应到对用的参考音频和参考文本,只通过voice选项无法更改音色,希望进行相关配置使得对于语音模型的调用更加统一

Your contribution / 您的贡献

None
谢谢

@lywy233 lywy233 added the feature label Jan 2, 2025
@XprobeBot XprobeBot added this to the v1.x milestone Jan 2, 2025
@qinxuye
Copy link
Contributor

qinxuye commented Jan 3, 2025

目前没有提供 voice 主要是受限于模型本身没有提供类似的功能,比如 fish speech 本身提供的是语音克隆的功能,如果要支持 voice 可能需要内置一些模型的音色。大家可以集思广益。

@lywy233
Copy link
Author

lywy233 commented Jan 3, 2025

目前没有提供 voice 主要是受限于模型本身没有提供类似的功能,比如 fish speech 本身提供的是语音克隆的功能,如果要支持 voice 可能需要内置一些模型的音色。大家可以集思广益。

语音克隆模型的音色控制就是参考文本和参考音频,(voice名称,参考文本,参考音频)就是一个完整的音色控制。我看到xinference在一些图像生成模型中引入了lora的配置功能,我觉得启动模型时配置(voice名称,参考文本,参考音频路径)这三个参数,进行类似的lora的配置即可

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants