Deploy ChatTTS with WebUI locally in 3 mins, sounds like a real person, No GPU/CPU
Вставка
- Опубліковано 25 чер 2024
- ➡️Original Author's Links:
Official: www.chattts.com, supports online Text to speech
Model: huggingface.co/2Noise/ChatTTS
Source Code: github.com/2noise/ChatTTS
➡️Local deployment of web UI online text to speech:
Web UI@github: github.com/jianchang512/ChatT...
➡️Download the following software package to run locally:
Baidu network disk: pan.baidu.com/s/1ijuNulvsFc1O...
123 network disk: www.123pan.com/s/03Sxjv-JxyB3...
huggingface link: huggingface.co/spaces/mortime...
Current version 0.89
➡️Main content:
00:00 ChatTTS experience
01:15 Download and install ChatTTS UI and avoid pitfalls
02:43 ChatTTS problems and limitations - Наука та технологія
感谢分享!
感谢你的支持
感谢分享,期待有一天,手机本地运行,能念电子书。
嗯,一个不错的应用场景。应该不止于此。
哈哈太厉害了,等我新的电脑组装好了我要试试,不过我的是RX6600 AMD的显卡,不知道效果怎么样,后续不知道能不能把自己声音录进去克隆,很期待,这样子可以用来跟自己对话蛮有趣的
这个要是能和阅读APP结合起来,就是最强听小说工具了。
目前在使用tts-server-android(后台利用Azure的大声朗读API )
要点时间
本期视频语音均由ChatTTS生成
笑声还是不自然,但也很厉害了
这个和种子有点关系,有的时候好,有的时候又不行
这几天一直在体验他
其他有好的应用场景落地
@@BKT-AIoT 有
ChatTTS要访问的一个网站,需要添加到不使用代理的列表,添加下面一行:【避免推广嫌疑,去掉了】
官方网站最长支持一次转换多少字文本呢?在COLAB上支持最大多少字呢?
官方并未有专门针对性的说明。下面是官方的相关说明:对于30s的音频, 至少需要4G的显存. 对于4090, 1s生成约7个字所对应的音频. RTF约0.3. 。从此处可以看出具体长短和你的算力有关。从原理上来说,长度增加一倍,算力至少是平方关系增长,任谁家的算力也不可能无限增长。所以对于长文本,能用的办法就是做拆分,这样更经济有效。
太像了
我喜欢纯净的声音
老师良心啊, 怎么切换音色
最新的0.6版本已经增加了设置音色种子值的地方,你重新下载下
如何训练自己的模型
这个还要晚一点,目前只有固定seed值,实现固定一个音色
本地需要安装啥环境吗?
Windows已经打包了所有,直接运行就好了。不需要其他。
只有中文语音吗 有别的语言可以选择吗
可以的,你直接输入其他语言就可以
@@BKT-AIoT 好的 我试试
字幕 怎么用这个转语音
有转换的,但目前自动化效果不好,看你字幕拆分的好不好
男女声音是自动转换还是手动转换
一段一段接起来的
@@BKT-AIoT 没看懂你这句话的意思
@@ResourceSharing 就是手动切换
@@BKT-AIoT 在哪个位置手动切换
已经部署了,可以玩玩,只是不会识别数字,和某些时候会出现bug,作者还在不断完善,暂时可以玩玩,静等完善
我没有公众号啊,也不会提供任何密码,你这是跑错地方了吗?我去看看是不是那个UI的作者搞的事情
我去重新下载,解压,运行做了一遍,全程都不需要密码。看来这是同行来砸场子。
@@BKT-AIoT 不支持对话,可惜
@@gaodenger 很快就会有的
@@BKT-AIoT 回复错地方了,哈哈,不好意思。
iOS系统有吗
ChatTTS-ui可以在MAC上运行,你去他github页面, 上面有MAC下安装的步骤
iOS更多是作为一个使用的终端,通过网页或者API接口来访问服务。
@@BKT-AIoT 好的谢谢你😀
新一期视频中有讲在谷歌Colab上部署运行ChatTTS,不限平台,都能用,而且没高频噪音。
什么时候能支持英特尔的独显就好了,纯CPU特别慢
是啊
新一期视频中有讲在谷歌Colab上部署运行ChatTTS,不限平台,有独立显卡可用,而且没高频噪音。
@@BKT-AIoT 看到了,是比我用CPU快了,谢谢
能不能根据时间戳生成语音
相信很快就会有。我看到几个人都提到了这一点,形式应该会是视频编辑工具的插件
没有Mac版本
安装个python环境,可以直接安装原版的,稍微复杂点
@@BKT-AIoT 我装了最新版python 确实不懂编程,回头看ChatGPT能不能帮到我,感谢回复
Github上ChatTTS UI主页有MAC上安装的步骤,是通过python安装运行的
我新一期视频中有讲在谷歌Colab上部署运行ChatTTS,不限平台,都能用,而且没高频噪音。
某个 0:56 网站吗?
原本只是想提示大家,为了避免这个嫌疑,我删掉这个站的连接
那个连接是cn能访问的模型托管网站,类似huggingface
闪退是怎么回事
关闭梯子,再运行
输出的语言讲到后面就乱讲了,是咋回事??
以下是作者的解释:模型稳定性似乎不够好, 会出现其他说话人或音质很差的现象.
这是自回归模型通常都会出现的问题. 说话人可能会在中间变化, 可能会采样到音质非常差的结果, 这通常难以避免. 可以多采样几次来找到合适的结果.
我的经验是,不要一次生成很长,但也不要太短,比如就两三个字,就几句话就比较好,很少出现乱讲。我是基于我没有专业显卡的情况。
下载了之后打不开,一直在运行黑框框,这是怎么回事?
视频中有说明,你要关了梯子,再打开
@@BKT-AIoT 我关了还是打不开,不知道是什么原因
@@user-eq8ky6ub7p 你的网络有没有啥特别的地方?他就是要连接一个模型托管网站:modelscope.cn,打不开就会退出。
@@user-eq8ky6ub7p 你可以再app.exe所在位置空白处点右键,选择在终端中打开,然后输入app.exe,回车,此时你就可以看到日志,日志中会有提示是那里出错了。你可以贴出来看看
@@BKT-AIoT 谢谢,现在可以打开了,下次更新了,是不是要重新下
天呐,第一个声音是不是用了女流的声音!
他的音色是随机的,加了种子会相对稳定点。
没用啊 几个字要半天 而且输入参数也不稳定 有时参数有作用 有时没有 更多的是没作用 [oral_2][laugh_0][break_6]
官方支持的是[laugh],[uv_break], 你如果开启了自动调整,如果放的位置不合理,他可能会增加或者减少文字,
@@BKT-AIoT 我是想试试笑声和停顿的 但是大多不起作用
新一期视频中有讲在谷歌Colab上部署运行ChatTTS,使用的是谷歌的GPU,速度快,而且没高频噪音。
我用起来好慢!
估计你的显卡也是不支持。你可以关闭重开看看,重新运行会好点。再就是你这种硬件每次仅放2句话就好,别贪心
@@BKT-AIoT GTX 1660 SUPER不支持吗?
@@user-ew9np5yn9j 我查了下看是支持的。你可以更新驱动看看。或者试试Linux。
新一期视频中有讲在谷歌Colab上部署运行ChatTTS,不限平台,用的Google的显卡,速度快,而且没高频噪音。
不好用,不能克隆声音
期待后续能有
不能用。有噪音
你文本别太短,别太长。换成两三句试试
我再看了原作者的说明,他开源的4W小时的模型是故意添加了高频噪音的,以防止被人滥用。你可以切换不同的音色试试
@@BKT-AIoT 给人用,还防止滥用,什么混账逻辑
@@Xin 音色逼真,可以达到难以分辨的水平。就我自己用的情况,常用的几个音色是没有高频噪音的,自定义的则多数情况都有噪音。有噪音的表现就是声音听起来不纯净,不太好听。据说是为了防止坏人利用,尊重下作者吧。
新一期视频中有讲在谷歌Colab上部署运行ChatTTS,不限平台,用的谷歌的显卡GPU,没高频噪音。