介绍
IndexTTS2是B站语音团队开源的第二代文本转语音(TTS)模型。你可以把它想象成一个非常厉害的“语音克隆+情感控制”工具,非常适合用来做配音和二次创作(怎么使用可以尽情发挥)。我将免费提供一键整合包,本地部署,开箱即用,免费无限制使用次数。

核心特点
能模仿任何人的声音(零样本克隆):你只需要给 IndexTTS2 提供一段短短的目标人声音频(比如朋友的一段话、某个角色的台词),它就能学会并用这个声音说出任何你想要的文本,不需要针对这个声音进行额外训练。
能给声音注入情感,还能分开调:这是它特别厉害的地方。它能把声音的“音色”(是谁在说话)和“情感”(用什么情绪说话)分开处理,比如:你可以让一个沉稳大叔的声音(音色来源)用可爱撒娇的语气(情感来源)说话。
声音自然度高:它采用“自回归”方式生成语音(类似一个字一个字思考着说),加上高质量的声码器(BigVGANv2),所以生成的语音非常自然流畅,不像传统的机器人发声,有呼吸停顿、语调起伏。
主要用途
视频与短视频配音:做自媒体、游戏解说、二次创作时,高效生成高质量且能与画面时长精准匹配的旁白或角色语音。
有声读物与播客:用你喜欢的声音和情感,将文字内容转化为生动的音频,甚至可以用多个不同声音为不同角色配音。
辅助工具与教育:可以为语言学习者提供包含丰富语调和情感的朗读材料。
使用教程:
硬件配置:英伟达4G以上显存,推荐8G+,显存低的话推理生成会非常慢。
保存地址:https://pan.quark.cn/s/b45f1c36a250
注:文件保存路径不可带有中文

双击“一键启动.exe”等待启动完成,打开浏览器访问http://127.0.0.1:7860 进入控制台,推荐使用edge或谷歌浏览器。


功能讲解
1、与音色参考音频相同
上传或本地录制音色参考音频,输入目标文本,点击生成语音。

2、使用情感参考音频
上传或本地录制音色参考音频,上传或本地录制情感参考音频,选择情感权重(0.4-0.8左右最佳),输入目标文本,点击生成语音。

3、使用情感向量控制
上传或本地录制音色参考音频,选择各种情感向量权重(情感向量之和不能超过1.5),输入目标文本,点击生成语音。

4、使用情感描述文本控制
上传或本地录制音色参考音频,输入情感描述文本(非常高兴,愤怒,巨悲伤等),输入目标文本,点击生成语音。

生成的语音可以在浏览器上下载或者去.\outputs目录查找å
0 评论