演进线索
前几代 TTS 已经解决了什么
- 朗读:第一代 TTS 用拼接合成和参数合成解决了"机器第一次能说话"的问题。
- 独白:第二代端到端神经网络 TTS 把自然度和音质大幅提升,让结果真正变得"能听"。
- 对白:第三代大模型 TTS 和 Instruct TTS 开始支持用自然语言描述单句的情绪、语速和语气,也能合成多人对话长音频。
- 舞台:但声学场景、情绪弧线和导演级控制仍然缺席,长上下文的全局连贯与完整声学场景的统一建模有待探索。
Abstract
从拼接合成到神经网络再到 Instruct TTS,合成语音的自然度与可控性持续提升——但这些能力大多停留在句子层面。长上下文的全局连贯,以及人声与声学场景的统一建模,仍有待探索。
演进线索
TTS-Next
Technical Contributions
从数据到模型到系统架构,这是我们的一些探索与实践。
提出 "Labeling over filtering & cleaning" 数据理念,构建 Global-Sentence-Token (GST) 自顶向下层次化标注 Schema,数据利用率提升至 90% 以上。
验证了 CoT 和维度 Dropout 的有效性,显著提升模型在复杂场景下的指令遵循与表现力。
GST 层次化标注体系充当 LLM Agent 与合成引擎之间的结构化语义接口,将窄带文本接口升级为信息完备的宽带控制通道。
摒弃传统 Pipeline 中以 DNSMOS / WER 粗暴过滤"脏数据"的做法——高情绪表现力语音与声学噪声强正相关,争论、打断、重叠恰恰是语音表达最丰富的来源。
取消语音降噪,将背景音、环境噪声与人声统一建模。"脏"数据不是噪声,而是可描述、可控的声学表达维度——推理时通过指令描述即可精确控制声学环境。
Global(场景定位 / 说话人画像 / 情绪弧线)→ Sentence(语气 / 语速 / 意图 / 背景状态)→ Token(重音 / 多音字 / 儿化音 / 连读),三层维度均以自然语言 Caption 表达,具备开放域描述能力。
数据利用率 > 90%;同时包含"干净简单"与"脏且困难"数据的训练分布,有助于缓解推理幻觉。
Script Room
Annotated Prompt
[场景: 指挥中心, 灯光冷, 空气紧绷]
[人物A: 压低声线, 克制愤怒, 句尾收紧]
[人物B: 冷静反击, 稳步施压, 中段提速]
[背景: 低噪环境声 + 偶发键盘声]
[观众/旁人: 无]
[节奏: 前慢后快, 第三轮冲突拉满]
Rich Controls
Control Console
Global Level
定义整段音频的场景定位、说话人画像、全局情绪基调、背景声学环境与关键声音事件。
Sentence Level
控制每句话的语气、语调、语速、音量与说话意图,以及句间的状态切换与情绪衔接。
Token Level
在音素颗粒度上处理重音标注、多音字消歧、儿化音、连读变调与语气词拖音。
传统 TTS 将理解和发声合并为一步。我们将其拆为双阶段:模型先基于全局指令进行深度推理——逐句输出语气、语调、语速、意图和发音规划——再以推理结果为蓝图生成音频。
Instruct 路承载用户提供的硬约束(场景元数据、说话人身份、声学环境评分);Think 路承载模型自主推理的表达规划(情绪走向、逐句语气意图、音素级发音标注)。
训练时随机丢弃 Think 中的部分维度标注,迫使模型不过度依赖单一维度。
其一,提升已有维度的指令遵循精度;其二,推理时用户无需填写所有控制字段,仅指定关心的维度即可获得合理结果。
Inference Pipeline
Instruct 路
Think 路
传统 TTS 文本接口是窄带的——语义空间仅覆盖词汇内容,LLM 的场景级理解在传递中被大幅压缩。GST 层次化标注将接口扩展为同时覆盖场景、画像、情绪、声学环境、交互动态的宽带控制通道。
Global = 会话 / 应用层,Sentence = 传输层,Token = 物理层。三层结构为 LLM 定义了结构化调用参数规范 (Structured Calling Schema),用户与 Agent 均无需了解合成引擎内部机制。
相比端到端方案中历史上下文的"无意识有损压缩",Agent 架构通过 LLM 的语义蒸馏将对话历史压缩为结构化指令——有意识的、Schema 引导的语义压缩,兼顾跨轮次连贯与计算效率。
文本作为跨模态桥梁,任意模态输入(文本、视频、网页、音频)均可被 LLM 转化为符合 GST 结构的生成指令,实现 Any2Speech 的范式跃迁。
System Architecture
Any Input
Frontend
多模态理解 → 语义重构 → 结构化指令生成
Structured Semantic Interface
Backend
Output
传统 TTS
仅覆盖词汇内容,至多附加说话人标识或有限风格标签。前端 LLM 的场景级理解在传递过程中被大幅压缩。
AnytoSpeech
同时覆盖场景、画像、情绪、声学环境、交互动态等全部生成维度。LLM 的多维语义理解充分传递至合成引擎。
鼠标悬浮不同卡片,切换详细设计与演示
继续浏览探索与实践Demo Showcase
当合成语音止步于把台词念好,传统 TTS 已足够胜任。AnytoSpeech 的价值在于那些需要人物感、场景感、冲突张力与完整节目包装的内容——影视复刻验证冲突与关系,广播剧考验叙事推进,方言脱口秀和风格节目则指向人物质感与空间氛围。
传播场
戏剧场
叙事场
创作场
现场场
风格场
Closing Note
这是一个 prototype——它能工作,但它还粗糙。当前训练数据几乎全部以人声为核心,并未包含纯音效或纯音乐的专项数据;我们推测,系统展现出的纯音效与纯音乐生成能力,完全来自对人声片段背景音的泛化。此外,音色控制仅依赖自然语言描述,相同描述在不同次合成中可能产生音色漂移,尚无法精确复现特定说话人的声音。(带语音 prompt 的版本正在训练中)
尽管如此,我们欣喜地看到了它的 scaling 潜力。那些传统 TTS 流水线会丢弃的"脏"数据——背景嘈杂、多人重叠、录音质量参差——在 Labeling over Filtering & Cleaning 策略下,恰恰成为系统 scaling 的燃料。模型从中学会了纯环境建模、纯音效生成等意料之外的能力;更关键的是,干净与嘈杂、简单与复杂并存但有区分的数据分布有助于缓解模型幻觉。我们有理由相信,这种数据多样性在强化学习阶段将提供更具区分度的 reward signal,进一步释放模型潜力。
说了这么多,不如亲自试试。
打开 Any2Speech