AnytoSpeech | 从独白到舞台，做自己的声音导演

Hear It First

先听为敬

以下音频完全由 AI 端到端生成——角色、打断、观众笑声、情绪升级，全部一次合成，无后期拼接。

听更多场景 Demo

Abstract

Whats Next for TTS?

从拼接合成到神经网络再到 Instruct TTS，合成语音的自然度与可控性持续提升——但这些能力大多停留在句子层面。长上下文的全局连贯，以及人声与声学场景的统一建模，仍有待探索。

演进线索

前几代 TTS 已经解决了什么

朗读：第一代 TTS 用拼接合成和参数合成解决了"机器第一次能说话"的问题。
独白：第二代端到端神经网络 TTS 把自然度和音质大幅提升，让结果真正变得"能听"。
对白：第三代大模型 TTS 和 Instruct TTS 开始支持用自然语言描述单句的情绪、语速和语气，也能合成多人对话长音频。
舞台：但声学场景、情绪弧线和导演级控制仍然缺席，长上下文的全局连贯与完整声学场景的统一建模有待探索。

TTS-Next

我们认为下一代TTS至少应该具备三种能力

长上下文连贯：在跨句、跨段乃至整段音频的尺度上保持情绪弧线、表达强度和角色状态的全局一致性。
完整声学场景建模：将背景环境、声音事件和人声纳入统一的生成框架，而非分离建模。
结构化语义接口：为前端 LLM 提供信息完备的宽带控制通道，使场景理解、角色设定和发音细节充分传递至合成引擎。

Technical Contributions

What We Built and Why

从数据到模型到系统架构，这是我们的一些探索与实践。

01 Data

数据构建范式

提出 "Labeling over filtering & cleaning" 数据理念，构建 Global-Sentence-Token (GST) 自顶向下层次化标注 Schema，数据利用率提升至 90% 以上。

02 Model

复杂声学建模策略

验证了 CoT 和维度 Dropout 的有效性，显著提升模型在复杂场景下的指令遵循与表现力。

03 System

Native Agentic 架构

GST 层次化标注体系充当 LLM Agent 与合成引擎之间的结构化语义接口，将窄带文本接口升级为信息完备的宽带控制通道。

Labeling over Filtering & Cleaning + GST 层次化标注

Labeling over Filtering

摒弃传统 Pipeline 中以 DNSMOS / WER 粗暴过滤"脏数据"的做法——高情绪表现力语音与声学噪声强正相关，争论、打断、重叠恰恰是语音表达最丰富的来源。

Labeling over Cleaning

取消语音降噪，将背景音、环境噪声与人声统一建模。"脏"数据不是噪声，而是可描述、可控的声学表达维度——推理时通过指令描述即可精确控制声学环境。

GST 三层标注

Global（场景定位 / 说话人画像 / 情绪弧线）→ Sentence（语气 / 语速 / 意图 / 背景状态）→ Token（重音 / 多音字 / 儿化音 / 连读），三层维度均以自然语言 Caption 表达，具备开放域描述能力。

关键收益

数据利用率 > 90%；同时包含"干净简单"与"脏且困难"数据的训练分布，有助于缓解推理幻觉。

Script Room

Annotated Prompt

输入不只是台词文本，而是完整的舞台指令

[场景: 指挥中心, 灯光冷, 空气紧绷]
[人物A: 压低声线, 克制愤怒, 句尾收紧]
[人物B: 冷静反击, 稳步施压, 中段提速]
[背景: 低噪环境声 + 偶发键盘声]
[观众/旁人: 无]
[节奏: 前慢后快, 第三轮冲突拉满]

Rich Controls

从一句话到一整段，哪些信息可以被导演

角色画像：年龄、身份、性格、音色倾向和立场。
说话意图：吐槽、施压、解释、安抚、收尾、旁白推进。
声学环境：笑声、掌声、脚步声、雨声、低保真广播感。
细节修辞：重音、多音字、儿化音、拖音和语气词长度。

Control Console

01 Global

Global Level

全局场景与角色定义

定义整段音频的场景定位、说话人画像、全局情绪基调、背景声学环境与关键声音事件。

播客、相声、广播剧等整体节目感
说话人关系和全程情绪走向
笑声、掌声、环境声等空间元素

02 Sentence

Sentence Level

逐句表达策略控制

控制每句话的语气、语调、语速、音量与说话意图，以及句间的状态切换与情绪衔接。

上一句铺垫，下一句爆发
角色语气的连续变化和停顿策略
同一句话在不同语境中的表达差异

03 Token

Token Level

音素级发音精调

在音素颗粒度上处理重音标注、多音字消歧、儿化音、连读变调与语气词拖音。

重点词强调与尾音收束方式
多音字消歧与口语化发音
语气词拖音和现场感微调

CoT 思维链 + 维度 Dropout

先理解，后合成

传统 TTS 将理解和发声合并为一步。我们将其拆为双阶段：模型先基于全局指令进行深度推理——逐句输出语气、语调、语速、意图和发音规划——再以推理结果为蓝图生成音频。

Instruct / Think 双路拆分

Instruct 路承载用户提供的硬约束（场景元数据、说话人身份、声学环境评分）；Think 路承载模型自主推理的表达规划（情绪走向、逐句语气意图、音素级发音标注）。

维度 Dropout

训练时随机丢弃 Think 中的部分维度标注，迫使模型不过度依赖单一维度。

双重收益

其一，提升已有维度的指令遵循精度；其二，推理时用户无需填写所有控制字段，仅指定关心的维度即可获得合理结果。

Inference Pipeline

Instruct 路

用户硬约束

场景元数据（节目格式、风格、话题）
说话人身份（性别、年龄、音色特质）
声学环境量化评分

Think 路

模型自主推理

全局情绪走向与弧线
逐句语气、意图、语速、音量
音素级发音标注（重音、连读、变调）

CoT 推理合并

💭 理解语境 深度推理 · 规划表达

→

🎭 韵律决策 逐句语气 · 意图 · 发音

→

🎵 音频生成 连续 Tokenizer · 长音频

维度 Dropout：训练时随机遮蔽部分维度，提升指令遵循精度与用户输入容忍度

从 Text2Speech 到 Any2Speech

信息带宽跃迁

传统 TTS 文本接口是窄带的——语义空间仅覆盖词汇内容，LLM 的场景级理解在传递中被大幅压缩。GST 层次化标注将接口扩展为同时覆盖场景、画像、情绪、声学环境、交互动态的宽带控制通道。

分层控制协议栈

Global = 会话 / 应用层，Sentence = 传输层，Token = 物理层。三层结构为 LLM 定义了结构化调用参数规范 (Structured Calling Schema)，用户与 Agent 均无需了解合成引擎内部机制。

上下文效率优势

相比端到端方案中历史上下文的"无意识有损压缩"，Agent 架构通过 LLM 的语义蒸馏将对话历史压缩为结构化指令——有意识的、Schema 引导的语义压缩，兼顾跨轮次连贯与计算效率。

模态无关扩展

文本作为跨模态桥梁，任意模态输入（文本、视频、网页、音频）均可被 LLM 转化为符合 GST 结构的生成指令，实现 Any2Speech 的范式跃迁。

System Architecture

Any Input

任意模态输入

文本视频网页音频剧本

▼

Frontend

LLM Agent

多模态理解 → 语义重构 → 结构化指令生成

场景分析 → 角色规划 → GST 指令映射

▼

Structured Semantic Interface

GST 分层控制协议栈

Global 会话 / 应用层场景定位 · 说话人画像 · 情绪弧线 · 声学环境

Sentence 传输层语气 · 语调 · 语速 · 音量 · 说话意图 · 背景状态

Token 物理层重音 · 多音字 · 连读 · 儿化音 · 语气词拖音

▼

Backend

合成引擎

💭 CoT 推理 理解语境 · 规划表达

→

🎭 韵律决策 逐句语气 · 意图 · 发音

→

🎵 音频生成 连续 Tokenizer · 长音频

维度 Dropout：训练时随机遮蔽部分维度，提升指令遵循精度与用户输入容忍度

▼

Output

无边界长音频

长上下文连贯多人交互完整声学场景情绪弧线

传统 TTS

窄带文本接口

仅覆盖词汇内容，至多附加说话人标识或有限风格标签。前端 LLM 的场景级理解在传递过程中被大幅压缩。

AnytoSpeech

宽带控制通道

同时覆盖场景、画像、情绪、声学环境、交互动态等全部生成维度。LLM 的多维语义理解充分传递至合成引擎。

鼠标悬浮不同卡片，切换详细设计与演示

继续浏览探索与实践

Demo Showcase

有戏、有灵魂、有 Taste

当合成语音止步于把台词念好，传统 TTS 已足够胜任。AnytoSpeech 的价值在于那些需要人物感、场景感、冲突张力与完整节目包装的内容——影视复刻验证冲突与关系，广播剧考验叙事推进，方言脱口秀和风格节目则指向人物质感与空间氛围。

传播场

热梗模仿与高情绪切片

传播感强情绪

戏剧场

影视复刻与长冲突场面

角色冲突重叠说话环境氛围

叙事场

广播剧与人物关系线

旁白人物关系

创作场

vlog 配音与风格化短视频

旁白配音氛围感

现场场

方言脱口秀与互动感内容

方言现场互动

风格场

风格化音频与泛化涌现

音质风格纯音效纯音乐

Closing Note

Any2Speech 是我们对下一代 TTS 的一次探索与实践

这是一个 prototype——它能工作，但它还粗糙。当前训练数据几乎全部以人声为核心，并未包含纯音效或纯音乐的专项数据；我们推测，系统展现出的纯音效与纯音乐生成能力，完全来自对人声片段背景音的泛化。此外，音色控制仅依赖自然语言描述，相同描述在不同次合成中可能产生音色漂移，尚无法精确复现特定说话人的声音。（带语音 prompt 的版本正在训练中）

尽管如此，我们欣喜地看到了它的 scaling 潜力。那些传统 TTS 流水线会丢弃的"脏"数据——背景嘈杂、多人重叠、录音质量参差——在 Labeling over Filtering & Cleaning 策略下，恰恰成为系统 scaling 的燃料。模型从中学会了纯环境建模、纯音效生成等意料之外的能力；更关键的是，干净与嘈杂、简单与复杂并存但有区分的数据分布有助于缓解模型幻觉。我们有理由相信，这种数据多样性在强化学习阶段将提供更具区分度的 reward signal，进一步释放模型潜力。

说了这么多，不如亲自试试。

打开 Any2Speech

TTS的下一幕，不止于念台词。给声音，一整座舞台。