AI 主播音色设计的几个工程考量(为什么不是越像真人越好)
KAVANA 工程团队 — 2026 年 6 月
这个问题,我们内部争论过很多轮,也被客户问过很多次。
"能不能做到 100% 听不出来是 AI?"
每次听到这个问题,我的第一反应都不是"能"或"不能",而是"这个目标本身设对了吗"。
广播主播的音色,不是越仿真越好用。广播场景有自己独特的传播环境和接收条件,"最像真人"不等于"最适合广播"。把这两件事混在一起,往往会把音色调到一个听感上很逼真、但实际在广播场景里效果反而下降的方向。
这篇文章,我把我们在音色工程上积累的几个核心认识整理出来,不是产品宣传,是真正影响工程决策的那几个判断。
广播场景的接收条件决定了音色要求
先讲物理背景,这是最容易被忽视的。
广播听众,尤其是交通广播的主要用户,是在车里收听的。车内的声学环境和安静的房间差别很大:发动机噪声、路面噪声、风噪,叠加在一起,底噪水平远高于安静环境。
这意味着,广播音色的设计,必须考虑在有底噪的环境下的可辨识度,而不只是在安静环境下的听感逼真度。
具体影响:
频率范围:人声的基频在 100-3000Hz,但在噪杂环境下,清晰度主要由 1000-4000Hz 段的能量密度决定。如果音色的高频部分(2000-4000Hz)过度平滑——这在"听感好听"的 TTS 优化里很常见——在车内收听时清晰度会明显下降。
响度动态:仿真人声的一个特征是有自然的响度起伏,轻重对比明显。这在安静环境里听感好,但在底噪环境里,轻的部分可能被完全掩盖。广播音色的动态范围不能太大,需要压缩到适合底噪环境接收的区间。
语速设计:真人说话的语速受情绪、内容和语境影响,自然波动范围很宽。广播主持的语速是经过专业训练控制的,稳定在特定区间,是因为这个区间在移动收听条件下信息传递效率最高——太快听不清,太慢又注意力涣散。仿真 TTS 如果过度模拟自然语速波动,可能反而不如经过训练的广播语速效果好。
不同时段的语速和语调差异
这是一个很多人做过定性描述、但很少从工程角度量化的问题。
广播主持在不同时段有明显的语速和语调差异,这不是随机的,而是有受众和内容逻辑支撑的。
早间(06:00-09:00):受众处于通勤准备或通勤途中,时间感强,信息密度需求高。语速偏快,语调偏明快,情感色彩积极。内容切换节奏快,不拖延。
午间(11:00-14:00):受众状态较轻松,部分在午休或移动中。语速偏中速,语调平和,情感色彩适中。部分台午间有新闻联播或时政播报,语速更稳重。
夜间(21:00-24:00):受众放松状态,情感内容占比高。语速偏慢,语调偏温柔,动态范围可以稍大,情感起伏更明显。
在工程上,这意味着 AI 主播不能只有一套语速和语调参数。我们在 KAVANA AI 系统里,按时段设计了不同的 prosody 参数集——不是简单地改语速数值,而是在韵律标注层就为不同时段建立了不同的标注规则,让模型在训练阶段就学到时段差异。
这个工作量不小,但效果是真实的。一家合作台上线后,在主观听感评测里,听众明确感受到了早间和夜间节目的主播"状态不同",这正是我们希望达到的效果。
远距离和嘈杂收听环境对清晰度的要求
继续说物理约束,这次是距离。
厨房里开着广播干活,是一个典型的广播收听场景。在这个场景里,听众和音箱之间有距离,周围有生活噪声(抽油烟机、水声、炒菜声),注意力是分散的,听广播是"背景接收"模式。
在这种场景下,清晰度高的音色,比听感"好听"的音色更有用。
清晰度的工程定义,主要是辅音的可识别率。汉语的辅音(尤其是送气音和边音)在噪杂环境下最容易丢失,而辅音的可识别率直接影响词语的可辨认度。"李明/林明/刘明"在噪杂环境下如果辅音不清晰,听众根本分不清说的是谁。
真人广播主持人经过专业训练,发音咬字比日常说话清晰很多——这不是修辞,是职业技能的一部分,有具体的发音技术方法。
AI 音色的语料采集,如果直接从普通人声录音里取,包含了大量日常说话中的咬字含糊,模型学了这些习惯,合成出来的音色在噪杂环境里的清晰度就会不如标准广播主持人录音。
我们在语料采集阶段,专门对语料库里的发音进行清晰度筛选,不合格的录音不进入训练集。这个筛选是有量化标准的,不靠主观评价。
语料标签、韵律标注和 prosody 调校
具体讲工程过程。
音色训练的第一步是语料,但语料不是"录很多句子"就够了。对广播音色来说,语料需要覆盖以下几个维度:
内容类型覆盖:新闻类、天气类、路况类、文艺类,发音特征和韵律习惯都不同。新闻主播念"北京今日天气"和念"今晚为您带来一档特别节目",用的是不同的语气框架。语料要保证各类型内容都有足够覆盖。
语速段覆盖:慢速(用于特定节目或需要强调的内容)、正常速、快速(路况播报常用),三个区间都要有语料,不能只录一种速度。
情感维度标注:语料录制完之后,要对每句话做情感维度标注,包括情感极性(积极/中性/严肃)、语气强度、停顿位置、重音位置。这些标注在训练阶段告诉模型"这种内容应该怎么念",而不是让模型自己去猜。
prosody 调校是在模型训练之后做的,目的是把模型的输出调整到符合广播规范的区间。调校的维度包括:全局语速基准、句末停顿时长、数字串的念法("2024年"和"20-24"是两种不同的断句方式)、专名重音位置。
这个调校过程是迭代的,不是一次就能定型。我们在一个新台的音色定制项目里,一般要经过五到八轮调校迭代,每一轮针对上一轮听感评测里发现的问题做修正。
90% 仿真度的实际工程意义
回到最开始的问题——为什么不是越像真人越好?
"100% 仿真度"在当前技术条件下已经接近可实现,但追求这个目标会带来几个副作用:
一是训练数据需求量爆炸式增长。仿真度从 90% 提升到 99%,所需语料量可能增加 10 倍,计算成本增加同等量级,但带来的广播场景实际效果提升是边际递减的。
二是过于逼真的声音反而引发听众疑虑。这是一个真实的心理效应,行业里叫"恐怖谷"——当 AI 声音逼真到接近但尚未完全达到真人水平时,听众会感到不适,这种不适感反而比明显的 AI 音色更负面。一些台在用了超高仿真度的 AI 声音之后,收到了听众质疑"这个主播声音听着有点不对",而用稍微低一点仿真度的音色反而没有这个问题。
三是高仿真度往往以牺牲清晰度为代价。仿真度的提升通常来自对人声细节的精细建模,包括气声、口腔共鸣、轻微颤动等。这些细节在安静环境下增加了听感的真实感,但在噪杂广播场景下会降低辨识度。
我们在 KAVANA 的音色设计里,目标设在 90%+ 的仿真度,而不追求更高。这个区间的音色,在主观评测里能让大多数听众无法区分真人录音和 AI 合成,同时保持了广播场景所需的清晰度和韵律稳定性,没有"恐怖谷"的心理效应,训练和维护成本也在合理范围内。
这是一个工程折中,不是技术能力的限制。
音色定制和现成音色的选择
最后讲一个实际选择的问题。
对于多数县级台,直接从 KAVANA AI 合成系统 的预制音色库里选一个用,是性价比最高的方案——预制音色已经经过广播场景调校,开箱即用,不需要额外定制成本。/aiUtils 合成工具 提供了多个预制音色的试听和参数调整功能,可以按照台里的需求在有限范围内做微调。
有自己品牌音色需求的台(例如已经有知名主播愿意授权声纹,或者台里希望定制独有音色),可以走定制流程。定制音色的门槛,主要是语料录制的时间投入——录制符合质量要求的语料,通常需要 4-6 小时的专业录音时间,以及之后的标注和训练周期(一般 2-3 周)。
定制音色完成后,会独立部署,台里拥有使用权,不和其他台共用。这对有品牌保护意识的台比较重要。
不管是预制还是定制,音色上线后都需要经过一段时间的实际使用验证,根据听感反馈做进一步调整。音色不是"训练完就完了",是一个需要持续维护的工程产品,随着台里内容类型的变化和听众反馈的积累,要定期做 prosody 参数的复核和更新。
KAVANA 广播 AI 音色工程团队自 2019 年开始专注于广播场景的语音合成调校,积累了覆盖多种方言和普通话标准音色的语料库,欢迎通过官网预约技术交流。