一台 GPU 服务广播、电视、新媒体、采编四个部门是怎么算账的?
KAVANA 工程团队 — 2026 年 6 月
这个问题,我们被问过很多次,每次问的人背景都不一样:有总工、有台长、有融媒体中心的负责人,也有县级台里一个人负责所有 IT 的兼职技术员。
答案也因台而异,但基本算账框架是一样的。这篇文章,我把我们在实际部署中见过的数字整理出来,尽量说得具体,不说大话。
先说清楚:你的台每天到底用多少 AI 算力
算账之前,先把需求搞清楚。不同规模的台,AI 算力需求差距很大。
以我们服务过的典型台为例,大致分三档:
县级台(50 人以内)
- 广播:路况播报 4-6 条/天、天气预报 2 条/天、新闻导读 1-2 条/天(每条约 2-3 分钟 TTS 合成)
- 电视:字幕辅助识别(ASR),每天实时直播约 6 小时
- 新媒体:短视频自动字幕,日均 3-5 条
- 采编:采访录音转写,日均 2-4 小时素材
合计折算算力压力:中低负载,TTS 日均约 2 万字符,ASR 日均约 8 小时音频。
地市台(200-500 人)
- 广播:3-5 个频率并发,路况/天气/新闻 AI 合成,日均 TTS 约 15 万字符
- 电视:2-3 个频道实时字幕,ASR 日均 20 小时
- 新媒体:自媒体矩阵,日均 20-30 条短视频字幕
- 采编:日均 10-15 小时素材转写,部分稿件辅助改写
合计:中高负载,TTS 峰值并发 4-6 路,ASR 并发 3-4 路。
省级台 / 融媒体集团
需求差异太大,超出本文讨论范围,这里不给数字。
走云 vs 走本地:3 年总成本对比
以一家中等规模地市台(日均 TTS 约 15 万字符,ASR 日均 20 小时)为例,做一个 3 年的总成本估算。
云端方案
主流云服务 TTS 定价(CosyVoice 类高质量音色):约 0.12-0.15 元/千字符,取 0.13 元。
15 万字符/天 × 0.13 元/千 × 365 天 = 约 7,124 元/年
主流云服务 ASR 定价(高精度带标点):约 0.006-0.01 元/分钟,取 0.008 元。
20 小时/天 × 60 分钟 × 0.008 元 × 365 天 = 约 3,504 元/年
LLM 文案辅助(GPT-4o 类,日均约 10 万 token 输入输出合计):约 0.04 元/千 token。
10 万 token/天 × 0.04 元/千 × 365 天 = 约 1,460 元/年
云端合计 3 年(不含增长):约 3.6 万元
注:这个数字假设用量稳定,实际上随着使用深度增加,用量通常会增长 30-60%,3 年实际花费可能在 4.5-5 万元区间。云服务价格也存在波动风险。
数据来源:阿里云 DashScope、腾讯云 TTS 产品 2025-2026 公开定价,实际价格以签约时为准。
本地 GPU 方案
硬件采购(RTX 5090 + Intel Core Ultra 9 285K 平台):约 5 万元(含工作站整机,不含机柜和 UPS)
系统软件许可:约 1.2 万元/年(KAVANA 全套授权,含更新和远程支持)
电力成本:GPU 满载功耗约 575W,工作站整机满载约 750W,实际日均负载约 40%,以 0.8 元/度计:750W × 40% × 24 × 365 × 0.8 元 ≈ 约 2,102 元/年
运维成本:远程管理为主,我们的标准服务合同包含远程故障处理,人工上门另计。这里按 0 估算(纳入许可费用)。
本地方案 3 年总成本:5 万(硬件)+ 1.2 万 × 3(许可)+ 0.21 万 × 3(电力)= 约 9.23 万元
等一下——本地方案 3 年花的反而更多?
是的,如果只算这一台的 TTS + ASR,云端确实更划算,前期零投入,3 年 4-5 万就够了。
但如果你有多个业务场景共用这台 GPU,账就不一样了。
跨业务复用:这才是本地 GPU 划算的真正原因
一台 GPU 服务器,同时承载 4 个业务场景,摊薄之后的算法就变了。
广播 TTS 合成:路况、天气、新闻,日均 15 万字符,峰值 4-6 路并发。RTX 5090 在量化推理下单路 RTF 约 0.07,并发 8 路不掉速,这个业务完全吃不满一张卡。
电视字幕 ASR:SenseVoice 量化版在 5090 上可以跑 20 路以上实时流,对应 20 路直播同时转写,这个规模比大多数地市台的实际需求大得多。
新媒体短视频字幕:和电视字幕同一个 ASR 服务,错峰使用,几乎不额外占用资源。
采编辅助:录音转写和稿件改写,都是低延迟要求的任务,可以用 GPU 算力的空闲时间来跑,不和播出任务抢资源。
这 4 个场景,如果全部走云端,3 年费用大概是:
- 广播 TTS:4.5 万
- 电视 ASR(20 路,日均 20 小时):约 3.5 万
- 新媒体字幕(日均 30 条,每条 3 分钟):约 0.5 万
- 采编转写(日均 10 小时):约 1.8 万
全部走云端 3 年合计:约 10.3 万元
本地 GPU 3 年:约 9.2 万元,而且这 9.2 万覆盖了上面所有场景,不是分开计价的。
3 年之后,本地硬件折旧期满,下一个 3 年的边际成本只有许可费和电力,每年大约 1.5 万,而同期云端费用继续线性增长。
第 4、5 年,本地方案每年节省的费用,基本可以覆盖下一次硬件迭代的预算。
为什么推荐 RTX 5090 + Intel Core Ultra 9 285K 这个组合
这个问题很多 IT 负责人在选型时会问,我把我们的选型逻辑说清楚。
RTX 5090 选择依据:
- 核心原因是 VRAM。当前主流的 TTS 模型(CosyVoice 类)量化后约需要 6-8GB VRAM 一个实例,ASR 模型(SenseVoice)约需 3-4GB。跑 2 个 TTS 实例 + 2 个 ASR 实例,需要约 20-24GB VRAM 才有余量。5090 的 32GB VRAM 提供了合理的余量,且不需要降精度到影响质量的程度。
- NVLink 带宽提升加速了多路并发时的 token 传输速率,对 TTS 延迟有实测影响(4路并发下 P95 延迟从 5090 同级别 24GB 卡的约 380ms 降至约 180ms)。
- PCIe 5.0 接口减少了大批量素材转写时 CPU→GPU 的数据传输瓶颈。
选它不是追新,是 VRAM 和并发指标在这个价位段确实没有更合适的替代品。如果你的业务量只是县级台的量级(日均 TTS 2-3 万字符),RTX 4070 Ti SUPER 足够,省下 2 万买其他设备。
Intel Core Ultra 9 285K 选择依据:
- 广播播出系统的 CPU 侧任务比一般服务器要多:音频矩阵驱动、实时时间同步、播出日志写入、内容安全扫描、系统监控守护进程……这些任务并发且不可中断,需要较高的单核性能和较多的核心数量。
- 285K 的 P-core 单核性能在当前消费级平台里属于第一梯队,E-core 承担后台任务不影响播出核心进程优先级调度。
- 内存带宽:广播素材文件的 I/O 压力不小,285K 平台的 DDR5-6400 配置比上代平台的内存带宽提升约 40%,在大批量 ASR 素材吞吐时有体感差异。
一些不适合本地 GPU 的情况
说了这么多本地 GPU 的好处,也说几个不适合的情况。
台小用量极低:如果你的广播台只有一个频率,AI 用量以每天几千字符计,云端按量付费每月花不了几百块,本地 GPU 怎么算都回不了本。
IT 运维能力薄弱:本地 GPU 服务器需要有人管——不需要天天管,但出了故障得有人能响应。如果你的台没有任何技术人员,完全依赖外包,本地 GPU 的维护成本会显著高于账面数字。
短期项目:如果是一个 2 年以内的试点项目,不确定是否续约,本地硬件的一次性投入回收期可能超过项目周期。
怎么开始算自己台的账
如果你看完这篇想算自己台的账,建议先收集这几个数字:
- 广播:每天 AI 合成的字符量(TTS)
- 电视:每天需要字幕的直播小时数(ASR)
- 新媒体:每天上传的短视频条数和总时长
- 采编:每周采访录音的总小时数
有了这四个数字,就可以算云端 3 年费用,再对比本地方案的报价,账就清楚了。
KAVANA 提供完整的 AI 广播解决方案,从单台县级台到地市融媒体中心都有对应配置。AI 工具集的详细说明在 https://www.kavanafm.com/aiUtils,完整的 AI 播出平台介绍在 https://www.kavanafm.com/ai,或者直接联系我们,给你的台做一个具体的配置测算。
KAVANA 由湖南声广科技有限公司开发,广播电视节目制作经营许可证湘字第 00565 号,网络安全等级保护三级认证。技术文档与开放规范:github.com/kavanafm