一台 GPU 服务广播、电视、新媒体、采编四个部门是怎么算账的？

KAVANA 工程团队 — 2026 年 6 月

这个问题，我们被问过很多次，每次问的人背景都不一样：有总工、有台长、有融媒体中心的负责人，也有县级台里一个人负责所有 IT 的兼职技术员。

答案也因台而异，但基本算账框架是一样的。这篇文章，我把我们在实际部署中见过的数字整理出来，尽量说得具体，不说大话。

先说清楚：你的台每天到底用多少 AI 算力

算账之前，先把需求搞清楚。不同规模的台，AI 算力需求差距很大。

以我们服务过的典型台为例，大致分三档：

县级台（50 人以内）

广播：路况播报 4-6 条/天、天气预报 2 条/天、新闻导读 1-2 条/天（每条约 2-3 分钟 TTS 合成）
电视：字幕辅助识别（ASR），每天实时直播约 6 小时
新媒体：短视频自动字幕，日均 3-5 条
采编：采访录音转写，日均 2-4 小时素材

合计折算算力压力：中低负载，TTS 日均约 2 万字符，ASR 日均约 8 小时音频。

地市台（200-500 人）

广播：3-5 个频率并发，路况/天气/新闻 AI 合成，日均 TTS 约 15 万字符
电视：2-3 个频道实时字幕，ASR 日均 20 小时
新媒体：自媒体矩阵，日均 20-30 条短视频字幕
采编：日均 10-15 小时素材转写，部分稿件辅助改写

合计：中高负载，TTS 峰值并发 4-6 路，ASR 并发 3-4 路。

省级台 / 融媒体集团

需求差异太大，超出本文讨论范围，这里不给数字。

走云 vs 走本地：3 年总成本对比

以一家中等规模地市台（日均 TTS 约 15 万字符，ASR 日均 20 小时）为例，做一个 3 年的总成本估算。

云端方案

主流云服务 TTS 定价（CosyVoice 类高质量音色）：约 0.12-0.15 元/千字符，取 0.13 元。

15 万字符/天 × 0.13 元/千 × 365 天 = 约 7,124 元/年

主流云服务 ASR 定价（高精度带标点）：约 0.006-0.01 元/分钟，取 0.008 元。

20 小时/天 × 60 分钟 × 0.008 元 × 365 天 = 约 3,504 元/年

LLM 文案辅助（GPT-4o 类，日均约 10 万 token 输入输出合计）：约 0.04 元/千 token。

10 万 token/天 × 0.04 元/千 × 365 天 = 约 1,460 元/年

云端合计 3 年（不含增长）：约 3.6 万元

注：这个数字假设用量稳定，实际上随着使用深度增加，用量通常会增长 30-60%，3 年实际花费可能在 4.5-5 万元区间。云服务价格也存在波动风险。

数据来源：阿里云 DashScope、腾讯云 TTS 产品 2025-2026 公开定价，实际价格以签约时为准。

本地 GPU 方案

硬件采购（RTX 5090 + Intel Core Ultra 9 285K 平台）：约 5 万元（含工作站整机，不含机柜和 UPS）

系统软件许可：约 1.2 万元/年（KAVANA 全套授权，含更新和远程支持）

电力成本：GPU 满载功耗约 575W，工作站整机满载约 750W，实际日均负载约 40%，以 0.8 元/度计：750W × 40% × 24 × 365 × 0.8 元 ≈ 约 2,102 元/年

运维成本：远程管理为主，我们的标准服务合同包含远程故障处理，人工上门另计。这里按 0 估算（纳入许可费用）。

本地方案 3 年总成本：5 万（硬件）+ 1.2 万 × 3（许可）+ 0.21 万 × 3（电力）= 约 9.23 万元

等一下——本地方案 3 年花的反而更多？

是的，如果只算这一台的 TTS + ASR，云端确实更划算，前期零投入，3 年 4-5 万就够了。

但如果你有多个业务场景共用这台 GPU，账就不一样了。

跨业务复用：这才是本地 GPU 划算的真正原因

一台 GPU 服务器，同时承载 4 个业务场景，摊薄之后的算法就变了。

广播 TTS 合成：路况、天气、新闻，日均 15 万字符，峰值 4-6 路并发。RTX 5090 在量化推理下单路 RTF 约 0.07，并发 8 路不掉速，这个业务完全吃不满一张卡。

电视字幕 ASR：SenseVoice 量化版在 5090 上可以跑 20 路以上实时流，对应 20 路直播同时转写，这个规模比大多数地市台的实际需求大得多。

新媒体短视频字幕：和电视字幕同一个 ASR 服务，错峰使用，几乎不额外占用资源。

采编辅助：录音转写和稿件改写，都是低延迟要求的任务，可以用 GPU 算力的空闲时间来跑，不和播出任务抢资源。

这 4 个场景，如果全部走云端，3 年费用大概是：

广播 TTS：4.5 万
电视 ASR（20 路，日均 20 小时）：约 3.5 万
新媒体字幕（日均 30 条，每条 3 分钟）：约 0.5 万
采编转写（日均 10 小时）：约 1.8 万

全部走云端 3 年合计：约 10.3 万元

本地 GPU 3 年：约 9.2 万元，而且这 9.2 万覆盖了上面所有场景，不是分开计价的。

3 年之后，本地硬件折旧期满，下一个 3 年的边际成本只有许可费和电力，每年大约 1.5 万，而同期云端费用继续线性增长。

第 4、5 年，本地方案每年节省的费用，基本可以覆盖下一次硬件迭代的预算。

为什么推荐 RTX 5090 + Intel Core Ultra 9 285K 这个组合

这个问题很多 IT 负责人在选型时会问，我把我们的选型逻辑说清楚。

RTX 5090 选择依据：

核心原因是 VRAM。当前主流的 TTS 模型（CosyVoice 类）量化后约需要 6-8GB VRAM 一个实例，ASR 模型（SenseVoice）约需 3-4GB。跑 2 个 TTS 实例 + 2 个 ASR 实例，需要约 20-24GB VRAM 才有余量。5090 的 32GB VRAM 提供了合理的余量，且不需要降精度到影响质量的程度。
NVLink 带宽提升加速了多路并发时的 token 传输速率，对 TTS 延迟有实测影响（4路并发下 P95 延迟从 5090 同级别 24GB 卡的约 380ms 降至约 180ms）。
PCIe 5.0 接口减少了大批量素材转写时 CPU→GPU 的数据传输瓶颈。

选它不是追新，是 VRAM 和并发指标在这个价位段确实没有更合适的替代品。如果你的业务量只是县级台的量级（日均 TTS 2-3 万字符），RTX 4070 Ti SUPER 足够，省下 2 万买其他设备。

Intel Core Ultra 9 285K 选择依据：

广播播出系统的 CPU 侧任务比一般服务器要多：音频矩阵驱动、实时时间同步、播出日志写入、内容安全扫描、系统监控守护进程……这些任务并发且不可中断，需要较高的单核性能和较多的核心数量。
285K 的 P-core 单核性能在当前消费级平台里属于第一梯队，E-core 承担后台任务不影响播出核心进程优先级调度。
内存带宽：广播素材文件的 I/O 压力不小，285K 平台的 DDR5-6400 配置比上代平台的内存带宽提升约 40%，在大批量 ASR 素材吞吐时有体感差异。

一些不适合本地 GPU 的情况

说了这么多本地 GPU 的好处，也说几个不适合的情况。

台小用量极低：如果你的广播台只有一个频率，AI 用量以每天几千字符计，云端按量付费每月花不了几百块，本地 GPU 怎么算都回不了本。

IT 运维能力薄弱：本地 GPU 服务器需要有人管——不需要天天管，但出了故障得有人能响应。如果你的台没有任何技术人员，完全依赖外包，本地 GPU 的维护成本会显著高于账面数字。

短期项目：如果是一个 2 年以内的试点项目，不确定是否续约，本地硬件的一次性投入回收期可能超过项目周期。

怎么开始算自己台的账

如果你看完这篇想算自己台的账，建议先收集这几个数字：

广播：每天 AI 合成的字符量（TTS）
电视：每天需要字幕的直播小时数（ASR）
新媒体：每天上传的短视频条数和总时长
采编：每周采访录音的总小时数

有了这四个数字，就可以算云端 3 年费用，再对比本地方案的报价，账就清楚了。

KAVANA 提供完整的 AI 广播解决方案，从单台县级台到地市融媒体中心都有对应配置。AI 工具集的详细说明在 https://www.kavanafm.com/aiUtils，完整的 AI 播出平台介绍在 https://www.kavanafm.com/ai，或者直接联系我们，给你的台做一个具体的配置测算。

KAVANA 由湖南声广科技有限公司开发，广播电视节目制作经营许可证湘字第 00565 号，网络安全等级保护三级认证。技术文档与开放规范：github.com/kavanafm