声网刘斌:RTE 演进助力 AI Agent 应用落地
12月11日,声网 COO 刘斌出席由量子位举办的 MEET2025智能未来大会,并带来了主题演讲,他分享了在实时多模态的趋势下,RTE 的演进如何助力 AI Agent 应用落地,并认为 RTE 将成为生成式 AI 时代 AI 基础设施的关键部分。
在 GenAI 时代,RTE 与 AI Agent 有什么关系?刘斌首先分享了两个事件,其一,今年10月初,声网的兄弟公司 Agora 作为语音 API 合作者出现在了 OpenAI 发布的 Realtime API 公开测试版中。其二,10月底的 RTE2024实时互联网大会中,声网也宣布与 MiniMax 正在打磨国内首个 Realtime API。通过这两个事件反映出当下大模型的交互正在走向实时多模态。
实时音视频成为对话式 AI Agent 的关键一环
刘斌认为,在多模态模型推出后,对话的方式与原来纯文本交互不同,会从异步变为实时双工交互,实现了很大的飞跃。但在最终应用落地的过程中,依然存在很多客户痛点,比如在实际应用场景中,用户的设备通常无法像发布会演示的那样一直处于固定网络与物理环境下,大部分Conversational AI Agent 的使用场景是随机的,也就是可能会发在 Anytime Anywhere,比如在开车送完孩子上学之后,这就对大模型实时语音对话中的低延时传输、网络优化等提出了考验。一般来说,延迟在 1.7 秒内会让人感觉自然,2 秒多、 3 秒则会让人觉得卡顿、反应慢。
其次在模型交互中能否支持智能打断以及主动交互也是用户非常关注的一个关键点。要做到这些,除了模型能力,在应用落地方面,需要端到端的能力支持,不仅需要成熟的 VAD 技术来实现自由打断,更需要一整套的音频高级算法来支撑实现优雅打断,从而实现用户体验最好的人模对话,当然也需要应对不同的物理环境、复杂的网络环境、PC、手机以及各类 IoT 终端等。
声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过将 RTE 与 GenAI 结合,推出了声网 Conversational AI Agents ,旨在帮助开发者与企业解决 Agent 应用落地的一系列痛点,快速构建适配自己业务场景的 AI 实时语音对话服务。
语音对话延迟低至500ms:针对大模型语音交互中普遍存在响应时间长的痛点,声网自研的 SD-RTN? 实时传输网络可以实现全球范围的低延时音视频传输,目前可做到语音对话延迟低至 500ms,并进一步通过更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段,保证对话的实时性与流畅性,达到近似人与人之间日常对话停顿与间隔。
支持智能打断:开发者在构建 AI 应用场景时,会将能否支持随时打断也成为衡量大模型智能化的重要指标。声网自研的 AI VAD 技术,适应人类对话的停顿、语气和对话节奏,支持 AI 对话过程中随时打断。同时,声网的解决方案还深度优化 AI 角色,最大程度保留情绪情感等关键信息,超拟人真实音色丰富通话体验。
支持30000+移动终端:在大模型的应用落地中,不同的终端设备、操作系统等也会带来不一样的体验,声网的音视频 SDK 经过不断的迭代升级,可以支持 30 多个平台框架、30000 多终端机型及各种操作系统,包括各类 IoT 设备终端;
领先的音频处理:在人与人音视频通话的过程中,环境噪音是经常遭遇的一大痛点,影响沟通效率。在 GenAI 场景中,环境噪音同样无法避免。声网具备业界领先的音频3A能力,提供 AI 回声消除、AI 智能降噪、背景人声过滤、音乐检测/过滤、主讲人声纹锁定等自研音频技术,即使在商场、地铁站等嘈杂环境中,也能保证 AI 对话过程不受影响。
灵活可扩展的 AI Agent 架构:开发者在构建 AI 应用时,往往会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此,声网的解决方案采用了灵活可扩展的 AI Agent架构,兼容市场主流的 ASR、LLM 和 TTS 技术,并具备工作流编排能力,帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。
RTE 成为 GenAI 时代 AI Infra 的关键部分
在与大模型厂商合作的过程中,声网也发现想要提升大模型落地的实用性,现有 RTE 技术栈和基础设施仍有大量改进空间。刘斌表示,只有通过不断的演进,大模型才有机会在各种场景、形态下大规模参与到和人的语音对话中,大模型也将基于云、设备端、边缘的多维度参与与协作。基于这些能力的改进和普及,未来 RTE 将成为 GenAI 时代 AI 基础设施(AI Infra)的关键部分。
同时,Gen AI 也在驱动 RTE 实时互动的技术变革与体验革新,在人与人的实时互动中,声网一直致力于实现从 QoS 服务质量到 QoE 体验质量的技术变革,在体验层面也从“听得到“变为“听得清”。而在人与 AI 的实时互动中,为了进一步增强体验,RTE 的技术变革也演变为 AI QoE 甚至多模态 AI QoE,这背后就包含了声网自研的 AI VAD 能力、降噪能力及网络优化等一系列技术能力,以使得人与 AI 的对话更符合实际情况,大模型也从理解内容,变成理解对话人的心理、情绪,最终理解对话时的人类意图,最后实现从“听得懂“到“听「得心」”的体验革新。
在 GenAI 时代,声网的产品体系也在不断加强,刘斌也进一步介绍了声网的 AI RTE 产品矩阵,包括 Linux Sever SDK、AI VAD 能力、AI Agent Service 等都在做补充与优化。
最后刘斌还介绍了声网 RTE + AI 能力全景图,包括 RTE+AI 生态能力、声网 AI Agent、Conversational AI Agents 解决方案等,全面的展现了声网对 RTE+AI 的整体思考,致力于成为 GenAI 时代 AI 基础设施的关键部分。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
-
盖伦死亡骑士多少钱 LOL死亡骑士盖伦皮肤多少钱
其实盖伦死亡骑士多少钱的问题并不复杂,但是又很多的朋友都不太了解LOL死亡骑士盖伦皮肤多少钱,因此呢,今天小编就来为大家分享盖伦死亡 [详细] -
火焰之地副本入口 魔兽世界火焰之地副本的入口在哪里
各位老铁们,大家好,今天由我来为大家分享火焰之地副本入口,以及魔兽世界火焰之地副本的入口在哪里的相关问题知识,希望对大家有所帮助。 [详细] -
魔兽世界熊猫人声望 魔兽世界熊猫人之谜声望势力冲法解析
大家好,今天小编来为大家解答以下的问题,关于魔兽世界熊猫人声望,魔兽世界熊猫人之谜声望势力冲法解析这个很多人还不知道,现在让我们一 [详细] -
卡拉克西崇拜奖励 魔兽世界卡拉克西声望崇拜
大家好,关于卡拉克西崇拜奖励很多朋友都还不太明白,今天小编就来为大家分享关于魔兽世界卡拉克西声望崇拜的知识,希望对各位有所帮助!一 [详细] -
守望先锋关服时间 守望先锋关服时间是什么时候
各位老铁们,大家好,今天由我来为大家分享守望先锋关服时间,以及守望先锋关服时间是什么时候的相关问题知识,希望对大家有所帮助。如果可 [详细] -
海思官宣:星闪车钥匙方案即将量产装车 解决靠近“罚站”等问题
快科技11月14日消息,华为主导发布了星闪之后,已经覆盖了很多产品,包括手机、平板、鼠标、键盘、手柄、冰箱等等。依托于低时延、高速率、 [详细] -
让无数人等了3年的双城之战 一回归就屠榜了
该说不说,如果要评选一个最近人气最火,口碑最爆的动画。。。《双城之战》当第二,大概没人敢认第一。前两天,无数人等了三年的《双城之战 [详细] -
非洲首次发现吃塑料的昆虫 为什么生物能够吃塑料
最近,有科学家团队在非洲发现了一种能够吃聚苯乙烯的昆虫,并将相关研究发表在了《科学报告》上。聚苯乙烯又被称为泡沫塑料,是最常见的塑 [详细] -
死或生5:*后一战 死或生5*后一战和终*版的区别
《死或生5:*后一战》为一款格斗类游戏,游戏中玩家们需要*练掌握格斗技巧,对战中也要时刻注意对手的动作,接下来为大家带来玩家“天魔镇 [详细] -
ABC卫生巾遭女网友抵制 称其“不尊重女性”:天猫旗舰店已下架所有商品
11月17日消息,近日有网友发现,包括天猫旗舰店在内的多家ABC卫生巾官方授权的店铺下架全部商品,与此同时, ABC卫生巾 也登上微博热搜。感 [详细]