新闻 发表于 2025-12-3 13:14

AI增强通讯智能技术实践

作者:微信文章
技术趋势
在多模态AI技术快速发展的背景下,实时音视频(RTC)技术正从“基础交互阶段”向“AI深度融合交互阶段”演进。在这一过程中,技术重点已不再局限于稳定性与实时性,更扩展至对更沉浸、更拟真、更高参与度的互动体验的追求。进入AI 深度融合阶段后,RTC 的智能化发展将呈现出两大趋势:底层智能增强与上层场景化智能赋能。随着这两条技术线的发展,RTC+AI将演变为“具备理解能力、互动能力和生产能力的智能实时交互引擎”。
场景需求
在支撑各类项目及场景的过程中,我们收集到了更大并发通话、更低交互延迟、更沉浸交互体验等更高目标的需求:

为满足单一空间支持200人以上同时视频交互的需求,计划通过AI动态编码技术实现视频流的智能压缩与画质增强,从而显著降低码率。


针对摄像头画面背景杂乱的问题,计划引入AI视频图像算法,精准识别人物并对背景进行模糊处理。


针对多人语音交互中的频繁噪音干扰,将通过实时AI降噪算法,有效抑制背景噪声。   
通讯智能架构设计
一、实时音频架构



实时音视频RTC分为底层组件能力与上层交互场景两层结构。其中组件能力层包括多端 SDK 支持、多种视频流接入方式以及支持多种编解码方式。交互场景层支持多种业务场景,包括:在元宇宙运维场景中实现虚拟空间中的实时交流协作;在复杂业务协同处理场景中满足多方互动、数据共享的协同办公。此架构最终集成了多端兼容、灵活接入、能力解耦与性能可视化于一体的实时音视频组件能力。



二、媒体智能架构




媒体智能处理系统构建了一个覆盖视觉、听觉与语言的多模态智能处理体系,通过识别、增强、分析与交互等能力模块,为实时音视频、流媒体及元宇宙场景提供智能支撑。该系统还拥有智能视频、智能人像处理、智能交互增强、智能音频处理等一系列基础能力。
关键AI能力提升
一、AI智能编解码增强
实时音视频能力支持主流视频编码,如:H.264、VP8、VP9、AV1等,兼顾兼容性与性能,并支持Simulcast和SVC可伸缩模式实现动态画质。




具有以下主要优势:

网络自适应性强:可根据网络带宽实时调整视频质量层。

带宽利用效率高:可精确匹配可用带宽,避免浪费。

降低服务器负载:SFU可根据需要转发不同层的数据,减轻负载。

业务策略提升:支持SVC L3T3编码,网页可根据视频播放窗口动态切换码率。

实时音视频最大的挑战在于网络带宽,为最大限度减小带宽压力,在元宇宙中采用小屏画面取最小码流、大屏画面取较大码流的策略,同时摄像头采用AV1 L3T3格式。编码时间层/空间层分布如下:



该模式有效契合了网络设计目标,将网络下行带宽降至原来的30%,从而实现了显著优化。

二、AI虚拟背景增强

在多人实时音视频交互场景中,用户摄像头后方环境常常复杂多样,可能包含家庭物品、办公资料或私人空间,这不仅容易造成隐私暴露,还会让画面显得杂乱、不专业。多数用户希望呈现出更干净、统一富有美感的会议画面。

虚拟背景替换技术是通过轻量级的 AI 语义分割模型实时识别视频流中的“人像前景”与“环境背景”,逐帧精准分离用户轮廓,并利用端侧 GPU 加速进行高效渲染,从而实现毫秒级的背景替换或模糊处理。整个过程包括:摄像头帧捕获、图像预处理、人像分割模型推理、掩码生成与平滑、背景融合与渲染输出。



实时虚拟背景效果展示:



三、AI音频智能降噪增强

在实时语音交互时,接入虚拟空间的协作者常处于嘈杂的办公环境,比如键盘敲击声、空调风扇声、交通噪声以及其他人员讨论的声音。为解决这些噪声问题,进一步提高实时交互的体验,系统引入了基于传统噪声抑制与深度学习相结合的AI实时音频降噪算法。网络架构灵感来自传统的噪声抑制方法。大部分工作由3个GRU层完成。下图展示了我们用于计算频带增益的层结构,以及该体系结构如何映射到噪声抑制的传统步骤。



当前通话音频在添加降噪功能后延迟在20ms以内,而且CPU占用极低,非常适合实时音视频通话的场景。   
智能应用场景
场景一:元宇宙孪生交互场景





元宇宙孪生空间交互场景融合了实时音视频能力、媒体智能能力,提供超低延时视频传输、语音智能降噪能力与智能虚拟背景能力,并支持多端接入,为跨地域协同办公提供了沉浸式的远程交互解决方案。

场景二:视频流智能识别场景



基于流媒体平台深度融合多种AI视觉算法,构建了面向多场景的视频流智能识别解决方案
,具备内置多种视觉模型、毫秒级智能响应等特性,可用于营业厅智能识别等场景。当前通话音频在添加降噪功能后延迟在20ms以内,而且CPU占用极低,非常适合实时音视频通话的场景。通讯智能未来展望
技术的最终价值在于提升业务效率及体验。随着实时音视频+AI的逐步成熟,它正从基础的沟通工具,演进为下一代实时智能交互引擎。在数字孪生、空间智能等前沿领域,全新的交互范式不断涌现,并已实现深度应用。比如:未来孪生交互场景中,我们将构建一个与物理世界实时同步、虚实融合的数字孪生世界。人们可以通过AR/VR设备,以数字分身(Avatar)的形式进入其中,进行协作、设计与社交。而“现实-孪生空间视频3D投影”技术,则能将真实世界采集到的实时视频流远程无缝3D投影到另一个真实空间中,就像科幻电影中的画面一样,真正达到大家面对面交流。我们期待与您携手,共同开启通讯与AI融合的未来。
页: [1]
查看完整版本: AI增强通讯智能技术实践