【AI 时代的可观测性:如何实现从技术到实践的完美落地?】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-10-12 04:40

AI 时代的可观测性:如何实现从技术到实践的完美落地?

作者：微信文章

2025年10月17日-18日，十周年特别呈现！第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站即将盛大开幕！来自腾讯、小红书、中国联通、阿里的4位专家将分享大模型+可观测性方面的精彩内容。

1

演讲议题：基于流量地图的活动保障体系实践与 AI 探索

马恒洋

小红书

可观测产品负责人

01

演讲提纲

小红书重大活动的稳定性保障挑战；

面向活动备战和效果排障的流量地图实践；

AI 驱动的业务+可观测性场景探索。

02

听众收益

了解可观测性、技术风险、AIOps 等领域现状

了解重大活动保障的相关事项，比如流量和容量评估、全链路压测等

共同学习大模型+可观测性场景创新

2

演讲议题：AI 时代 App 质量可观测平台实践与探索

黄涛

腾讯 PCG
质量监控专家工程师

01

议题简介

深入探讨如何构建高效的客户端质量监控体系，以及 AI 技术如何引领这一领域的变革。传统的质量监控方法在面对日益复杂的应用环境时，常常显得力不从心。随着 AI 技术的迅猛发展，客户端质量监控迎来了新的机遇。结合 LLM 等工具，开发者可以实现更精准的性能监测和问题诊断，显著提升应用的稳定性和用户体验。

02

听众收益

深入理解质量性能问题：了解客户端研发过程中常见的质量和性能问题，帮助研发和测试在实际工作中更好地识别和解决这些问题；

掌握全面监控方法：学习如何实现研发、测试、线上全范围覆盖的质量性能监控，提升应用的整体质量和用户体验；

探索 AI 赋能的新机会：听众将了解 AI 时代下客户端质量监控的新机会，发现如何利用智能工具进行自动化监控和分析。

3

演讲议题：智运维，见未来：中国联通“天眼”平台的智能探索之路

崔巍睿

中国联通软件研究院
业务架构师

01

个人简介

崔巍睿，中国联通软件研究院业务架构师

4

基于 SysOM 的 GPU 火焰图和慢节点检测

毛文安

阿里巴巴

高级技术专家

01

议题简介

大模型训练和推理的过程经常会遇到性能问题，性能瓶颈往往表现为慢节点、GPU利用率低等现象。慢节点是个别计算节点的运算速度、网络通信带宽或主机整体负载显著落后于集群平均水平，进而拖慢全局迭代进度，造成端到端训练时间成倍增加。另外，GPU利用率低表现在计算单元长时间处于空转状态，其根本原因在于数据加载、梯度更新与前向/反向传播三者之间未能形成高效流水线，导致算力资源大量闲置，训推效率随之大幅下降。

SysOM智能运维平台创新性地提出“基于火焰图的全链路性能剖析方案”。该方案以eBPF无侵入探针为核心，通过高效采集CPU、GPU运行时的细粒度指标，精确计算算子下发时间戳与算子实际运行时间，从而形成AI火焰图、热力图，方便快速找到导致全局同步延迟的慢节点及GPU利用率低的真正原因。

你以为这样就完了？NO~NO~NO！

1017 GOPS 全球运维大会暨研运数字化技术峰会 2025· 上海站

想到现场与专家面对面交流？

10月17日-18日，等你来！

报名通道

联系我们

渠道合作：

渠道总监：刘欣 158 0111 5386（微信同号）

赞助和门票业务咨询：

业务经理：周静 130 71182180 （微信同号）

业务经理：刘毅菲 130 2108 2989（微信同号）

业务经理：尹蜜 130 2108 5529（微信同号）

议题申报：

项目经理：小雪 131 4122 7956（微信同号）

项目总监：刘杰 156 5212 7323（微信同号）

点击阅读原文，更多精彩

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI 时代的可观测性:如何实现从技术到实践的完美落地?