AI 时代的可观测性:如何实现从技术到实践的完美落地?
作者:微信文章2025年10月17日-18日,十周年特别呈现!第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站即将盛大开幕!来自腾讯、小红书、中国联通、阿里的4位专家将分享大模型+可观测性方面的精彩内容。
1
演讲议题:基于流量地图的活动保障体系实践与 AI 探索
马恒洋
小红书
可观测产品负责人
01
演讲提纲
小红书重大活动的稳定性保障挑战;
面向活动备战和效果排障的流量地图实践;
AI 驱动的业务+可观测性场景探索。
02
听众收益
了解可观测性、技术风险、AIOps 等领域现状
了解重大活动保障的相关事项,比如流量和容量评估、全链路压测等
共同学习大模型+可观测性场景创新
2
演讲议题:AI 时代 App 质量可观测平台实践与探索
黄涛
腾讯 PCG
质量监控专家工程师
01
议题简介
深入探讨如何构建高效的客户端质量监控体系,以及 AI 技术如何引领这一领域的变革。传统的质量监控方法在面对日益复杂的应用环境时,常常显得力不从心。随着 AI 技术的迅猛发展,客户端质量监控迎来了新的机遇。结合 LLM 等工具,开发者可以实现更精准的性能监测和问题诊断,显著提升应用的稳定性和用户体验。
02
听众收益
深入理解质量性能问题:了解客户端研发过程中常见的质量和性能问题,帮助研发和测试在实际工作中更好地识别和解决这些问题;
掌握全面监控方法:学习如何实现研发、测试、线上全范围覆盖的质量性能监控,提升应用的整体质量和用户体验;
探索 AI 赋能的新机会:听众将了解 AI 时代下客户端质量监控的新机会,发现如何利用智能工具进行自动化监控和分析。
3
演讲议题:智运维,见未来:中国联通“天眼”平台的智能探索之路
崔巍睿
中国联通软件研究院
业务架构师
01
个人简介
崔巍睿,中国联通软件研究院业务架构师
4
基于 SysOM 的 GPU 火焰图和慢节点检测
毛文安
阿里巴巴
高级技术专家
01
议题简介
大模型训练和推理的过程经常会遇到性能问题,性能瓶颈往往表现为慢节点、GPU利用率低等现象。 慢节点是个别计算节点的运算速度、网络通信带宽或主机整体负载显著落后于集群平均水平,进而拖慢全局迭代进度,造成端到端训练时间成倍增加。另外,GPU利用率低表现在计算单元长时间处于空转状态,其根本原因在于数据加载、梯度更新与前向/反向传播三者之间未能形成高效流水线,导致算力资源大量闲置,训推效率随之大幅下降。
SysOM智能运维平台创新性地提出“基于火焰图的全链路性能剖析方案”。该方案以eBPF无侵入探针为核心,通过高效采集CPU、GPU运行时的细粒度指标,精确计算算子下发时间戳与算子实际运行时间,从而形成AI火焰图、热力图,方便快速找到导致全局同步延迟的慢节点及GPU利用率低的真正原因。
你以为这样就完了?NO~NO~NO!
1017 GOPS 全球运维大会暨研运数字化技术峰会 2025· 上海站
想到现场与专家面对面交流?
10月17日-18日,等你来!
报名通道
联系我们
渠道合作:
渠道总监:刘 欣 158 0111 5386(微信同号)
赞助和门票业务咨询:
业务经理:周 静 130 71182180 (微信同号)
业务经理:刘毅菲 130 2108 2989(微信同号)
业务经理:尹 蜜 130 2108 5529(微信同号)
议题申报:
项目经理:小 雪 131 4122 7956(微信同号)
项目总监:刘 杰 156 5212 7323(微信同号)
点击阅读原文,更多精彩
页:
[1]