42digest首页
昆仑异常疑难解答:为大型模型分布式推理启用内核级异常检测和因果推理

Kunlun Anomaly Troubleshooter: Enabling Kernel-Level Anomaly Detection and Causal Reasoning for Large Model Distributed Inference

Yuyang Liu, Jingjing Cai, Jiayi Ren, Peng Zhou, Danyang Zhang, Yin Du, Shijian Li

arXiv
2025年11月8日

大模型分布式推理(LMDI)的异常故障排除仍然是一个关键挑战。 解决分布式系统中的推理性能下降或延迟抖动等异常需要领域专家的人工大量努力,从而以相对较低的精度实现极其耗时的诊断过程。 在本文中,我们介绍了昆仑异常疑难解答器(KAT),这是第一个为LMDI量身定制的异常故障排除框架。 KAT通过两个核心创新来解决这个问题。 首先,KAT利用GPU工人的同步性和一致性,创新地利用函数跟踪数据以纳米分辨率精确检测内核级异常和相关硬件组件。 其次,KAT将这些检测结果集成到一个域适应的LLM中,为复杂的异常症状提供系统的因果推理和自然语言解释。 在阿里云服务生产环境中进行的评估表明,KAT在异常检测中实现了超过0.884的精度和0.936的召回,提供了细节异常见解,大大缩小了诊断范围,提高了故障排除的效率和成功率。

Anomaly troubleshooting for large model distributed inference (LMDI) remains a critical challenge. Resolving anomalies such as inference performance degradation or latency jitter in distributed system demands significant manual efforts from domain experts, resulting in extremely time-consuming diagnosis processes with relatively low accuracy. In this paper, we introduce Kunlun Anomaly Troubleshooter (KAT), the first anomaly troubleshooting framework tailored for LMDI. KAT addresses this problem ...