PANDA: Noise-Resilient Antagonist Identification in Production Datacenters
Sixiang Zhou, Nan Deng, Krzysiek Rzadca, Xiaojun Lin, Y. Charlie Hu
现代仓库规模的数据中心通常会在共享机器上整理多个作业,以提高资源利用率。 然而,这种搭配往往导致由过度消耗共享资源的敌对工作引起的性能干扰。 现有的拮抗剂检测方法要么依赖于线下分析,这是昂贵且不可扩展的,要么使用来自生产的样品方法,该方法受到嘈杂测量并在多受害者情景下失败的影响。 我们介绍了PANDA,一个用于生产规模数据中心的降噪拮抗剂识别框架。 与基于相关性的先前方法一样,PANDA使用每个指令的周期(CPI)作为其性能指标,但它的不同之处在于:(i)利用所有机器上的全局历史知识来抑制采样噪声,以及(ii)引入机器级CPI指标,该指标捕获多个同地位置任务之间的共享资源争议。 对最近谷歌生产跟踪的评估表明,PANDA对真实对手的排名比以前的方法要准确得多 - 将平均怀疑百分位从50-55%提高到82.6% - 并在多受害者场景中实现一致的拮抗剂识别,所有这些都可以忽略不计的运行时开销。
Modern warehouse-scale datacenters commonly collocate multiple jobs on shared machines to improve resource utilization. However, such collocation often leads to performance interference caused by antagonistic jobs that overconsume shared resources. Existing antagonist-detection approaches either rely on offline profiling, which is costly and unscalable, or use a sample-from-production approach, which suffers from noisy measurements and fails under multi-victim scenarios. We present PANDA, a nois...