大型语言模型(LLM)在广泛的编程任务中表现出强大的性能,但其代码优化的潜力仍然不足。 这项工作调查了LLM是否可以优化汇编代码的性能,其中对执行的细粒度控制可以实现难以用高级语言表达的改进。 我们提出了一个强化学习框架,使用近端策略优化(PPO)训练LLM,该框架由奖励函数引导,该函数既考虑功能正确性,又通过测试用例验证,以及相对于行业标准编译器gcc-O3的执行性能。 为了支持这项研究,我们引入了8,072个现实世界计划的基准。 我们的模型Qwen2.5-Coder-7B-PPO实现了96.0基线,优于所有其他评估的20个模型,包括Claude-3.7-sonnet。 这些结果表明,强化学习可以释放LLM的潜力,作为汇编代码性能的有效优化器。
注意力的效率很重要,因为它的二次时间复杂。 我们通过两个关键贡献来提升注意力的效率:首先,我们利用Blackwell GPU中新的FP4 Tensor Cores来加速注意力计算。 我们的实现在RTX5090上实现了1038 TOPS,比RTX5090上最快的FlashAttention快了5倍。 实验表明,我们的FP4注意力可以加速以即插即用的方式推断各种模型。 其次,我们率先对训练任务进行低位关注。 现有的低位注意力工作,如FlashAttention3和SageAttention只关注推理。 然而,训练大模型的效率也很重要。 为了探索低位注意力是否可以有效地应用于训练任务,我们设计了一个准确有效的8位注意力,用于向前和向后传播。 实验表明,8位注意力在微调任务中实现了无损性能,但在预训练任务中表现出较慢的收敛。 代码将在https://github.com/thu-ml/SageAttention上提供。
拥堵控制(CC)严重影响了流媒体、游戏、AR/VR和联网汽车等互联网服务的用户体验。 传统上,CC算法设计寻求通用控制规则,在不同的应用领域和网络产生高性能。 然而,不同的服务需求和网络条件对这种方法提出了挑战。 我们使用自动自定义拥塞控制逻辑以满足服务需求和网络条件的系统共享运营经验。 我们讨论设计、部署挑战和解决方案,通过流媒体、游戏、联网汽车等案例研究来突出性能优势。 我们的系统利用由研究人员开发的基于在线学习的拥塞控制协议PCC Vivace。 因此,除了自定义拥塞控制的见解外,我们还讨论了为适应PCC Vivace进行实际部署而吸取的经验教训和修改。
AI从大型语言模型到微控制器(MCU)上运行的微小模型。 非常内存效率的模型架构是决定性的,以适应MCU的微小内存预算,例如128kB的RAM。 然而,推理延迟必须保持小,以适应实时约束。 解决这个问题的方法是基于补丁的融合,旨在优化跨神经网络层的数据流。 在本文中,我们介绍了msf-CNN,这是一种新技术,通过作为定向循环图的融合解决方案空间,有效地为卷积神经网络(CNN)找到最佳的融合设置。 与之前关于MCU的CNN融合工作相比,msf-CNN确定了一套更广泛的解决方案。 我们发布了在各种微控制器上运行的msf-CNN的实现(ARM Cortex-M,RISC-V,ESP32)。 我们表明msf-CNN可以使用50个先验技术(MCUNetV2和StreamNet)实现推理。 因此,我们展示了msf-CNN如何为系统设计人员提供额外的灵活性。
大型语言模型(LLM)在广泛的编程任务中表现出强大的性能,但其代码优化的潜力仍然不足。 这项工作调查了LLM是否可以优化汇编代码的性能,其中对执行的细粒度控制可以实现难以用高级语言表达的改进。 我们提出了一个强化学习框架,使用近端策略优化(PPO)训练LLM,该框架由奖励函数引导,该函数既考虑功能正确性,又通过测试用例验证,以及相对于行业标准编译器gcc-O3的执行性能。 为了支持这项研究,我们引入了8,072个现实世界计划的基准。 我们的模型Qwen2.5-Coder-7B-PPO实现了96.0基线,优于所有其他评估的20个模型,包括Claude-3.7-sonnet。 这些结果表明,强化学习可以释放LLM的潜力,作为汇编代码性能的有效优化器。
鉴于繁忙的时期和繁忙的周期在排队系统中的重要性,对各自分配功能的知识至关重要,这是允许计算重要概率的原因。 对于 M|G|∞ 队列系统,这些分布函数没有圆形公式。 但是,对于 M|D|∞ 队列来说,由于其繁忙的周期和繁忙的周期都有Laplace变换表达式圆形形式,对于任何其他 M|G|∞ 队列系统都没有发生的事情,由Platzman,Ammons和Bartholdi III创建的算法允许尾概率计算,因为已知对应器Laplace变换回合形式,这些分布函数计算是可能的。 在这里,我们将通过一个FORTRAN程序实现该算法。
基础模型的出现彻底改变了各个领域,使计算语言学、计算机视觉和其他领域的任务准确性和灵活性得以实现。 注意力机制已成为基础模型的重要组成部分,因为它们具有在序列中捕获相关性的出色能力。 然而,注意力导致内存和计算中的二次复杂性,因为上下文长度的增长。 尽管已经开发了许多基于聚变的精确注意力加速算法,用于利用多核并行性和数据本地性的数据中心级GPU和加速器,但加速对资源受限的边缘神经加速器的关注仍然是一个重大挑战,计算单元有限,芯片缓存有限。 在本文中,我们提出了一个方案,通过并行利用异构计算单元,即向量处理单元和矩阵处理单元,对内存受限的边缘加速器进行精确注意推理加速。 我们的方法涉及将工作负载安排到这些不同的计算单元中,以多层平铺方案处理平移工作负载和作为两个流的矩阵工作负载,尊重工作负载依赖性。 我们搜索平铺因素,以最大化两个计算单元的并行化,同时考虑 I/O 开销,并提出主动缓存覆盖策略,以避免实际出现不良缓存溢出。 与边缘计算场景中最先进的注意力融合方法(FLAT)相比,基于开源模拟框架的广泛结果显示出2.75倍的加速和54倍。 与FLAT相比,真实世界边缘神经处理单元的进一步实验表明,与FLAT相比,注意力的加速速度高达1.76倍,而不会影响模型输出精度。
我们介绍了一个轻量级工具,用于分析和调整具有异构内存池的系统中的应用数据放置。 该工具允许非侵入性地识别,分析和控制应用程序的单个分配的放置。 我们使用该工具分析在英特尔蓝宝石 Rapids 平台上运行的一组基准测试,同时具有 HBM 和 DDR 内存。 本文还包含两个内存子系统在读/写带宽和延迟方面的表现分析。 分析的关键部分是,如果两个子系统一起使用,则专注于性能。 我们表明只有大约60达到90
越来越多地使用高通量计算化学需要严格的方法来评估算法性能。 我们提出了贝叶斯分层建模范式(brms/Stan),用于分析关键性能指标:函数评估、计算时间和成功/失败。 该框架考虑了不同系统和功能之间的可变性,提供了超出主观视觉评估或频繁主义限制的可靠不确定性估计。 我们应用此方法比较了 Dimer 方法旋转阶段 (EON, with/not 去除外部旋转/翻译)的共轭梯度 (CG) 和 L-BFGS 算法,该算法位于 500 个初始马鞍搜索近似值的基准上,分析了 2000 次运行。 我们的结果表明,CG旋转通常优于L-BFGS,表现出统计学上可信的,PES呼叫的小幅减少和成功收敛的几率显着提高。 相反,启用旋转移除产生了大量的PES呼叫惩罚,而没有相应的可信改进成功几率在此实施。 这些发现,从我们的新的贝叶斯分层建模应用中,表明CG可能是更可取的迪默旋转优化在类似的上下文。 这个强大的统计框架突出了重新审视优化策略,量化不确定性和促进改进高通量计算化学方法的好处。
配备声学传感器的物联网(IoT)设备的激增需要强大的声学场景分类(ASC)功能,即使在嘈杂和数据有限的环境中也是如此。 传统的机器学习方法往往难以在这种条件下有效地推广。 为了解决这个问题,我们介绍了Q-ASC,一种新颖的量子启发声学场景分类器,它利用了量子启发变压器的力量。 通过集成叠加和纠缠等量子概念,Q-ASC与经典模型相比实现了卓越的功能学习和增强的噪声弹性。 此外,我们还引入了基于量子变量自动编码器(QVAE)的数据增强技术,以减轻物联网部署中有限标记数据的挑战。 对坦佩雷理工大学(TUT)声学场景2016基准数据集的广泛评估表明,Q-ASC在具有挑战性的条件下实现了68.3之间的显着准确性,在最好的情况下超过了最先进的方法超过5。 这项研究为在物联网网络中部署智能声学传感铺平了道路,即使在不利的声学环境中,在智能家居、工业监控和环境监控方面也有潜在的应用。
AI从大型语言模型到微控制器(MCU)上运行的微小模型。 非常内存效率的模型架构是决定性的,以适应MCU的微小内存预算,例如128kB的RAM。 然而,推理延迟必须保持小,以适应实时约束。 解决这个问题的方法是基于补丁的融合,旨在优化跨神经网络层的数据流。 在本文中,我们介绍了msf-CNN,这是一种新技术,通过作为定向循环图的融合解决方案空间,有效地为卷积神经网络(CNN)找到最佳的融合设置。 与之前关于MCU的CNN融合工作相比,msf-CNN确定了一套更广泛的解决方案。 我们发布了在各种微控制器上运行的msf-CNN的实现(ARM Cortex-M,RISC-V,ESP32)。 我们表明msf-CNN可以使用50个先验技术(MCUNetV2和StreamNet)实现推理。 因此,我们展示了msf-CNN如何为系统设计人员提供额外的灵活性。
本文重点介绍了为宇宙学 SWIFT 实现平滑粒子流体力学(SPH)求解器图形处理单元(GPU)加速(GPU)的第一步,并创建了一个流体力学求解器,能够充分利用由中央和图形处理单元(CPU和GPU)组成的异质外尺度机器上可用的硬件。 利用SWIFT中现有的基于任务的并行性,提出了新颖的算法组合,使SWIFT能够作为一个真正的异构软件,利用CPU与GPU同时进行内存绑定计算,从而最大限度地减少CPU-GPU通信延迟的影响。 这些算法在广泛的测试中进行了验证,这表明GPU加速方法能够在包括准备CPU上计算和在CPU上解压缩结果所需的时间时,为SWIFTs SPH流体力学计算内核提供高达3.5倍的加速。 在不包括 CPU 数据准备和解压缩时间时,会显示 7.5 倍的速度。 虽然这些测量的加速是实质性的,但研究表明,当在最先进的超级芯片的GPU上加速时,流体动力求解器的整体性能比使用Grace Hopper超级芯片完全并行CPU功能时的代码性能略快。 这主要是由于在GPU上卸载之前对任务进行过度精细处理。 精细化引入了与托管仿真的 CPU 任务管理相关的大量过头,并引入了对相同数据的 CPU-GPU 通信的不必要重复。
注意力的效率很重要,因为它的二次时间复杂。 我们通过两个关键贡献来提升注意力的效率:首先,我们利用Blackwell GPU中新的FP4 Tensor Cores来加速注意力计算。 我们的实现在RTX5090上实现了1038 TOPS,比RTX5090上最快的FlashAttention快了5倍。 实验表明,我们的FP4注意力可以加速以即插即用的方式推断各种模型。 其次,我们率先对训练任务进行低位关注。 现有的低位注意力工作,如FlashAttention3和SageAttention只关注推理。 然而,训练大模型的效率也很重要。 为了探索低位注意力是否可以有效地应用于训练任务,我们设计了一个准确有效的8位注意力,用于向前和向后传播。 实验表明,8位注意力在微调任务中实现了无损性能,但在预训练任务中表现出较慢的收敛。 代码将在https://github.com/thu-ml/SageAttention上提供。
拥堵控制(CC)严重影响了流媒体、游戏、AR/VR和联网汽车等互联网服务的用户体验。 传统上,CC算法设计寻求通用控制规则,在不同的应用领域和网络产生高性能。 然而,不同的服务需求和网络条件对这种方法提出了挑战。 我们使用自动自定义拥塞控制逻辑以满足服务需求和网络条件的系统共享运营经验。 我们讨论设计、部署挑战和解决方案,通过流媒体、游戏、联网汽车等案例研究来突出性能优势。 我们的系统利用由研究人员开发的基于在线学习的拥塞控制协议PCC Vivace。 因此,除了自定义拥塞控制的见解外,我们还讨论了为适应PCC Vivace进行实际部署而吸取的经验教训和修改。
不确定性下的气候经济建模带来了重大的计算挑战,可能限制政策制定者有效应对气候变化的能力。 本文探讨了基于神经网络的方法,用于解决由在气候减缓决策中纳入模棱两可厌恶的模型产生的高维最优控制问题。 我们开发了一个连续的内生增长经济模型,该模型涉及多种缓解途径,包括无排放资本和碳强度降低。 鉴于这些模型固有的复杂性和高维度性,传统的数值方法变得难以计算。 我们将几种神经网络架构与有限差生成的解决方案进行基准测试,评估它们捕获不确定性、技术转型和最佳气候政策之间动态相互作用的能力。 我们的研究结果表明,适当的神经架构选择在不确定性下对气候经济系统建模时,对解决方案的准确性和计算效率都有重大影响。 这些方法上的进步使气候政策决策的建模更加复杂,从而能够更好地代表技术转型和不确定性关键要素,以制定面对气候变化的有效缓解战略。
在线数据密集型应用程序(例如消息代理,ML推理和数据库)是现代互联网的核心组件,为连接服务提供了关键功能。 他们经历的负载变异性和干扰通常是服务质量(QoS)退化的主要原因,会损害依赖应用程序,并导致最终用户体验受损。 发现QoS退化的原因需要详细仪器应用程序的活动。 现有的可推广方法利用现成的系统指标来编码内核指标中的干扰,但不幸的是,这些方法缺乏确定性能下降的细粒度原因(例如,锁定,磁盘和CPU争抢)。 相比之下,本文探讨了使用细粒度系统级指标来促进QoS降解的应用无关诊断。 为此,我们介绍并实现了16个基于eBPF的指标,这些指标跨越了六个内核子系统,这些子系统捕获了内核事件的统计数据,这些事件通常会突出阻碍应用程序进度的障碍。 我们通过包含一组具有代表性的在线数据密集型应用程序的广泛实验,展示了基于eBPF的指标的使用。 结果表明,当应用程序面临可变工作负载模式和常见的资源争用场景时,实现的指标可以解构性能下降,同时也揭示了应用程序的内部架构约束。
多尺度可变形注意力(MSDA)是一种灵活而强大的视觉任务特征提取机制,但其随机存取网格采样策略带来了重大的优化挑战,特别是在NPU等特定领域的加速器上。 在这项工作中,我们提出了一种共同设计方法,系统地重新思考Ascend NPU架构上的MSDA的内存访问和计算策略。 通过这种联合设计方法,我们的实施支持高效的向前和向后计算,完全适用于训练工作负载,并集成了一套硬件感知优化。 广泛的实验表明,我们的解决方案在基于网格样本的基线上实现了高达5.9×(前向)、8.9×(向后)和7.3×(端到端训练)的加速,以及相对于最新供应商库的1.9×、2.4×和2.0×加速。
近年来,信息时代(AoI)已被积极研究,作为需要实时性能的系统的性能指标,例如通过通信网络的远程监控系统。 AoI的理论分析通常基于显式系统建模,例如单服务器队列模型。 但一般来说,通信网络等大型系统的行为很复杂,通常很难用简单的排队模型来表达延迟。 在本文中,我们将一个框架,其中延迟序列由非负连续时间随机过程(称为虚拟延迟过程)组成,作为AoI理论分析的新建模方法。 在这样的框架下,我们得出了AoI瞬态概率分布的表达式,并进一步应用随机命令理论来证明延迟序列的高依赖性导致AoI性能的退化。 我们进一步考虑一个特殊情况,其中延迟序列是从静止的高斯过程产生的,我们讨论了AoI通过数值实验对延迟过程二阶统计的敏感性。
蓬勃发展的RISC-V生态系统需要为复杂的处理器提供高效的验证方法。 传统方法通常难以同时评估功能正确性和性能,或平衡模拟速度与建模精度。 本文介绍了利用通用验证方法(UVM)和交易级建模(TLM)进行RISC-V处理器验证的集成共仿真框架。 我们展示了一个可配置的 UVM- TLM 模型(vmodel),该模型是一个超标的、超序的 RISC-V 核心,具有关键的微架构建模技术,如基于信用的管道流控制。 这种环境通过针对Spike ISA模拟器的共同模拟来促进统一功能验证,并使用在UVM中编排的CoreMark等基准进行早期性能评估。 该方法优先考虑集成,模拟效率和可接受的保真度,用于架构探索而不是循环级精度。 实验结果通过 RTL 方法验证功能正确性和显著的仿真加速,加速设计迭代并增强验证覆盖率。
机械,多细胞,基于代理的模型通常用于研究单细胞分辨率的组织,器官和生物体规模的生物学。 Cellular-Potts模型(CPM)是一个强大而流行的框架,用于开发和询问这些模型。 CPM在大型空间和时间尺度上变得计算昂贵,使得开发模型的应用和调查变得困难。 代孕模型可能允许加速评估复杂生物系统的CPM。 然而,这些模型的随机性意味着每组参数都可能导致不同的模型配置,使代理模型开发复杂化。 在这项工作中,我们利用去噪扩散概率模型来训练用于研究体外血管生成CPM的生成式AI替代物。 我们描述了使用图像分类器来学习定义二维参数空间独特区域的特征。 然后,我们将此分类器应用于辅助代理模型选择和验证。 我们的CPM模型代理在参考配置之前生成20000个时间步的模型配置,并且与本机代码执行相比,计算时间减少了大约22倍。 我们的工作是朝着实施DDPM发展随机生物系统的数字孪生迈出的一步。
并行函数数组语言是一种新兴的编程语言,有望将低努力并行编程与良好的性能和性能可移植性相结合。 我们系统地比较了五种不同函数式数组语言的设计和实现:APL、DaCe、Futhark和SaC。 我们通过四个具有挑战性的基准测试来展示函数式阵列编程的表现力,即N-body simulation、MultiGrid、Quickhull和Flash Attention。 这些基准表示一系列应用领域和并行计算模型。 我们认为,功能数组代码比手工优化的基线实现要短得多,更容易理解,因为它省略了特定于架构的方面。 相反,语言实现从单个源代码库生成多核和GPU可执行文件。 因此,我们进一步认为,与传统的数值内核实现相比,函数式数组代码可以更容易地移植到新的并行架构上并对其进行优化。 我们通过在 32 核 AMD EPYC 7313 多核系统和 NVIDIA A30 GPU 上报告五种并行功能阵列语言在总共 39 个基准测试中的性能来展示这一潜力。 我们深入探讨为什么每种语言在每个基准和架构上表现是否好。 我们认为,结果表明,成熟的函数式阵列语言有可能提供与最佳可用常规技术相比的性能竞争力。
我们考虑处理多个调度器通过双部分兼容性图连接到单服务器队列的网络,由于地理原因或数据本地化问题,在数据中心和云网络中常见的建模约束。 我们证明了稳态占用的下限,即经验队列长度分布的互补累积分布函数。 下界是几何的,比率由两个灵活性指标给出:调度员的平均程度和一个新的度量,该指标将最小度与整个服务器的兼容调度器平均。 使用这些下限,我们确定不断增长的处理网络的渐近性能无法与经典的Power-d或JSQ策略相匹配,除非灵活性指标在大规模限制中接近无穷大。
大型语言模型(LLM)推理系统由于动态工作负载变化、各种硬件架构以及模型大小、批处理和吞吐量要求之间的复杂交互,在统计性能表征方面提出了重大挑战。 准确的统计特征可以更好地安排工作负载、自适应资源配置和成本感知推理优化,使其在大规模人工智能部署中提高效率至关重要。 传统的分析模型提供了可解释性,但无法涵盖现实世界工作负载的巨大多样性,因此无法提前对每个场景进行基准测试。 机器学习(ML)方法有效地预测了非基准案例的性能,但在超出其观察到的训练空间时挣扎。 为了解决LLM推理系统的这些限制,我们提出了一个分析与学习增强(ALA)框架,该框架将分析建模与LLM推理工作负载中的稳健统计预测和不确定性估计联系起来。 我们的方法采用分析吞吐量模型,参数估计基准工作负载,然后使用预测扩展到未观察到的配置。 我们通过模拟退火来增强这一点,以利用工作负载数据点组合的子集并开发错误预测器。 最后,我们根据新工作负载和观察到的工作负载之间的向量空间相似性来量化不确定性,以确保稳健的概括。 通过针对各种 LLM 推理工作负载的广泛实验,我们证明我们的框架实现了低中位误差,同时保持对新推理场景的适应性。
云数据中心的高效电源管理对于降低成本、提高性能以及最大限度地减少对环境的影响至关重要。 对于机器学习(ML)和GenAI等任务至关重要的GPU是功耗的主要贡献者。 NVIDIA 的多实例 GPU (MIG) 技术通过启用具有每个分区资源跟踪的隔离分区,提高了 GPU 利用率,方便了多个租户的 GPU 共享。 然而,由于缺乏硬件支持,在MIG实例中准确分配GPU功耗仍然具有挑战性。 本文通过开发软件方法来估计每个MIG分区的功耗来解决这一挑战。 我们分析NVIDIA GPU利用率指标,发现精度高且精度轻巧的方法可能难以构建。 因此,我们探索使用基于ML的功率模型来实现准确的分区级功率估计。 我们的研究结果表明,单个通用的离线电源模型或建模方法不适用于不同的工作负载,特别是并发MIG使用,并且使用执行下工作负载的分区级利用率指标构建的在线模型可以显着提高准确性。 使用NVIDIA A100 GPU,我们演示了这种方法,用于对包括矩阵乘法和大语言模型推理在内的工作负载进行精确的分区级功率估计,从而有助于实现透明和公平的碳报告。