AI基础研究具身智能 AI金融

本网站上的内容仅供参考，不提供医疗或其他专业建议，不代表活水快报、贡献者或合作伙伴的观点。

© 2024-2025 活水快报 - 42Digest.

|

京ICP备2024044642号-15

分布式、并行与集群计算研究快报

相关分类

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

最新研究

使用组合和交换锁最小化您的关键路径

Coroutines正在经历复兴,因为许多现代编程语言支持将合作多任务用于高度并行或异步应用程序。其中最大的优点之一是并发和同步完全在用户空间中进行管理,从而省略了重重系统调用。但是,我们发现最先进的用户空间同步原语从内核级调度的角度在用户空间中接近同步。这在应用程序的关键路径上引入了不必要的延迟,限制了吞吐量。在本文中,我们重新思考完全在用户空间中安排的任务的同步(例如,coroutines,fibrs等)。我们开发Combine-and-Exchange调度(CES),这是一种新颖的调度方法,可确保有争议的关键部分保持在同一条执行线程上,而可并行工作在剩余的线程中均匀分布。我们表明,我们的方法可以应用于许多现有的语言和库,从而在应用程序基准方面提高了3倍的性能,并在微基准上提高了8倍的性能。

分布式、并行与集群计算

5G和B5G网络中的主动服务保证:端到端网络切片的闭环算法

第五代(5G)和超越5G(B5G)网络中的服务定制在很大程度上依赖于网络切片,该网络在共享物理基础设施上创建多个虚拟网络,满足不同应用程序的特定需求,使用软件定义网络(SDN)和网络功能虚拟化(NFV)。当务之急是确保网络服务满足各种应用程序和用户的性能和可靠性要求;因此,服务保证是网络切片的关键组件之一。网络切片的关键功能之一是能够扩展虚拟化网络功能(VNF),以应对不断变化的资源需求,并满足客户服务级别协议(SLA)。在本文中,我们引入了一种用于端到端网络编排的主动闭环算法,旨在提供5G和B5G网络中的服务保证。我们专注于动态扩展资源,以满足每个网络切片特有的关键绩效指标(KPI),并在多个切片中并行运行,使其可扩展,并能够完全自动管理实时服务保证。通过我们的实验,我们证明提出的算法有效地满足了不同网络切片类型的服务保证要求,从而最大限度地减少了网络资源利用率,减少了备用资源的过度配置。

网络与互联网架构分布式、并行与集群计算性能系统与控制

使用能量收集装置更新空对空联合学习的估算和调度

我们研究无线(OTA)联合学习(FL),用于通过无线褪色多通道(MAC)进行异质数据分发的能量收集设备。为了解决低能量到达和数据异质性对全球学习的影响,我们提出了用户调度策略。具体来说,我们开发两种方法:1)基于熵的已知数据分布调度,2)基于最小二乘的用户表示估计,用于在参数服务器上使用未知数据分布进行调度。这两种方法都旨在选择不同的用户,减轻偏见和加强融合。数值和分析结果通过减少冗余和节约能量证明学习成绩提高。

机器学习分布式、并行与集群计算

无绳附:协调无并发锁定队列

队列在概念上是最简单的数据结构之一——一个基本的FIFO容器。然而,在并发的情况下确保正确性使得现有的无锁定实现比其原始形式要复杂得多。引入的协调机制,以防止危害,如ABA,无使用后,不安全的填海造垦往往主导设计,盖过了队列本身。许多计划都破坏了严格的FIFO订购,无限制的能力或无锁的进展,以掩盖协调开销。然而,复杂性的真正根源在于追求对填海危险的无限保护 - 理论上是健全的,但不切实际且昂贵。这种追求不仅带来了不必要的复杂性,而且还造成了一种保护悖论,即过度保护会降低系统弹性而不是改善系统弹性。虽然这种成本在传统工作负载中是可以承受的,但人工智能时代已经改变了范式:训练和推理管道每个节点涉及数百到数千个并发线程,在这个规模下,保护和协调开销占主导地位,通常比基本队列操作本身要重得多。本文介绍了 Cyclic Memory Protection (CMP),这是一个无协调队列,可保留严格的 FIFO 语义、无边界容量和无锁进度,同时恢复简单性。《议定书》/《公约》缔约方会议收回了通过提供实际填海保证的有边界保护窗口牺牲的其他办法的严格FIFO。我们通过线性化和有界复垦分析证明了严格的FIFO和安全性,并实验表明,在高争分量下,CMP在高争分量下超过最先进的无锁队列,同时保持对数百个线程的可扩展性。我们的工作表明,高度并发的队列可以返回到其基本简单性,而不会削弱队列语义。

分布式、并行与集群计算数据结构与算法性能

通过自动投机进行并行采样

我们提出了并行算法,通过在两个设置中通过计数来加速采样:任何顺序自动回归模型和去噪扩散模型。任何顺序的自动回归模型通过提供条件边缘的神谕访问目标分布 μ,而去噪扩散模型通过在高斯噪声下提供条件均值的 oracle 上访问 μ 上的目标分布 μ。标准顺序采样算法需要 O(n) 时间在任一设置中从 μ 生成样本。我们表明,通过并行发出神谕调用,可以将预期的采样时间减少到O(n^1/2)。这改善了先前针对任意顺序自动回归模型的 O(n^2/3) ,并在相对温和的假设下,在相对温和的假设下,在高精度方案中为扩散模型提供了第一个并行加速。我们引入了一种新颖的技术来获得我们的结果:投机性拒绝采样。这种技术利用近似 μ 的辅助“推测”分布 ν 来加速采样。我们的技术灵感来自于大型语言模型中流行的“投机解码”技术,但在关键方面有所不同。首先,我们使用“autospeculation”,即我们建立定义μ的同一个神谕的猜测ν。相比之下,推测性解码通常需要一个单独的,更快的,但可能不太准确的“草稿”模型ν。其次,我们技术的关键差异化因素是,我们在“序列”水平上而不是单个(或几个)步骤的水平进行和接受推测。这最后一个事实是解锁我们并行运行时 O(n^1/2)的关键。

数据结构与算法分布式、并行与集群计算机器学习概率论

SPADA:一种空间数据流架构编程语言

像Cerebras Wafer-Scale Engine这样的空间数据流架构通过利用跨处理元素(PE)和本地化计算之间的分布式内存,在AI和科学应用中实现卓越的性能。然而,由于需要通过可重新配置的片上网络和由数据到达触发的异步计算来明确编排数据移动,因此对这些架构进行编程仍然具有挑战性。现有的FPGA和CGRA编程模型强调循环调度,但忽略了空间数据流架构的独特功能,特别是常规网格上的高效数据流和复杂的路由管理。我们介绍了SPADA,一种编程语言,可以精确控制数据位置,数据流模式和异步操作,同时抽象架构特定的低级细节。我们为 SPADA 引入了严格的数据流语义框架,该框架定义了路由正确性、数据竞赛和死锁。此外,我们设计和实现了一个针对Cerevaris CSL的编译器,具有多级降低。 SPADA既是高级编程接口,也是特定领域语言(DSL)的中间表示,我们用GT4Py模板DSL演示。 SPADA使开发人员能够比CSL少6-8倍的代码表达复杂的并行模式 - 包括管道减少和多维模板 - 在三个数量级之间几乎理想的弱缩放。通过统一单个模型下的空间数据流架构编程,SPADA推进了这些新兴高性能计算平台的理论基础和实践可用性。

分布式、并行与集群计算编程语言

Low-cOst 高性能稀疏矩阵矩阵在 Arm SME 架构上的乘法

稀疏矩阵密度矩阵乘法(SpMM)是科学计算和新兴图形学习工作负载的关键内核。最近的 Armv9 架构引入了可扩展矩阵扩展 (SME),实现了基于图块的矩阵操作,吞吐量很高。然而,有效地利用中小企业和传统SIMD资源来实现非结构化的稀疏工作负载仍然是一个悬而未决的挑战。为了解决这个问题,我们提出了LOOPS,这是一个混合执行框架,将行明智的CSR部分与向量-明智的BCSR部分布局相结合,使矢量指令(NEON)和可扩展矩阵扩展(SME)资源的合作利用成为可能。 LOOPS通过轻量级性能模型引导的自适应两级并行化方案支持FP64、FP32和FP16的多精度SpMM。苹果M4Pro CPU上整个SuiteSparse的实验结果表明,相对于Armadillo,LOOPS的平均速度为9.93×(FP32)1.44×(FP64),而CPU基线TACO为71.3×(FP32)/54.8×(FP64)。在NVIDIA A100 GPU上执行的两种GPU方法(cuSPARSE,Magicube)在同一CPU上运行的LOOPS的比较显示LOOPS的平均速度在19.8×和33.5×之间,具体取决于精度。值得注意的是,LOOPS提供的能源效率明显优于A100 GPU上的GPU代码。

分布式、并行与集群计算

忘记交替和开花:快速匹配增强及其用于顺序/分布式/流式计算的新框架

在图形中找到最大基数匹配是最基本的问题之一。 Micali和Vazirani(1980)提出的一种算法在O(m√(n))时间内解决了这个问题,这仍然是一般最快的算法之一。虽然MV算法本身并不那么复杂,确实令人信服,但它的正确性证明极具挑战性,从历史中可以看出:在1980年的第一篇算法论文出现之后,Vazirani已经进行了几次尝试,给出了40多年的完整证明。粗略地说,这似乎是由一般图形中最短交替路径的漂亮但高度复杂的结构引起的,这些路径与所谓的(筑巢)花朵深深交织在一起。在本文中,我们提出了一个新的结构定理,在一般图形中最短的交替路径上,而不考虑到开花的细节。高层的想法是尽早忘记交替(匹配和非匹配边缘)。关键成分是由Izumi,Kitamura和Yamaguchi(2024)引入的交替基础树(ABT)的概念,以开发一种几乎线性时间的分布式算法。我们的结构定理完善了在其算法中利用的ABT的属性,我们也为他们提供了更简单的替代证明。基于我们的结构定理,我们提出了一种新的算法,它稍微慢一些,但比MV算法更容易实现,更容易确认其正确性。作为我们框架的应用,我们还在分布式和半流设置中呈现新的(1 - ε)近似算法。这两种算法都是确定性的,并且大大改善了运行时间上已知的最前沿。这些算法建立在一个新的框架之上,该框架放大了给定匹配的近似因子,这是独立的兴趣。

数据结构与算法分布式、并行与集群计算组合数学

数据中心负载脱耦的分配和管理

人工智能和云数据中心(DC)的耗电量爆炸式增长加剧了人们对其碳足迹的长期担忧,特别是因为DC需要不断的电力冲突,需要电网脱碳所需的不稳定可再生能源发电。 DC灵活性(即负载适应)是通过改善电网可再生吸收来减少直流碳排放的关键。直流灵活性可以创建,而不会通过将数据中心的电力容量和电网负载与能源资源集合相脱耦来降低数据中心容量。由于脱钩可能代价高昂,我们研究如何最好地分配和管理脱钩,以最大限度地提高所有人的利益。主要考虑因素包括站点变化和数据中心-电网合作。我们首先定义和计算数据中心负载解耦的电力和能源需求,然后评估设计的分配和管理方法。评估表明,优化的分布可以提供>98%的潜在电网碳减排,总脱耦需求的70%。对于管理,DC-grid合作(2路共享和控制vs。 1路信息共享)可实现1.4倍电网碳减排。最后,我们表明,脱钩在经济上可能是可行的,因为平均而言,数据中心可以获得比其局部脱钩成本更大的电力成本和碳排放效益。然而,跨站点的偏斜表明可能需要网格干预。

分布式、并行与集群计算系统与控制

工作负载调度器——创世纪、算法和差异

本文介绍了现代工作负载调度器分类的新方法。我们提供三类调度器的描述:操作系统流程调度器,集群系统作业调度器和大数据调度器。我们描述了它们从早期采用到现代实现的演变,既考虑了算法的使用和特性。总之,我们讨论所有介绍的调度器类别之间的差异,并讨论它们的时间顺序发展。最后,我们强调了调度策略设计重点的相似之处,适用于本地和分布式系统。

分布式、并行与集群计算人工智能

基于监督学习的稀疏矩阵再排序算法的选择

稀疏矩阵排序是一种重要的优化技术,通常用于解决大规模稀疏矩阵。它的目标是通过重组其行和列来最小化矩阵带宽,从而提高效率。算法选择的常规方法通常依赖于蛮力搜索或经验知识,缺乏适应各种稀疏矩阵结构的能力。因此,我们引入了一个基于监督学习的模型,用于选择稀疏矩阵重排序算法。该模型掌握了矩阵特征与常用再排序算法之间的相关性,促进了合适的稀疏矩阵重排序算法的自动化和智能选择。对佛罗里达稀疏矩阵数据集进行的实验表明,我们的模型可以准确预测各种矩阵的最佳重新排序算法,与仅使用AMD再排序算法相比,解决方案时间减少了55.37%,平均加速比为1.45。

分布式、并行与集群计算

经验建立企业级隐私保护联邦学习,为科学AI提供动力

Federated Learning(FL)是一种有前途的方法,可以在没有集中数据共享的情况下实现协作模型训练,这是数据隐私,所有权和合规性限制至关重要的科学领域的关键要求。然而,构建可扩展和隐私保护的用户友好的企业级FL框架仍然具有挑战性,特别是在弥合跨异构客户端计算基础架构的本地原型和分布式部署之间的差距时。在本文中,基于我们构建高级隐私保护联邦学习(APPFL)框架的经验,我们提出了企业级隐私保护FL框架的愿景,该框架旨在跨计算环境无缝扩展。我们确定了这样一个框架必须提供的几个关键功能:(1)可扩展的本地仿真和原型设计,以加速实验和算法设计;(2)从模拟到部署的无缝过渡;(3)从个人设备到云集群和HPC系统的分布在不同的现实世界基础设施中的分布式部署;(4)多级抽象,平衡易用性和研究灵活性;(5)通过诸如差异隐私,安全聚合,强大的身份验证和机密计算等技术实现全面的隐私和安全。我们进一步讨论建筑设计,以实现这些目标。该框架旨在弥合研究原型和企业级部署之间的差距,为科学实现可扩展、可靠和隐私保护的人工智能。

分布式、并行与集群计算

雾-云计算及其他领域的交易调度的Poly-Log近似值

交易调度对于在分布式系统中以无冲突的方式有效地分配共享资源至关重要。我们研究雾-云计算模型中事务的有效调度,其中事务及其相关的共享对象可以在网络中移动。时间表可能要求对象移动到事务节点,或事务移动到对象节点。此外,时间表可以确定对象和事务都相遇的中间节点。我们的目标是将总合并成本降至最低。我们专注于不断加倍的维度网络,这些网络在实践中经常出现。我们考虑一个批处理问题,其中一组任意节点有需要调度的事务。首先,我们考虑所有事务所需的单个共享对象,并呈现一个调度算法,该算法给出了最优调度的O(log n ·log D)近似值,其中n是节点的数量,D是网络的直径。后来,我们考虑事务访问多个共享对象(每次事务最多为 k 个对象),并提供一个调度算法,给出一个 O(k ·log n ·log D) 近似。我们还提供了一个完全分布式的调度算法版本,其中节点不需要事务的全球知识。

分布式、并行与集群计算

攻击中心设计:智能合同漏洞的程序结构分类

智能合约将高价值资产和复杂逻辑集中在小型、不可变的程序中,即使是很小的错误也会导致重大损失。现有的分类和工具仍然支离破碎,围绕诸如再进入而不是结构原因等症状组织。本文介绍了以攻击为中心的程序结构分类法,将 Solidity 漏洞统一为 8 个根因家族,涵盖控制流、外部调用、状态完整性、算术安全性、环境依赖性、访问控制、输入验证和跨域协议假设。每个家族都通过简洁的 Solidity 示例、利用机制和缓解来说明,并与静态、动态和基于学习的工具可观察到的检测信号相关联。我们进一步将遗留数据集(SmartBugs,SolidiFI)交叉映射到此分类法中,以揭示标签漂移和覆盖差距。分类学提供了一个一致的词汇和实用的清单,为研究人员和从业者提供了更可解释的检测,可重复的审计和结构化的安全教育。

密码学与安全分布式、并行与集群计算

多发性联合学习中的稀疏增量聚合

本文研究多跳通信设置中的联合学习(FL),例如具有卫星间链路的星座。在此设置中,部分 FL 客户端负责将其他客户端的结果转发到参数服务器。而不是使用传统的路由,通信效率可以通过在每个中间跳跃使用网络模型聚合(称为增量聚合(IA))来显着提高。先前的作品[1]表明,在梯度稀疏下,IA的收益正在减少。在这里,我们研究这个问题,并提出几个新颖的相关的稀疏方法的IA。数值结果表明,对于其中一些算法,IA的全部潜力仍然可以在稀疏下产生而不会损害收敛。我们展示了比传统路由的通信效率提高了15倍,比最先进的(SoA)稀疏IA提高了11倍。

分布式、并行与集群计算机器学习信号处理

跨卫星链路上TDM通信通用算法的正式验证

Python Testbed for Federated Learning Algorithms是一个简单的针对边缘系统的FL框架,它提供了三种通用算法:集中式联合学习,分散式联合学习以及当前时间段的通用TDM通信。前两个在上一篇论文中使用CSP过程代数进行了正式验证,本文中,我们使用相同的方法来正式验证第三个,分两个阶段。在第一阶段,我们构建CSP模型作为真实Python代码的忠实表示。在第二阶段,模型检查器PAT通过证明其死锁自由度(安全属性)和成功终止(活性属性)自动证明了第三个通用算法的正确性。

分布式、并行与集群计算

通过OpenMP将Fortran卸载到FPGA的MLIR管道

随着摩尔定律的放缓,诸如现场可编程门阵列(FPGA)等异构计算平台对加速HPC工作负载的兴趣越来越大。在这项工作中,我们介绍了通过MLIR中的OpenMP目标指令首次实现选择性代码卸载到FPGA。我们的方法将MLIR OpenMP方言与高级合成(HLS)方言相结合,提供针对FPGA的便携式编译流。与以前依赖自定义编译器的OpenMP FPGA努力不同,相比之下,我们与MLIR集成,因此支持任何与MLIR兼容的前端,在这里用Flang演示。基于一系列现有的MLIR构建模块,大大减少了所需的工作量,并证明了MLIR生态系统的可组合性优势。我们的方法支持通过标准 OpenMP 指令手动优化卸载内核,这项工作为 MLIR 生态系统中集成的基于指令的 FPGA 加速建立了灵活和可扩展的路径。

分布式、并行与集群计算编程语言

DynaKV:在智能手机上实现精确和高效的长序列LLM解码

随着对类人推理、多轮对话和长式响应的需求不断增长,人们越来越期望大型语言模型(LLM)支持高效和有效的长序列解码。然而,由于DRAM容量有限,智能手机上的长序列LLM解码受到键值缓存(KVCache)的限制,其内存占用率随着序列长度的线性增加而增加。基于检索的方法通过卸载 KVCache 到闪存和检索基于群集的索引来缓解 DRAM 压力。不幸的是,随着解码的进展,KVCache 分布移使静态或本地群集更新逐渐错位,不包括基本条目或获取冗余条目。这些问题因智能手机在带宽、IOPS 和内存容量方面的特定限制而进一步加剧。我们提出了DynaKV,这是第一个自适应KVCache管理方法,共同解决智能手机上长序列解码的准确性和效率。 DynaKV集成了三种关键技术:(1)免迁移集群适应,在检索过程中自适应地分割集群,而不会产生额外的传输;(2)Continuity-Centric Flash Management,它共同定位相关的条目和集群,并采用双头布局进行高效更新;(3)内存效率缓存设计,它虚拟化跨DRAM和闪存的缓存空间,并扩展替换策略以与集群级访问模式保持一致。评估表明,与最先进的解决方案相比,DynaKV提高了检索精度并降低了端到端延迟,实现了1.38×的精度和1.47×的提速。此外,DynaKV的见解自然延伸到其他长上下文工作负载和多层内存层次结构,强调了其更广泛的适用性。

分布式、并行与集群计算人工智能

从注意力到分类:追踪LLM推理的演变

大型语言模型从Transformer架构到具有数万亿参数的模型的演变,将主要瓶颈从模型训练转移到实时推理。部署这些大规模模型是一个复杂的分布式系统挑战,受到内存带宽、计算吞吐量和延迟要求的限制。 LLM推理从根本上要求解决多目标优化问题,以最小化延迟,最大限度地提高吞吐量并降低成本。本文探讨了向分类推理的必要架构转变,该推理应用了分布式系统原则,如服务分解、资源分类和工作负载分区,以克服传统单片GPU集群的局限性。通过将计算密集型预填充阶段从内存密集型解码阶段解耦为独立可扩展的组件,该范式可缓解资源争议,并能够独立优化 Time to First Token 和 Inter Token Latency 等关键指标。

分布式、并行与集群计算

UniFormer:用于通用和自定义计算进行推理的统一高效的变压器

卷积神经网络(CNN)等神经网络的成功很大程度上归功于它们有效和广泛地部署在定制的计算平台上,包括现场可编程门阵列(FPGA)和专用集成电路(ASIC)。在当前时代,基于Transformer的架构支持大多数最先进的(SOTA)大型模型,这些模型也越来越多地部署在低功耗和实时应用的定制计算硬件上。然而,通用和定制计算之间根本不同的并行计算范式往往导致模型转移和可部署性的妥协,这通常以复杂性,效率或准确性为代价。此外,许多跨平台优化原则在现有研究中也没有得到充分开发。本文介绍了UniFormer,一个统一而高效的Transformer架构,适用于通用和定制计算平台。通过实现更高的并行性和计算存储融合,UniFormer在GPU上实现了最先进的(SOTA)精度和延迟,同时在FPGA上表现出强大的适应性。据我们所知,本文是第一部同时考虑通用和定制计算架构的高效Transformer工作。

分布式、并行与集群计算硬件体系结构

继续滚动加载更多