直接在超低功耗边缘/IoT节点上运行深度学习推理一直受到微控制器有限内存和计算资源的限制。分割学习(SL)通过将部分推理过程在传感器端执行,其余部分卸载到配套设备来解决这一限制。在资源受限设备和低功耗无线传输协议的相关影响下,分割学习的性能在很大程度上尚未得到充分研究。据我们所知,本文首次提出了基于Espressif ESP32-S3板构建的端到端TinyML+SL测试平台,旨在评估边缘/IoT环境中分割学习TinyML的无线传输性能。我们对MobileNetV2图像识别模型进行了基准测试,该模型被量化为8位整数,经过分割后通过无线更新交付给节点。中间激活值通过不同的无线通信方式交换:ESP-NOW、BLE以及传统的UDP/IP和TCP/IP,从而在相同硬件上实现直接比较。测量结果表明,当使用UDP协议时,在block_16_project_BN层后分割模型会产生5.66 kB的张量,传输时间为3.2 ms,稳态往返延迟达到5.8秒。ESP-NOW表现出最佳的RTT性能(3.7秒);BLE可进一步延长电池寿命,但会将延迟增加到10秒以上。
人工智能(AI)和机器学习(ML)的广泛采用带来了重大的环境影响,特别是在能源消耗和碳排放方面。 这个紧迫的问题突出表明需要创新的解决方案来减轻人工智能的生态足迹。 影响ML模型训练能耗的关键因素之一是训练数据集的大小。 ML模型通常对分布在多个位置的传感器和设备持续生成的大量数据进行训练。 为了降低数据传输成本并增强隐私,Federated Learning (FL) 无需移动或共享原始数据即可实现模型训练。 虽然FL提供了这些优势,但由于数据源的异质性(与体积和质量有关)、计算节点能力和环境影响,它也带来了挑战。 本文通过提出以数据为中心的绿色联邦学习方法,为绿色人工智能的进步做出了贡献。 具体来说,我们专注于通过最小化训练数据的数量来减少FL对环境的影响。 我们的方法涉及对联合数据集的特征进行分析,根据质量指标选择最佳数据子集,以及选择环境影响最低的联合节点。 我们开发了一个综合方法,研究以数据为中心的因素(如数据质量和体积)对FL训练性能和碳排放的影响。 在这些见解的基础上,我们引入了一个交互式推荐系统,通过减少数据优化FL配置,最大限度地减少训练过程中对环境的影响。 将这种方法应用于时间序列分类在减少FL任务对环境的影响方面显示出有希望的结果。
基于图形的近似近邻搜索(ANNS)被广泛采用在许多应用中,如推荐系统,自然语言处理和计算机视觉。 虽然最近基于GPU的加速工作已经大大提升了ANNS的性能,但不断增长的数据集规模现在需要高效的多GPU解决方案。 然而,现有作品的设计忽略了多GPU的可扩展性,导致采用幼稚的方法,将额外的GPU视为扩展大型数据集内存容量的手段。 这种低效率源于对数据集的分区和独立搜索类似于每个GPU中查询的数据点。 因此,我们提出了PathWeaver,这是一种新颖的多GPU框架,旨在扩展和加速大型数据集的ANNS。 首先,我们提出了基于流水线的路径扩展,这是一种GPU感知的流水线机制,通过利用GPU到GPU通信来减少先前工作的冗余搜索迭代。 其次,我们设计使用具有代表性的数据集来识别最佳查询起点的幽灵分期,减少了具有挑战性的查询的搜索空间。 最后,我们介绍了方向引导选择,这是一种数据选择技术,可以在搜索过程早期过滤不相关的点,最大限度地减少不必要的内存访问和距离计算。 跨不同数据集的全面评估表明,PathWeaver在95上实现了3.24×地理均值加速和高达5.30倍的加速
近似最近邻居搜索(ANNS)已成为AI工作负载其他各种基础数据任务的典型算法问题。 基于图形的ANNS索引在索引成本,查询效率和查询近似质量方面具有极好的经验权衡。 大多数现有的基于图形的索引是为静态场景设计的,其中索引构建后数据没有更新。 然而,完全动态(插入、删除和搜索)对于使用向量数据库在应用程序中提供最新的响应至关重要。 索引有效地同时支持更新和搜索查询是可取的。 现有的基于动态图形的索引至少存在以下问题之一:(1)查询质量随着更新的发生而退化;(2)用于在更新时保持索引质量的图形结构更新是全球性的,因此价格昂贵。 为了解决这些问题,我们提出了由三个主要组件组成的CleANN系统:(1)工作负载感知链接不同的搜索树后代以对抗分布转移;(2)查询适应性即时社区整合,以有效地处理已删除的节点;(3)半懒惰的内存清理,以清理数据结构中的陈旧信息并减少前两个组件所花费的工作。 我们在完全动态工作负载的7个不同数据集上评估ClANN,并发现ClANN的查询质量至少与使用相应数据静态构建的索引一样好。 在内存设置中使用 56 个超线程,所有类型的查询同时运行,在同一召回级别,CleANN 在百万级真实世界数据集上实现了 7-1200 倍的吞吐量改进。 据我们所知,ClANN是第一个实现这种效率的并发ANNS指数,同时在充分活力下保持质量。
随着可再生能源的整合,部门耦合和时空细节的增加,能源系统优化模型的规模和复杂性都在增长,通常将求解器推向其性能极限。 这项系统综述探讨了可以应对这些挑战的并行化策略。 我们首先提出了线性能源系统优化模型的分类方案,涵盖其分析重点、数学结构和范围。 然后,我们回顾了并行分解方法,发现虽然许多方法提供了性能优势,但没有一种方法可以普遍优于。 缺乏标准化的基准套件使比较更加复杂。 为了解决这个问题,我们建议制定未来基准和最低报告标准的基本标准。 我们还调查了可用于并行分解的软件工具,包括模块化框架和算法抽象。 虽然以能源系统模型为中心,但我们的见解延伸到更广泛的运营研究领域。
在[Becchetti et al., SODA 2020]中引入了一种称为RAES的随机分布式算法,用于从稠密的n顶点扩展图G = (V, E)中提取有界度扩展器。该算法依赖于一个简单的基于阈值的处理过程。[Becchetti et al., SODA 2020]中的一个关键假设是输入图G是静态的——即其顶点集V和边集E在整个过程中保持不变——而对RAES在动态模型中的分析被列为一个主要开放问题。在本工作中,我们研究了RAES在由流式节点流失过程(也称为滑动窗口模型)诱导的动态图模型下的行为,其中在每个离散轮次中,一个新节点加入图而最旧的节点离开。这个过程产生一个有界度动态图𝒢 ={ G_t = (V_t, E_t) : t ∈ℕ},它捕捉了对等网络的关键特性——特别是节点流失和每个节点可管理连接数的阈值。我们证明动态图序列中的每个快照G_t以高概率具有良好的扩展特性。此外,我们利用这一特性建立了在动态图𝒢上著名的PUSH和PULL谣言传播协议完成时间的对数上界。
服务功能链(SFC)是提供可编程计算机网络的关键推动因素之一,为网络自治铺平了道路。 然而,这也带来了新的挑战,例如与其操作相关的资源分配和优化,需要新的算法来应对这些挑战。 文献中使用了各种工具来评估这些算法。 然而,这些工具缺乏准确性、低保真度、不可扩展性、不灵活性或额外的代码要求。 本文介绍了基于Mininet和Docker for SFC的模拟器,称为OpenRASE。 OpenRASE的目标是在动态设置中实现对证监会资源分配算法的探索,从而可以测量真实的CPU使用情况和延迟。 我们描述了OpenRASE的设计和实施,并讨论了它的特性。 我们还对两种不同的算法进行了实验评估,以应对证监会的资源分配挑战,包括在线遗传算法,使用OpenRASE来展示其在动态网络条件下的有效性和实用性。
第一原理融合等离子体模拟既是计算,也是内存密集型,CGYRO也不例外。 使用许多HPC节点来适应可用内存中的问题,因此导致大量的通信开销,这对于任何单个模拟都很难避免。 也就是说,大多数聚变研究都是由模拟集合组成的,所以我们开发了一种名为XGYRO的新工具,该工具将CGYRO模拟作为单个HPC工作执行整个集成。 通过将集成视为一个单元,XGYRO可以改变全局缓冲区分布逻辑,并在任何单个模拟中应用不可行的优化,但仅在整体上。 主要节省来自碰撞常数张量结构的共享,因为它的值通常在参数扫描模拟之间相同。 这种数据结构主导了CGYRO模拟的内存消耗,因此将其分布在整个集成中,为每次模拟节省大量内存,进而导致通信开销总体降低。
一个关键的障碍是在有限的基准下展示计算资源能力。 我们提出工作流模板作为解决方案,为特定的科学应用提供适应性设计。 我们的论文确定了这些模板的常见使用模式,这些模板来自数十年的HPC经验,包括最近与MLCommons Science工作组的工作。 我们发现,在更广泛的计算工作流程中专注于简单的实验管理工具可以提高适应性,特别是在教育方面。 这个概念,我们称为基准木工,通过两个独立的工具验证:Cloudmesh的实验执行器和惠普企业的SmartSim。 这两个具有重大功能重叠的框架都经过了各种科学应用的测试,包括传导云罩、地震预测、模拟-AI/ML相互作用以及计算流体动力学代理的发展。
本文概述了基于 Kokkos 的性能便携式几何搜索库 ArborX 库 2.0 发布。 我们描述了ArborX 2.0的重大变化,包括库的新接口,以支持更广泛的用户问题,新的搜索数据结构(蛮力,分布式),支持在结果上执行的用户功能(回调),以及扩展的一组支持的算法(光线跟踪,聚类)。
低地球轨道(LEO)卫星正在成为6G网络的关键组成部分,许多卫星已经部署支持大规模的地球观测和传感相关任务。 Federated Learning(FL)为在这些资源受限和动态环境中实现分布式智能提供了一个有前途的范例。 然而,实现可靠的趋同,同时尽量减少处理时间和能源消耗,仍然是一个重大挑战,特别是在异构和部分未标记的卫星网络中。 为了应对这一挑战,我们提出了一种新的半监督联合学习框架,该框架为具有分层聚类集的LEO卫星网络量身定制。 为了进一步减少通信开销,我们集成了散射和自适应加权量化技术。 此外,我们将FL聚类分为两个阶段:卫星聚类聚合阶段和地面站(GS)聚合阶段。 GS的监督学习指导了选定的Parameter Server(PS)卫星,这些卫星反过来在联合培训过程中支持完全未标记的卫星。 在卫星网络试验台上进行的广泛实验表明,与其他比较方法相比,我们的建议可以显着减少处理时间(高达3倍)和能耗(高达4倍),同时保持模型的准确性。
大型语言模型(LLM)彻底改变了广泛的领域,如自然语言处理,计算机视觉和多模态任务,因为它们能够理解上下文并执行逻辑推理。 然而,LLM的计算和内存需求,特别是在推理过程中,在将它们扩展到现实世界,长上下文和实时应用程序时,都会带来重大挑战。 密钥值(KV)缓存管理已成为通过减少冗余计算和提高内存利用率来加速LLM推理的关键优化技术。 本调查全面概述了用于 LLM 加速的 KV 缓存管理策略,并将其分为令牌级别、模型级和系统级优化。 令牌级策略包括 KV 缓存选择、预算分配、合并、量化和低等级分解,而模型级优化侧重于架构创新和注意力机制,以增强 KV 的重用。 系统级方法解决内存管理、调度和硬件感知设计,以提高不同计算环境的效率。 此外,该调查还概述了用于评估这些策略的文本和多模态数据集和基准。 通过提供详细的分类和比较分析,这项工作旨在为研究人员和从业者提供有用的见解,以支持高效和可扩展的KV缓存管理技术的发展,为LLM在实际应用中的实际部署做出贡献。 KV缓存管理的精选论文列表在: href{https://github.com/TreeAI-Lab/Awesome-KV-Cache-Management}{https://github.com/TreeAI-Lab/Awesome-KV-Cache-Management}。
边缘应用程序在大规模上产生大量传感器数据,这些海量数据流必须尽快处理,以获得可操作的智能。 然而,传统的数据处理系统并不适合这些边缘应用,因为它们通常不能很好地扩展与大量的并发流查询,不支持在有限的边缘计算资源下低延迟处理,并且不适应边缘计算环境中常见的异质性和动态性水平。 因此,我们推出了AgileDart,这是一种敏捷且可扩展的边缘流处理引擎,可在动态异构边缘环境中大规模快速流处理许多同时运行的低延迟边缘应用程序的查询。 我们工作的新颖性在于动态数据流抽象,它利用分布式基于哈希表的点对点覆盖网络来自主放置,链和扩展流运算符,以减少查询延迟,适应工作负载变化,并从失败中恢复,以及基于土匪的路径规划模型,重新规划数据洗牌路径以适应不可靠和异构边缘网络。 我们展示了 AgileDart 在查询延迟方面优于 Storm 和 EdgeWise,并且在处理许多真实世界的边缘流应用程序的查询时显著提高了可扩展性和适应性。
本文探讨了AI(DRAI)数据准备原理如何应用于用于训练基础模型的领导规模科学数据集。 我们分析了四个代表性领域的原型工作流程 - 气候,核聚变,生物/健康和材料 - 以确定常见的预处理模式和特定领域的约束。 我们引入了由数据准备级别(原始到AI就绪)和数据处理阶段(从零分到分片)组成的二维准备框架,两者都针对高性能计算(HPC)环境量身定制。 该框架概述了为可扩展的人工智能培训转换科学数据的关键挑战,强调基于变压器的生成模型。 这些维度共同构成了一个概念成熟度矩阵,该矩阵表征了科学数据准备,并引导基础设施发展走向标准化,跨领域支持可扩展和可复制的科学人工智能。
个性化联合学习的最新进展侧重于解决客户模型异质性。 然而,大多数现有方法仍然需要外部数据,依赖于模型脱钩,或者采用部分学习策略,这可能会限制其实用性和可扩展性。 在本文中,我们重新审视了基于超网络的方法,并利用它们强大的概括能力,为异构的个性化联合学习设计了一个简单而有效的框架。 具体来说,我们提出了MH-pFedHN,它利用服务器端超网络,将客户端特定的嵌入向量作为输入,并输出针对每个客户端的异构模型定制的个性化参数。 为了促进知识共享和减少计算,我们在超网络中引入了多头结构,允许具有类似模型大小的客户端共享头。 此外,我们进一步提出了MH-pFedHNGD,它集成了可选的轻量级全球模型,以提高通用性。 我们的框架不依赖于外部数据集,也不需要披露客户端模型架构,从而提供了增强的隐私性和灵活性。 对多个基准和模型设置进行的广泛实验表明,我们的方法实现了竞争准确性,强化,并作为未来模型异构个性化联合学习研究的稳健基线。
我们将"通信区域"引入广泛使用的 Caliper HPC 分析工具。 通信区域是一种注释,能够捕获有关正在传达的数据的指标(包括这些指标的统计数据),以及有关通信中涉及的MPI过程的指标,这在Caliper中以前是不可能的。 我们通过三个具有代表性的建模和模拟应用程序AMG2023,Kripke和Laghos探索通信区域的实用性,这些应用程序都是包括Caliper注释的综合Benchpark套件的一部分。 增强的 Caliper 揭示了详细的沟通行为。 使用 Caliper 和 Thicket 串联,我们创建了 MPI 通信模式的新可视化,包括光环交换。 我们的发现揭示了通信瓶颈和详细行为,表明Caliper添加的特殊区域显着实用。 显示了面向 CPU 和 GPU 的系统之间的比较扩展行为;我们能够查看给定应用程序中的不同区域,并查看可扩展性和消息流量指标的差异。
在现代数据集中,单个记录可以有多个所有者,强制用户级的差异隐私需要限制每个用户的总贡献。 这种“贡献边界”成为一个重要的组合挑战。 这项任务的现有顺序算法是计算密集型的,并且不会扩展到今天流行的大规模数据集。 为了解决这种可扩展性瓶颈,我们提出了一种新颖而高效的分布式算法。 我们的方法将复杂的所有权结构建模为超图,其中用户是顶点,记录是超边缘。 该算法以回合方式进行,允许用户并行提出记录。 只有当其所有所有者一致同意时,才会将记录添加到最终数据集中,从而确保不会违反用户的预定义贡献限制。 该方法旨在最大化生成的高实用性数据集的大小,同时为在大型现实系统中实现用户级隐私提供实用且可扩展的解决方案。
低精度矩阵引擎,如FP16立方体,提供高吞吐量,但缺乏对全精度计算的支持。 在这项工作中,我们提出了H2SGEMM,一种用于在代表性AI加速器上使用仅使用FP16计算单元模拟FP32通用矩阵乘法(GEMM)的高性能算法。 该方法将每个FP32操作数分解为两个FP16值,并通过可调缩放策略补偿数值错误。 对数值误差进行详细分析,包括流量不足条件和精度损失,指导选择缩放参数,以保持高达22位的曼蒂萨精度。 我们进一步研究计算顺序对准确性的影响,并证明术语-wise积累方案在低指数制中比传统的FP32 GEMM提高了数值稳定性。 最后,引入了缓存感知阻塞策略和双缓冲管道,以与计算重叠内存传输,使H2SGEMM实现高达77
这项研究表明,将一致性血来论纳入点匹配算法<cit.>提高了在匹配成对医学图像的解剖位置方面的稳健性。 我们在跨越CT和MRI模式的各种纵向内部和公共数据集上验证了我们的方法。 值得注意的是,它超越了Deep Lesion Tracking数据集上最先进的结果。 此外,我们表明该方法有效地解决了具有里程碑意义的本地化问题。 该算法在标准CPU硬件上有效运行,并允许在速度和稳健性之间配置权衡。 该方法可实现医疗图像之间的高精度导航,而无需机器学习模型或训练数据。
大多数云平台都提供功能即服务(FaaS)产品,使用户能够轻松编写高度可扩展的应用程序。 为了更好地了解平台的架构如何影响其性能,我们提供了一个以研究为重点的测试平台,可以进行调整,以快速评估不同架构和技术对以可扩展性为重点的FaaS平台特性的影响。
电源是Exascale计算路径上走向高级架构的一个经常被引用的原因。 这是由于与提供足够的电力以成功定位和操作这些机器相关的实际考虑,以及对运行大型模拟时能源使用的担忧。 由于获得准确的功率测量可能具有挑战性,因此由于其简单性和可用性,使用处理器热设计功率(TDP)作为替代可能是诱人的。 然而,TDP并不表明在运行模拟时的典型电力使用情况。 在Lawrence Livermore和Sandia National Labs使用商品和先进技术系统,我们进行了一系列实验,以测量运行模拟代码中的功率和能源使用情况。 这些实验表明,大规模劳伦斯利弗莫尔模拟代码比简单的处理器TDP模型可能建议的效率要高得多。
最近的研究表明,与FP32/FP16的训练相比,8位浮点(FP8)可用于高效训练计算成本降低的神经网络。 在这项工作中,我们调查了FP8培训在联合学习环境中的使用。 这种方法不仅带来了FP8的通常好处,这在边缘的设备内培训是可取的,而且还降低了由于显着的重量压缩而导致的客户端 - 服务器通信成本。 我们介绍了一种结合FP8客户端训练的新方法,同时维护全局FP32服务器模型并提供收敛分析。 使用各种机器学习模型和数据集的实验表明,与FP32基线相比,我们的方法在各种任务和模型中持续减少至少2.9倍,以实现相同的训练模型精度。
边缘存储系统已成为现代云网络中低延迟数据访问的关键推动者,使存储和计算更接近最终用户。 然而,边缘服务器的存储容量有限,在处理高容量和延迟敏感数据访问请求方面,特别是在动态工作负载下,构成了重大挑战。 在这项工作中,我们提出了一个利润驱动框架,该框架集成了三个关键机制,即协作缓存,擦除编码和弹性存储分区。 与传统复制不同,擦除编码可以实现空间效率冗余,允许从K加M编码块中的K的任何子集重建数据。 我们动态地将每个边缘服务器的存储分区到私有和公有区域。 私有区域根据其传入请求速率在接入点中进一步细分,从而能够对数据定位和所有权进行自适应控制。 我们设计了一个数据放置和替换策略,确定如何以及在何处存储或驱逐编码数据块,以便在期限内最大化数据访问。 虽然私有区域提供来自本地AP的请求,但公共区域处理来自邻近服务器的合作存储请求。 我们提出的动态空间分区和弹性缓存策略在Netflix和Spotify的合成和现实世界痕迹上进行评估。 实验结果表明,我们的方法使整个系统的盈利能力提高了大约5到8
人工智能(AI)和机器学习(ML)的广泛采用带来了重大的环境影响,特别是在能源消耗和碳排放方面。 这个紧迫的问题突出表明需要创新的解决方案来减轻人工智能的生态足迹。 影响ML模型训练能耗的关键因素之一是训练数据集的大小。 ML模型通常对分布在多个位置的传感器和设备持续生成的大量数据进行训练。 为了降低数据传输成本并增强隐私,Federated Learning (FL) 无需移动或共享原始数据即可实现模型训练。 虽然FL提供了这些优势,但由于数据源的异质性(与体积和质量有关)、计算节点能力和环境影响,它也带来了挑战。 本文通过提出以数据为中心的绿色联邦学习方法,为绿色人工智能的进步做出了贡献。 具体来说,我们专注于通过最小化训练数据的数量来减少FL对环境的影响。 我们的方法涉及对联合数据集的特征进行分析,根据质量指标选择最佳数据子集,以及选择环境影响最低的联合节点。 我们开发了一个综合方法,研究以数据为中心的因素(如数据质量和体积)对FL训练性能和碳排放的影响。 在这些见解的基础上,我们引入了一个交互式推荐系统,通过减少数据优化FL配置,最大限度地减少训练过程中对环境的影响。 将这种方法应用于时间序列分类在减少FL任务对环境的影响方面显示出有希望的结果。
基于图形的近似近邻搜索(ANNS)被广泛采用在许多应用中,如推荐系统,自然语言处理和计算机视觉。 虽然最近基于GPU的加速工作已经大大提升了ANNS的性能,但不断增长的数据集规模现在需要高效的多GPU解决方案。 然而,现有作品的设计忽略了多GPU的可扩展性,导致采用幼稚的方法,将额外的GPU视为扩展大型数据集内存容量的手段。 这种低效率源于对数据集的分区和独立搜索类似于每个GPU中查询的数据点。 因此,我们提出了PathWeaver,这是一种新颖的多GPU框架,旨在扩展和加速大型数据集的ANNS。 首先,我们提出了基于流水线的路径扩展,这是一种GPU感知的流水线机制,通过利用GPU到GPU通信来减少先前工作的冗余搜索迭代。 其次,我们设计使用具有代表性的数据集来识别最佳查询起点的幽灵分期,减少了具有挑战性的查询的搜索空间。 最后,我们介绍了方向引导选择,这是一种数据选择技术,可以在搜索过程早期过滤不相关的点,最大限度地减少不必要的内存访问和距离计算。 跨不同数据集的全面评估表明,PathWeaver在95上实现了3.24×地理均值加速和高达5.30倍的加速