AI基础研究具身智能 AI金融

本网站上的内容仅供参考，不提供医疗或其他专业建议，不代表活水快报、贡献者或合作伙伴的观点。

© 2024-2025 活水快报 - 42Digest.

|

京ICP备2024044642号-15

硬件体系结构研究快报

相关分类

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

最新研究

ZeroSim:使用统一变压器嵌入的零射击模拟电路评估

尽管基于学习的模拟电路设计自动化的最新进展已经解决了拓扑生成、设备尺寸和布局合成等任务,但高效的性能评估仍然是一个主要瓶颈。传统的SPICE模拟是耗时的,而现有的机器学习方法通常需要拓扑特定的再训练或手动子结构分割,以微调,阻碍可扩展性和适应性。在这项工作中,我们提出了ZeroSim,一个基于变压器的性能建模框架,旨在实现在新型参数配置下在训练好的拓扑中实现强大的分布内泛化,并在没有任何微调的情况下对看不见的拓扑进行零射速泛化。我们应用了三种关键的赋能策略:(1) 包含超过 60 个放大器拓扑的 360 万个实例的多样化训练语料库,(2) 利用全局感知令牌的统一拓扑嵌入,并具有层次意识,对新颖电路进行稳健的概括,(3) 拓扑条件参数映射方法,可保持独立于参数变化的一致结构表示。我们的实验结果表明,ZeroSim明显优于多层感知器、图形神经网络和变压器等基线模型,在不同的放大器拓扑中提供准确的零拍摄预测。此外,当集成到基于强化学习的参数优化管道中时,ZeroSim与传统SPICE模拟相比实现了显着的加速(13倍),突出了其用于各种模拟电路设计自动化任务的实用价值。

机器学习硬件体系结构

流式Tensor程序:动态并行的流抽象

动态行为在许多张量应用程序中越来越普遍。例如,在机器学习中,输入张量是动态形状或破烂的,数据依赖的控制流在许多模型中被广泛使用。然而,空间数据流加速器的先前编程抽象的有限表现力迫使动态行为静态实现,或者缺乏性能关键决策的可见性。为了应对这些挑战,我们提出了流式张量程序(STeP),这是一个新的流抽象,使动态张量工作负载能够在空间数据流加速器上高效运行。 STeP引入了灵活的路由运算符、显式内存层次和符号形状语义,可以暴露动态数据速率和张量维度。这些功能解锁了新的优化动态平铺,动态并行和配置时间-多路复用 - 适应动态行为,同时保持数据流效率。使用具有真实世界痕迹的具有代表性的LLM层上的循环近似模拟器,动态平铺将片上内存需求减少了2.18倍,动态并行化将延迟提高了1.5倍,配置时间复用使计算利用率比先前抽象中可用的实现提高了2.57倍。

编程语言硬件体系结构机器学习

使用基于 FPGA 的硬件加速器进行实时定位服务的历史感知轨迹 k-Anonymization

我们之前的工作确立了基于FPGA的实时轨迹匿名化的可行性,这是在现代基于位置的服务(LBS)中保护用户隐私的关键任务。然而,这种开创性的方法完全依赖于最短路径计算,这可能无法捕获重新对流线型旅行行为,从而降低匿名数据的效用。为了解决这一限制,本文介绍了一种新的、具有历史意识的轨迹k-匿名化方法,并提出了基于FPGA的高级硬件架构来实现它。我们提出的架构独特地将基于par-alel历史的轨迹搜索与传统最短路径查找集成在一起,使用自定义定点计数模块对历史数据的贡献进行精确权衡。这种方法使系统能够将行为常见路线优先于几何较短但旅行较少的路径。 FPGA的实现表明,我们的新架构实现了超过6,000条记录的实时吞吐量,与我们以前的最短路径设计相比,数据保留率提高了1.2%,并且更有效地保留了主要的动脉道路。这些结果标志着一个关键的进步,使高保真,历史意识的匿名化,在LBS严格的延迟约束下保持隐私和行为准确性。

硬件体系结构密码学与安全

UniFormer:用于通用和自定义计算进行推理的统一高效的变压器

卷积神经网络(CNN)等神经网络的成功很大程度上归功于它们有效和广泛地部署在定制的计算平台上,包括现场可编程门阵列(FPGA)和专用集成电路(ASIC)。在当前时代,基于Transformer的架构支持大多数最先进的(SOTA)大型模型,这些模型也越来越多地部署在低功耗和实时应用的定制计算硬件上。然而,通用和定制计算之间根本不同的并行计算范式往往导致模型转移和可部署性的妥协,这通常以复杂性,效率或准确性为代价。此外,许多跨平台优化原则在现有研究中也没有得到充分开发。本文介绍了UniFormer,一个统一而高效的Transformer架构,适用于通用和定制计算平台。通过实现更高的并行性和计算存储融合,UniFormer在GPU上实现了最先进的(SOTA)精度和延迟,同时在FPGA上表现出强大的适应性。据我们所知,本文是第一部同时考虑通用和定制计算架构的高效Transformer工作。

分布式、并行与集群计算硬件体系结构

先进计算机体系结构在加速人工智能工作负载中的作用

人工智能(AI)的显著进步与计算机架构的并发革命有关。随着人工智能模型,特别是深度神经网络(DNN)的复杂性,它们巨大的计算需求将传统架构推向了极限。本文提供了这一共同进化的结构化回顾,分析了旨在加速现代人工智能工作负载的建筑景观。我们通过分解其设计哲学、关键特性和性能权衡来探索图形处理单元(GPU)、应用特定集成电路(ASIC)和现场编程门阵列射线(FPGA)的主导架构范式。分析和能源效率的关键原则,包括数据流优化,高级内存层次结构,陪练和量化,进行了分析。此外,本文还展望了新兴技术,如记忆处理(PIM)和神经形态计算,这些技术可能会重新定义未来的计算。通过将原型图原则与行业标准基准的定量性能数据进行综合,该调查全面展示了人工智能加速器景观。我们的结论是,人工智能和计算机架构处于共生关系,其中硬件和软件共同设计不再是优化,而是未来计算进步的必要条件。

硬件体系结构人工智能机器学习

FsimNNs:基于SEU Simulation的故障注入的开源图形神经网络平台

基于模拟的故障注入是一种被广泛采用的方法来评估电路漏洞到单事件响应(SEU);然而,其计算成本随着电路复杂性而显着增长。为了解决这一限制,这项工作引入了一个开源平台,利用时空图神经网络(STGNN)来加速SEU故障模拟。该平台包括三个STGNN架构,其中包含先进的组件,如Atrous Spatial Pyramid Pooling(ASPP)和注意力机制,从而改善了时空特征提取。此外,SEU故障模拟数据集由六个具有不同复杂程度的开源电路构建,为性能评估提供了全面的基准。在这些数据集上分析和比较了STGNN模型的预测能力。此外,为了进一步调查该方法的效率,我们评估了STGNN在多个测试用例中的预测能力,并讨论了它们的泛化能力。开发的平台和数据集作为开源发布,以支持可重复性和对https : / /github.com/luli2021/FsimNNs的进一步研究。

硬件体系结构

AssertMiner:使用静态分析引导LLM的模块级规格生成和断言挖掘

基于断言的验证(ABV)是检查逻辑设计是否符合其架构规范的关键方法。基于设计规范的现有断言生成方法通常只产生顶级断言,忽略了微架构级别模块中实现细节的验证需求,其中设计错误更频繁地发生。为了解决这一限制,我们介绍了AssertMiner,一个模块级断言生成框架,利用从抽象语法树(AST)生成的静态信息来帮助LLM进行挖掘断言。具体来说,它执行基于AST的结构提取来派生模块调用图,I/O表和数据流图,引导LLM生成模块级规范和矿模块级断言。我们的评估表明,AssertMiner在为模块生成高质量断言方面优于AssertLLM和Spec2Assertion等现有方法。当与这些方法集成时,AssertMiner可以提高结构覆盖范围并显着提高错误检测能力,从而实现更全面、更高效的验证过程。

硬件体系结构

CO2-Meter:用于边缘设备上LLM的综合碳足迹估计器

LLM已经改变了NLP,但在边缘设备上部署它们带来了巨大的碳挑战。先前的估计器仍然不完整,忽略了外围能源的使用,独特的预填充/解码行为以及SoC设计的复杂性。本文介绍了CO2-Meter,一个在LLM边缘推断中估计可操作和体现碳的统一框架。贡献包括:(1)基于方程的外围能量模型和数据集;(2)基于GNN的预测因子,具有相位特异性LLM能量数据;(3)用于SoC瓶颈分析的单位级体现碳模型;(4)验证显示优于先前方法的准确性。案例研究表明,CO2-Meter在确定碳热点和在边缘平台上指导可持续LLM设计方面的有效性。源代码:https://github.com/fuzhenxiao/CO2-Meter

硬件体系结构

Lit Silicon:一个在多个GPU中实现热不平衡的夫妻并发执行的案例

GPU系统越来越多地大规模为现代数据中心供电。尽管性能很高,但GPU系统在节点和集群级别上存在性能变化。这种性能差异对高性能计算和人工智能工作负载都产生了重大影响,例如尖端的大型语言模型(LLM)。我们分析运行LLM训练的单节点多GPU系统的性能,并观察到内核级性能变化与并发计算通信(C3)高度相关,C3是一种在GPU之间重叠计算和通信以获得性能增益的技术。然后,我们进一步说明,热诱导的交错耦合与C3会影响性能变化,被称为Lit Silicon效应。 Lit Silicon描述了在多GPU节点中,GPU之间的热不平衡引入了节点级别的跨流式GPU,这反过来又减慢了领导者GPU的速度。 Lit Silicon导致节点级性能变化和低效率,自下而上地影响整个数据中心。我们为Lit Silicon提出了分析性能和功率模型,以了解潜在的系统级收益。我们进一步设计简单的检测和缓解技术,以有效解决Lit Silicon问题,并评估三种不同的电源管理解决方案,包括GPU热设计功率下的功率优化,节点级GPU功率封顶下的性能优化,以及节点级CPU功率下的性能优化。我们在两个 LLM 训练框架下的两个 AMD InstinctTM MI300X GPU 系统上进行两个工作负载的实验,并观察高达 6% 的性能和 4% 的功率提升,可能为数据中心节省数亿美元。我们的解决方案几乎是免费午餐,可以毫不费力地在数据中心采用作为新的节点级电源管理层。

分布式、并行与集群计算硬件体系结构

变色龙:多适配器LLM推理环境的自适应缓存和调度

LLM的广泛采用推动了其部署的指数级增长,对推理集群提出了实质性要求。这些群集必须处理不同 LLM 下游任务的众多并发查询。为了处理具有庞大 LLM 参数计数的多任务设置,Low-Rank Adaptation (LoRA) 之类的方法可实现特定任务的微调,同时跨任务共享大部分基本 LLM 模型。因此,它们允许在内存要求最低的同时处理。然而,现有的LLM服务系统面临低效率:它们忽略了工作负载异质性,从频繁的适配器加载中强加了高链路带宽,并且在其调度器中受到一线阻塞的影响。为了应对这些挑战,我们介绍了Chameloon,一种针对许多适配器环境优化的新型LLM服务系统,它依赖于两个核心想法:适配器缓存和适配器感知调度。首先,Chameloon在GPU内存中缓存流行的适配器,最大限度地减少适配器加载时间。重要的是,它使用原本闲置的GPU内存,避免了额外的内存成本。其次,Chameloon使用非抢先多排队调度来有效地考虑工作负载异质性。通过这种方式,Chameloon同时防止了线头阻塞和饥饿。我们在最先进的LLM服务平台之上实施Chameloon,并通过真实世界的生产痕迹和开源LLM对其进行评估。在高负载下,Chameloon将P99和P50 TTFT延迟分别降低了80.7%和48.1%,与最先进的基线相比,吞吐量提高了1.5倍。

分布式、并行与集群计算硬件体系结构操作系统性能

BDD2Seq:通过图形到序列学习实现可扩展的可逆电路合成

二进制决策图(BDD)在许多电子设计自动化(EDA)任务中发挥了重要作用,因为它们对布尔函数的紧凑表示。在基于BDD的可逆电路合成中,对于量子计算至关重要,所选的变量排序管理BDD节点的数量,从而管理资源消耗的关键指标,如Quantum Cost。由于为BDD找到最佳变量排序是一个NP完全的问题,因此现有的后周系统通常会随着电路复杂性的增长而降解。我们引入了BDD2Seq,一个图形到序列框架,将图形神经网络编码器与指针网络解码器和Diverse Beam Search相结合,以预测高质量的排序。通过将电路网表视为图形,BDD2Seq学习传统方法所忽略的结构依赖性,产生较小的BDD和更快的合成。对三个公共基准的广泛实验表明,BDD2Seq比现代方法的量子成本低约1.4倍,合成速度是现代方法的3.7倍。据我们所知,这是第一个通过基于图形的生成模型和多样性促进解码来解决基于BDD的可逆电路合成中的变量排序问题的工作。

硬件体系结构机器学习

Re^2MaP:通过递归原型和包装基于树的迁移进行宏观安置

这项工作引入了Re^2MaP方法,该方法通过递归原型制作和打包基于树的迁移来生成专家质量的宏放置。我们首先执行多级宏分组和PPA感知单元聚类,以产生一个统一的连接矩阵,在宏和聚类之间捕获线长和数据流。接下来,我们使用 DREAMPlace 构建混合大小的放置原型,并获得每个宏和集群的参考位置。基于此原型,我们引入了基于角度的分析方法ABPlace,该方法可优化椭圆上的宏位置,以均匀地分布在芯片外围附近的宏,同时优化线长和数据流。然后设计一个基于树的打包迁移程序,通过优化专业知识启发的成本函数,通过进化搜索捕获各种设计约束,共同调整宏组和宏的位置。 Re^2MaP 重复上述过程:每次迭代中只定位一个宏组子集,其余宏被推迟到下一次迭代,以提高原型的准确性。使用完善的后端流和足够的时间优化,Re^2MaP在最差的负松弛(WNS)中实现了高达22.22%(平均10.26%)的改善,与最先进的学术放置者Hirer-RTLMP相比,总负松弛(平均为33.97%)提高了97.91%(平均33.97%)。它还在WNS,TNS,电力,设计规则检查(DRC)违规行为和运行时方面排名高于会议版本ReMaP,涉及七个测试案例。我们的代码可在https://github.com/lamda-bbo/Re2MaP上找到。

硬件体系结构计算机视觉与模式识别系统与控制

高速以太网网络中用于超级计算机和数据中心的电源管理和拥塞组合

我们日常生活中对计算机的需求导致了数据中心的激增,数据中心为许多服务提供了不可或缺的力量。另一方面,计算已经成为各种科学领域的一些研究所必需的,这些研究需要具有巨大计算能力的超级计算机在合理的时间内产生结果。与我们的日常设备相比,这些系统的规模和复杂性就像将细胞与活生物体进行比较一样。为了使它们正常工作,我们需要最先进的技术和工程,而不仅仅是原始资源。连接构成整体的不同计算机节点是一项微妙的任务,因为它可能成为整个基础设施的瓶颈。在这项工作中,我们探讨了网络的两个方面:如何防止在大量使用下与拥塞控制退化,以及如何在电力管理闲置时节省能源;以及两者如何相互作用。

硬件体系结构

PIMfused:近岸DRAM-PIM与融合层数据流,用于CNN数据传输优化

近银行内存处理(PIM)架构集成了接近DRAM库的处理核心(PIMcores),以减轻非芯片内存访问的高成本。当在DRAM-PIM上加速卷积神经网络(CNN)时,性能通常受到跨银行(或跨PIMcore)数据传输的限制,这些数据传输是由传统的逐层数据流诱导的,该数据流在连续的CNN层中强制执行银行间(或PIMcore间)依赖关系。为了应对这一挑战,我们提出了PIMfused,这是一种硬件软件共同设计,可以实现在近银行DRAM-PIM中端到端的CNN执行融合层数据流。通过采用熔融层数据流,PIMfused改善了数据重用,更重要的是打破了银行间数据依赖,从而在不牺牲银行级并行性的情况下优化跨银行数据传输。我们研究缓冲尺寸和PIMcore并行性(1-bank vs.)的影响。 4bank)使用端到端的ResNet18的PIMfused。我们提出了三个关键要点,并表明通过4银行PIMcores,PIMfused在类似GDDR6-AiM的基线上实现了整体PPA收益,将内存周期降至30.6%,能量降至83.4%,面积达到76.5%。

硬件体系结构

FractalCloud:用于高效大规模点云处理的分形启发式架构

三维(3D)点云越来越多地用于自动驾驶、机器人和虚拟现实(VR)等应用。基于点的神经网络(PNN)在点云分析中表现出强劲的表现,最初针对的是小规模输入。然而,随着PNN的发展,以数十万点处理大规模点云,点云处理中的所有计算和全球内存访问引入了大量的开销,导致 O(n^2) 计算复杂性和内存流量,其中n是点数。现有的加速器主要针对小规模工作负载进行优化,由于分区和非并行架构效率低下,忽略了这一挑战,并且规模不佳。为了解决这些问题,我们提出了 FractalCloud,一个分形启发的硬件架构,用于高效的大规模 3D 点云处理。 FractalCloud引入了两个关键优化:(1)一种共同设计的用于形状感知和硬件友好分区的分形方法,以及(2)块-并行点运算,对所有点运算进行分解和并行。具有片上分形和灵活并行的专用硬件设计进一步在有限的内存资源内实现完全并行处理。 FractalCloud采用28nm技术作为核心面积为1.5 mm^2的芯片布局,比最先进的加速器实现了21.7倍的加速和27倍的能量降低,同时保持了网络精度,证明了其PNN推理的可扩展性和效率。

硬件体系结构人工智能

YAP+:用于混合粘接的Pad-Layout-Aware产量建模和仿真

三维(3D)集成继续推进摩尔定律,促进密集的互连和启用多层系统架构。在各种集成方法中,Cu-Cu混合粘接已成为实现芯片集成中高互连密度的领先解决方案。在这项工作中,我们介绍了YAP +,这是一个专门为晶圆到晶圆(W2W)和模对晶(D2W)混合粘合工艺量身定制的产量建模框架。 YAP+包含一套全面的产量影响失效机制,包括覆盖层错位,粒子缺陷,Cu凹陷变化,表面粗糙度和Cu垫密度。此外,YAP+支持垫布局感知产量分析,考虑任意2D物理布局模式的关键,冗余和虚拟垫。为了支持实际评估,我们开发了一个开源产量模拟器,证明我们的近分析模型与模拟精度相匹配,同时在运行时实现了超过1000倍的加速。这种性能使YAP+成为共同优化包装技术、装配设计规则和系统级设计策略的宝贵工具。除了W2W-D2W比较之外,我们还利用YAP +来研究不同垫类型的垫布局模式,粘合间距和垫比的影响,并探索战略性放置冗余垫复制品的好处。

硬件体系结构材料科学

DRACO: DSP-Efficient 刚性身体动力学加速器的共同设计

我们提出了基于FPGA的硬件效率RBD加速器,引入了三个关键创新。首先,我们提出了一个精确感知量化框架,在降低DSP需求的同时保持运动精度。这也是第一个系统评估量化对机器人控制和运动对硬件加速的影响的研究。其次,我们利用质量矩阵反转算法中的划分递延优化,该算法将互惠操作与最长的延迟路径解耦以提高性能。最后,我们介绍了一种模块间DSP重用方法,以提高DSP利用率并节省DSP使用率。实验结果表明,我们的工作比各种机器人类型的最先进的RBD加速器实现了高达8倍的吞吐量改进和7.4倍的延迟降低,证明了其对高DOF机器人系统的有效性和可扩展性。

硬件体系结构

3D Guard-Layer:用于边缘人工智能的集成代理AI安全系统

近年来,人工智能系统发现了广泛的现实世界应用。边缘人工智能的采用,将人工智能直接嵌入边缘设备,正在迅速增长。尽管实施了护栏和安全机制,但安全漏洞和挑战在这一领域日益普遍,对人工智能系统的实际部署和安全构成了重大障碍。本文提出了一种代理AI安全架构,利用3D集成专用安全层。它引入了一个自适应的AI安全基础设施,能够动态学习和减轻对AI系统的攻击。该系统利用与边缘计算硬件共处的固有优势,持续监控、检测和主动减轻对人工智能系统的威胁。本地处理和学习能力的集成增强了抵御新兴网络攻击的弹性,同时提高了系统可靠性、模块化和性能,所有这些都具有最低的成本和3D集成开销。

硬件体系结构人工智能密码学与安全

wa-hls4ml: HLs4ml 资源和延迟估计的基准和代孕模型

随着机器学习(ML)越来越多地在硬件中实现,以应对科学应用中的实时挑战,高级工具链的开发大大减少了在各种设计上进行重复所需的时间。这些进步解决了重大障碍,但也暴露了新的挑战。例如,以前不被认为是瓶颈的过程,如硬件合成,正在成为设计快速迭代的限制因素。为了减轻这些新出现的限制,已经进行了多次努力,以开发基于ML的代理模型,该模型估计ML加速器架构的资源使用情况。我们介绍了 wa-hls4ml,这是 ML 加速器资源和延迟估计的基准,以及其相应的初始数据集,该数据集包含超过 680,000 个完全连接和卷积神经网络,所有这些神经网络都使用 hls4ml 合成并针对 Xilinx FPGA。该基准评估资源和延迟预测器的性能,这些模型预测器与几个常见的ML模型架构(主要来自科学领域)作为示例模型,以及数据集子集的平均性能。此外,我们还引入了基于GNN和变压器的代理模型,用于预测ML加速器的延迟和资源。我们介绍了模型的架构和性能,并发现模型通常预测合成测试数据集上合成资源中75%百分位的延迟和资源。

机器学习人工智能硬件体系结构仪器与探测器

适用于 FPGA 的抢先增强型基准套件

现场编程门阵列(FPGA)因其可配置性、能源效率和加速特定领域工作负载的能力而在云计算中变得至关重要。随着FPGA的采用,对任务调度和抢占技术的研究已经加强。然而,该领域缺乏一个标准化的基准框架,无法进行一致和可重复的评价。许多现有研究提出了创新的调度或抢占机制,但通常依赖于专有或合成基准,限制了可推广性并使比较变得困难。这种有条不紊的碎片阻碍了多租户FPGA环境中对调度策略和抢占的有效评估。本文介绍了第一个开源抢占基准套件,用于评估FPGA抢占策略和测试新的调度算法,而无需用户从头开始创建抢占工作负载。该套件包括27种不同的应用程序,包括密码学,AI / ML,计算密集型工作负载,通信系统和多媒体处理。每个基准都集成了全面的上下文保存和恢复机制,促进了可重复的研究和一致的比较。我们的套件不仅简化了测试 FPGA 调度策略,而且还通过在多租户 FPGA 系统中评估调度公平性、资源分配效率和上下文切换性能,最终支持为基于 FPGA 的环境开发更好的操作系统和调度策略,从而有利于操作系统研究。我们还为添加新基准提供了指导方针,使未来的研究能够扩展和完善FPGA抢占和调度评估。

硬件体系结构操作系统

继续滚动加载更多