42digest首页

硬件体系结构研究快报

用 AI 跟踪日新月异的硬件体系结构领域进展

Augmenting Von Neumann's Architecture for an Intelligent Future

增强冯·诺伊曼架构:迈向智能未来的计算革新

本研究提出了一种新型计算机架构,通过引入专用推理单元(Reasoning Unit, RU)扩展冯·诺伊曼模型,使系统具备原生通用人工智能能力。RU作为专用协处理器,将符号推理、多智能体协调和混合符号-神经计算作为基础架构原语执行。这种硬件嵌入式方法使得自主智能体能够在系统层面直接执行目标导向规划、动态知识操作和自省推理。该架构包含专为推理设计的指令集架构、并行符号处理流水线、智能体感知的内核抽象,以及无缝整合认知与数值工作负载的统一内存层次结构。通过跨越硬件、操作系统和智能体运行时层的系统化协同设计,该架构建立了推理、学习和适应作为内在执行特性(而非软件抽象)的计算基础,有望推动通用智能机器的发展。

硬件体系结构
ACCESS-AV: Adaptive Communication-Computation Codesign for Sustainable Autonomous Vehicle Localization in Smart Factories

ACCESS-AV:智能工厂可持续自动驾驶汽车本地化的自适应通信计算设计

自主交付车辆(ADV)越来越多地用于在支持5G网络的智能工厂中运输货物,计算密集型本地化模块为优化提供了重要机会。 我们提出了ACCESS-AV,这是一种节能的车辆对基础设施(V2I)本地化框架,利用智能工厂环境中现有的5G基础设施。 通过机会性地访问定期广播的5G同步信号块(SSB)进行本地化,ACCESS-AV无需专用路边单元(RSU)或额外的车载传感器来实现能源效率和降低成本。 我们使用多信号分类(MUSIC)算法实现了基于AOA的到达角度(AoA)估计方法,该算法通过自适应通信计算策略针对资源受限的ADV平台进行了优化,该策略根据环境条件(如信号噪声比(SNR)和车辆速度)动态平衡能源消耗与定位精度。 实验结果表明,ACCESS-AV实现了平均能量降低43.09

系统与控制 硬件体系结构 网络与互联网架构
Optimization of DNN-based HSI Segmentation FPGA-based SoC for ADS: A Practical Approach

面向ADS的基于DNN的HSI分割FPGA SoC优化:一种实用方法

使用HSI进行自主导航是一个有前景的研究领域,旨在提高基于视觉传感器的检测、跟踪和场景理解系统的准确性和鲁棒性。将DNN等先进计算机算法与小型快照HSI相机相结合,增强了这些系统的可靠性。HSI克服了灰度和RGB成像在描述目标物理特性(特别是光谱反射率和同色异谱)方面的固有局限性。尽管基于HSI的视觉开发取得了有希望的成果,但像ADS这样的安全关键系统对延迟、资源消耗和安全性有严格要求,这促使将机器学习工作负载转移到边缘平台。这需要彻底的软硬件协同设计方案,以在计算平台的有限资源中高效分配和优化任务。就推理而言,DNN的过参数化特性给实时边缘部署带来了重大计算挑战。此外,HSI所需的大量数据预处理(经常被忽视)必须在内存安排和任务间通信方面仔细管理,以实现SoC上的高效集成流水线设计。本工作提出了一套优化技术,用于实际协同设计部署在面向ADS的FPGA SoC上的基于DNN的HSI分割处理器,包括关键优化如功能性软硬件任务分配、硬件感知预处理、ML模型压缩和完整的流水线部署。应用的压缩技术将设计的DNN复杂度显著降低至24.34

计算机视觉与模式识别 人工智能 硬件体系结构
SVAgent: AI Agent for Hardware Security Verification Assertion

SVAgent:用于硬件安全验证断言的AI Agent

使用SystemVerilog断言(SVA)进行验证是检测电路设计漏洞最流行的方法之一。然而,随着集成电路设计的全球化和安全需求的不断升级,SVA开发模式暴露出重大局限性。它不仅开发效率低下,而且无法有效应对现代复杂集成电路中日益增多的安全漏洞。针对这些挑战,本文提出了一种创新的SVA自动生成框架SVAgent。SVAgent引入需求分解机制,将原始复杂需求转化为结构化、可逐步解决的细粒度问题解决链。实验表明,SVAgent能有效抑制幻觉和随机回答的影响,其SVA的准确性和一致性等关键评估指标显著优于现有框架。更重要的是,我们成功将SVAgent集成到最主流的集成电路漏洞评估框架中,并在真实工程设计环境中验证了其实用性和可靠性。

密码学与安全 人工智能 硬件体系结构
RailX: A Flexible, Scalable, and Low-Cost Network Architecture for Hyper-Scale LLM Training Systems

RailX:用于超大规模LLM训练系统的灵活、可扩展和低成本网络架构

越来越多的人工智能工作负载需要超大规模的基础设施;然而,传统的互连网络架构既不可扩展,也不够具有成本效益。 基于树的拓扑结构,如铁路优化网络,非常昂贵,而像Torus这样的直接拓扑结构的截面带宽和灵活性不足。 在本文中,我们提出了基于节点内直接连接和节点间电路交换的可重新配置网络架构RailX。 节点和光开关是物理2D组织的,比现有的集中电路交换网络实现了更好的可扩展性。 我们提出了一种基于Hamiltonian分解理论的新型互连方法,将单独的基于轨道的环组织成全拓扑结构,同时优化环集体和逐项通信。 具有超带宽的100K以上的芯片可以通过扁平的交换层互连,直径仅为2∼4个元间跳转。 RailX的每次注入/全还原带宽的网络成本不到Fat-Tree的10%,每段/全到全带宽的成本低于Fat-Tree的50%。 具体来说,只需要∼13B美元就可以将200K芯片与1.8TB的带宽互连。 RailX 也可以用于 ML-as-service (MLaaS) 场景,其中可以灵活地映射具有各种形状、尺度和并行策略的单个或多个训练工作负载,并且可以围绕故障进行处理。

硬件体系结构 分布式、并行与集群计算 网络与互联网架构

最新研究

ACCESS-AV:智能工厂可持续自动驾驶汽车本地化的自适应通信计算设计

自主交付车辆(ADV)越来越多地用于在支持5G网络的智能工厂中运输货物,计算密集型本地化模块为优化提供了重要机会。 我们提出了ACCESS-AV,这是一种节能的车辆对基础设施(V2I)本地化框架,利用智能工厂环境中现有的5G基础设施。 通过机会性地访问定期广播的5G同步信号块(SSB)进行本地化,ACCESS-AV无需专用路边单元(RSU)或额外的车载传感器来实现能源效率和降低成本。 我们使用多信号分类(MUSIC)算法实现了基于AOA的到达角度(AoA)估计方法,该算法通过自适应通信计算策略针对资源受限的ADV平台进行了优化,该策略根据环境条件(如信号噪声比(SNR)和车辆速度)动态平衡能源消耗与定位精度。 实验结果表明,ACCESS-AV实现了平均能量降低43.09

系统与控制硬件体系结构网络与互联网架构机器人学
arXiv

RailX:用于超大规模LLM训练系统的灵活、可扩展和低成本网络架构

越来越多的人工智能工作负载需要超大规模的基础设施;然而,传统的互连网络架构既不可扩展,也不够具有成本效益。 基于树的拓扑结构,如铁路优化网络,非常昂贵,而像Torus这样的直接拓扑结构的截面带宽和灵活性不足。 在本文中,我们提出了基于节点内直接连接和节点间电路交换的可重新配置网络架构RailX。 节点和光开关是物理2D组织的,比现有的集中电路交换网络实现了更好的可扩展性。 我们提出了一种基于Hamiltonian分解理论的新型互连方法,将单独的基于轨道的环组织成全拓扑结构,同时优化环集体和逐项通信。 具有超带宽的100K以上的芯片可以通过扁平的交换层互连,直径仅为2∼4个元间跳转。 RailX的每次注入/全还原带宽的网络成本不到Fat-Tree的10%,每段/全到全带宽的成本低于Fat-Tree的50%。 具体来说,只需要∼13B美元就可以将200K芯片与1.8TB的带宽互连。 RailX 也可以用于 ML-as-service (MLaaS) 场景,其中可以灵活地映射具有各种形状、尺度和并行策略的单个或多个训练工作负载,并且可以围绕故障进行处理。

硬件体系结构分布式、并行与集群计算网络与互联网架构
arXiv

神经形态计算:时间、空间和能量扩展的理论框架

神经形态计算(NMC)越来越被视为传统冯·诺依曼架构(如中央处理单元(CPU)和图形处理单元(GPU))的低功耗替代品,但计算价值主张很难准确定义。 在这里,我们解释了NMC应该如何被视为通用和可编程的,即使它与传统存储程序架构有很大不同。 我们表明,NMC的时间和空间缩放相当于理论上无限的处理器常规系统,但能量缩放明显不同。 具体来说,传统系统的能量以绝对算法工作而缩放,而神经形态系统的能量则随着算法状态的导数而缩放。 NMC架构的独特特性使其非常适合于不同类别的算法,而不是传统的多核系统,如GPU,这些系统已针对线性代数等致密数值应用进行了优化。 相比之下,NMC的独特特性使其非常适合可扩展和稀疏的算法,其活动与客观函数成正比,例如迭代优化和大规模采样(例如蒙特卡洛)。

神经与演化计算硬件体系结构分布式、并行与集群计算
arXiv

更小,更快,更便宜:用于高效机器学习的建筑设计

计算机视觉模型能力的主要进步主要得益于数据集、模型参数和计算预算的快速扩展,导致对计算基础设施的需求不断增加。 然而,随着这些模型部署在日益多样化和资源受限的环境中,迫切需要能够提供高性能的架构,同时需要更少的计算资源。 该论文侧重于架构原理,通过这些原理,模型可以实现更高的性能,同时降低其计算需求。 我们通过三个方向讨论朝着这个目标迈进。 首先,我们专注于数据进入和退出,研究如何传递信息并从我们的核心神经处理单元中检索。 这可确保我们的模型充分利用可用数据,使较小的架构变得更加高性能。 其次,我们研究核心神经架构的修改,应用于视觉变压器中受限注意力。 本节探讨了如何在受限注意力中移除统一上下文窗口,从而增加底层神经架构的表现力。 第三,我们探索了正态流的自然结构,以及如何利用这些属性来更好地提炼模型知识。 这些贡献表明,神经架构的精心设计可以提高机器学习算法的效率,使它们变得更小、更快、更便宜。

计算机视觉与模式识别硬件体系结构机器学习
arXiv

通用:通过低功耗算法逻辑单元的网络反转进行生成式设计空间探索

随着人工智能工作负载的激增,优化算术单元对于减少数字系统的占用空间变得越来越重要。 传统的设计流程通常依赖于手动或启发式优化,其彻底探索广阔设计空间的能力有限。 在本文中,我们介绍了基于机器学习的框架GENIAL,用于自动生成和优化算术单元,更具体地说是乘数。 GENIAL的核心是经过两个阶段训练的基于Transformer的代理模型,包括自我监督的预训练,然后进行监督微调,从抽象的设计表示中强烈预测关键硬件指标,如功率和面积。 通过倒置代理模型,GENIAL有效地搜索新的操作数编码,直接将特定输入数据分布的算术单元的功耗降至最低。 对大型数据集进行的广泛实验表明,GENIAL比其他方法始终具有更高的样品效率,并且更快地向优化设计融合。 这能够在循环中部署高努力的逻辑合成优化流程,提高代理模型的准确性。 值得注意的是,GENIAL自动发现实现高达18的编码

机器学习人工智能硬件体系结构
arXiv

MCP4EDA: LLM-Powered Model Context Protocol RTL-to-GDSII Automation with Backend Aware Synthesis Optimization

本文介绍了MCP4EDA,这是第一个模型上下文协议服务器,使大型语言模型(LLM)能够通过自然语言交互控制和优化完整的开源RTL-to-GDSII设计流。 该系统将Yosys合成,Icarus Verilog仿真,OpenLane地点和路线,GTKWave分析和KLayout可视化集成到一个统一的LLM可访问界面中,使设计人员能够通过Claude Desktop和Cusor IDE等AI助手进行对话执行复杂的多工具EDA工作流程。 主要贡献是后端感知合成优化方法,其中LLM从OpenLane结果分析实际的布局后时间,功率和面积指标,以迭代地完善合成TCL脚本,建立一个闭环优化系统,弥合合成估计和物理实现现实之间的传统差距。 与依赖线载模型的传统流相反,这种方法利用真正的后端性能数据来指导合成参数调整,优化序列选择和约束改进,LLM作为智能设计空间探索代理。 对具有代表性的数字设计进行实验评估显示15-30

硬件体系结构多智能体系统
arXiv

使用 YOLO for Edge FPGA 的实时对象检测和分类

对象检测和分类是跨各种应用领域的关键任务,特别是在开发安全可靠的高级驾驶辅助系统(ADAS)方面。 现有的基于深度学习的方法,如卷积神经网络(CNN),单点探测器(SSD)和You Only Look Once(YOLO)在部署在现场程序门阵列(FPGA)上时,在精度和计算速度方面表现出高性能。 然而,尽管有这些进步,但基于YOLO的最先进的对象检测和分类系统在实现适合边缘FPGA平台的资源效率方面仍然面临挑战。 为了应对这一限制,本文提出了基于针对FPGA部署优化的YOLOv5的资源高效的实时对象检测和分类系统。 拟议的系统在COCO和GTSRD数据集上训练,并在Xilinx Kria KV260 FPGA板上实现。 实验结果证明分类精度为99

计算机视觉与模式识别硬件体系结构
arXiv

AxOSyn:合成新型近似算术运算符的开源框架

边缘人工智能部署变得越来越复杂,需要为资源受限的嵌入式系统提供节能解决方案。 近似计算允许在计算中受到控制的不准确性,正在成为提高功率和能源效率的有希望的方法。 近似计算的关键技术包括近似算术运算符(AxOs),该技术使基于传统计算机算术硬件还原的方法(如量化和精确缩放)之外实现特定于应用的优化。 用于近似计算的现有设计空间探索(DSE)框架仅限于基于选择的方法或在固定抽象级别上的自定义合成,这限制了寻找特定于应用程序的最佳解决方案所需的灵活性。 此外,用于AxOs的DSE的工具在探索不同的近似模型和将分析扩展到不同的粒度方面非常有限。 为此,我们提出了AxOSyn,这是AxOs的DSE的开源框架,它支持各种抽象级别的选择和综合方法。 AxOSyn允许研究人员集成用于评估近似值的自定义方法,并在操作员级别和特定于应用程序的促进DSE。 我们的框架提供了实现节能,近似运营商的有效方法。

硬件体系结构新兴技术计算机科学中的逻辑
arXiv

显式 Sign-M Magnitude 编码器可实现功率效率倍增器

这项工作提供了一种方法,通过将它们分解为子组件来最大限度地提高固定点乘数单元的功率效率。 首先,编码器块将操作数从两个互补转换为符号大小表示,然后是一个乘数模块,该模块执行计算操作并以原始格式输出结果值。 这允许利用符号量级编码的功率效率进行乘法。 为了确保计算格式不改变,这两个组件是单独合成和优化的。 我们的方法为以零为中心的输入值节省了大量电力,正如在AI工作负载中常见的那样。 在标准差为3.0的实观输入流下,4位乘数设计的合成后模拟显示高达12.9

神经与演化计算硬件体系结构性能
arXiv

A3D-MoE:通过3D异构集成加速大型语言模型与专家混合

传统的大型语言模型(LLM)配备了数十个GB到TB的模型参数,使得推理高度能源密集且成本高昂,因为计算过程中需要将所有权重加载到板载处理元素。 最近,Mixture-of-Experts(MoE)架构已成为一种高效的替代方案,承诺有效的推理,每个令牌的激活权重较少。 尽管如此,基于精细的基于MoE的LLM面临着几个挑战:1)运行时的可变工作负载创建任意的GEMV-GEMM比率,从而降低硬件利用率,2)基于传统的基于MoE服务的LLM调度不能将注意力操作与MoE操作融合,导致延迟增加和硬件利用率降低,3)尽管比传统LLM更高效,但DRAM的加载专家仍然消耗大量能量,并且需要大量DRAM带宽。 应对这些挑战,我们提出:1)A3D-MoE,一个3D异构集成系统,采用最先进的垂直集成技术,可显著增强内存带宽,同时降低网络芯片(NoC)开销和能耗。 2) 3D-Adaptive GEMV-GEMM-ratio 系统阵列,具有V-Cache高效数据重用和新颖的统一3D数据流,以解决由不同工作负载的任意GEMV-GEMM比值导致的硬件利用率降低的问题,3)硬件资源感知操作融合调度器,将注意力操作与MoE操作融合,以提高硬件性能,4)MoE Score-Aware HBM访问减少。 我们的评估结果表明,A3D-MoE提供了显着的性能增强,将延迟降低了1.8倍至2倍,能耗降低了2倍至4倍,与最先进的相比,吞吐量提高了1.44倍至1.8倍。

硬件体系结构
arXiv

PRACTical:Subarray-Level计数器更新和银行级恢复隔离,用于高效的PRAC Rowhammer缓解

随着DRAM密度的增加,Rowhammer由于电荷泄漏增加而变得更加严重,减少了诱导位翻转所需的激活次数。 DDR5标准通过DRAM内每排激活计数器(PRAC)和警报关闭(ABO)信号来触发缓解来解决这一威胁。 然而,PRAC在预充阶段通过增加计数器来增加性能开销,并且恢复刷新会停滞整个内存通道,即使只有一家银行受到攻击。 我们建议PRACTical,一种性能优化的PRAC+ABO方法,保持相同的安全保障。 首先,我们通过引入集中的增量电路来减少计数器更新延迟,从而在其他子阵列中实现计数器更新更新和后续行激活之间的重叠。 其次,我们通过启用银行级粒度来增强RFM_ab缓解:而不是停滞整个通道,只有受影响的银行被暂停。 这是通过一个 DRAM 驻留寄存器来实现的,该登记册可以识别被攻击的银行。 PRACTical 性能提高 8

硬件体系结构新兴技术
arXiv

RoCE BALBOA:用于SmartNIC的服务增强型数据中心RDMA

数据中心中的数据密集型应用,特别是机器学习(ML),使网络成为瓶颈,这反过来又推动了更高效的网络协议和基础设施的开发。 例如,远程直接内存访问(RDMA)已成为云中数据传输的标准协议,因为它最大限度地减少了数据副本,并通过主机绕过减少了CPU利用率。 同样,越来越多的网络功能和基础设施已经转移到加速器,SmartNIC和网络内计算以绕过CPU。 在本文中,我们探讨了RoCE BALBOA的实施和部署,RoCE BALBOA是一个开源的,RoCE v2兼容的,可扩展多达数百个队列对,以及100G支持的RDMA堆栈,可以用作构建加速器和smartNIC的基础。 RoCE BALBOA是可定制的,开辟了一个设计空间,并提供商业产品中无法获得的一定程度的适应性。 我们已经使用FPGA在集群中部署了BALBOA,并表明它具有与商用NIC相当的延迟和性能特性。 我们通过探索两类用例来展示其潜力。 一个涉及为基础设施目的(加密,使用ML的深度数据包检查)对协议的增强。 另一个展示了通过实施商业数据预处理管道来使用深度管道执行线率计算卸载的能力,该系统用于在将数据从网络传输到GPU之前处理数据。 这些示例展示了 BALBOA 如何在网络数据流上运行的 SmartNIC 和加速器的勘探和开发。

硬件体系结构网络与互联网架构
arXiv

用于 6G 无线电单元中的 FPGA SoC 的可扩展资源管理层

这项工作提出了解决部署在5G无线电和边缘计算基础设施中的FPGA SoC设备计算资源利用不足的问题。 这种方法的初始步骤涉及开发一个资源管理层,能够在这些设备内动态迁移和扩展功能,以响应上下文事件。 该层是设计一个分层的、数据驱动的微型架构器的基础,负责管理 FPGA SoC 设备中功能生命周期。 在本文中,建议的资源管理层用于根据计算机视觉边缘应用程序识别的事件重新配置函数。

网络与互联网架构硬件体系结构
arXiv

揭开可重新配置AI加速器中数据和指令流的7-D卷积环巢的神秘面纱

卷积仍然是AI加速中计算密集型的运行,通常超过80-90

硬件体系结构
arXiv

ChipletPart:2.5D系统的可扩展成本感知分区

芯片的行业采用率一直在增加,作为制造大型高性能系统的成本效益选择。 因此,将大型系统分割成芯片变得越来越重要。 在这项工作中,我们引入了ChipletPart - 一个成本驱动的2.5D系统分区器,可解决芯片系统的独特限制,包括复杂的客观功能,芯片间I / O收发器的有限覆盖范围,以及将异构制造技术分配给不同的芯片。 ChipletPart集成了一个复杂的芯片成本模型及其基于遗传算法的技术分配和分区方法,以及基于模拟退火的Chilllet平面图。 我们的结果表明 : ( i) ChipletPart 将 Chiplet 成本降低高达 58

硬件体系结构
arXiv

3DGauCIM:通过数字CIM加速静态/动态3D高斯电镀,实现高帧率实时边缘渲染

动态 3D 高斯飞溅(3DGS)扩展静态 3DGS 以渲染动态场景,使 AR/VR 应用程序与移动对象。 然而,在边缘设备上实现动态3DGS面临挑战:(1)从DRAM加载所有高斯参数用于节流式扑杀会产生高昂的能源成本。 (2)增加动态场景的参数可提高分选延迟和能耗。 (3)具有较高参数的片上缓冲容量有限,减少了缓冲重用,导致DRAM频繁访问。 (4)动态3DGS操作不易与数字内存计算(DCIM)兼容。 这些挑战阻碍了边缘设备的实时性能和功率效率,导致电池寿命缩短或需要笨重的电池。 为了应对这些挑战,我们提出了算法-硬件共同设计技术。 在算法层面,我们引入了三种优化:(1) DRAM-access 减少 frustum 剔除,以降低 DRAM 访问开销,(2) 自适应磁贴分组以增强片上缓冲重用,(3) 自适应区间初始化 Bucket-Bitonic 排序,以减少排序延迟。 在硬件层面,我们展示了一个对DCIM友好的计算流程,该计算流程使用16nm DCIM原型芯片的测量数据进行评估。 我们在大规模真实世界静态/动态数据集上的实验结果表明,能够以最小的功耗实现超过200帧/秒(FPS)的高帧率实时渲染,静态大规模真实世界场景仅0.28 W和动态大规模真实世界场景0.63 W。 这项工作成功地解决了在资源受限的边缘设备上实施静态/动态3DGS技术的重大挑战。

硬件体系结构
arXiv

Ironman:通过近内存处理加速隐私保护AI的遗忘传输扩展

随着机器学习(ML)的广泛应用,用户数据可能会出现隐私问题,因为它们可能包含敏感信息。 基于加密原语的隐私保护ML(PPML)已成为一个有前途的解决方案,其中ML模型直接在加密数据上计算,以提供正式的隐私保证。 然而,PPML框架在很大程度上依赖于遗忘传递(OT)原始来计算非线性函数。 OT主要涉及单点相关OT(SPCOT)的计算和学习与噪声(LPN)操作的均等。 由于OT仍然在通用CPU上广泛计算,它成为现代PPML框架的延迟瓶颈。 在本文中,我们提出了一个名为Ironman的新型OT加速器,以显着提高OT和整体PPML框架的效率。 我们观察到SPCOT是计算边界的,因此提出了一种硬件友好的SPCOT算法,具有定制的加速器,以提高SPCOT计算吞吐量。 相比之下,LPN由于不规则的内存访问模式而具有内存带宽边界。 因此,我们进一步利用配备内存侧缓存和索引排序的近内存处理(NMP)架构,以提高有效的内存带宽。 通过广泛的实验,我们证明了Ironman与全线程CPU实现相比,不同NMP配置的OT吞吐量提高了39.2-237.4倍。 对于不同的PPML框架,Ironman为CNN和Transformer模型展示了端到端延迟减少2.1-3.4倍。

硬件体系结构
arXiv

通过不可倒立式玻璃接口器设计高性能和热可行的多芯片架构

由玻璃插孔器启用的多芯片架构提供卓越的电气性能,由于串扰减少而可实现更高的总线宽度,并且在再分配层中具有比当前基于硅插孔的系统更低的电容。 这些优势导致每比特能量更低,通信频率更高,互连范围延长。 然而,基于玻璃插孔的系统中包装(翘曲)的变形成为系统尺寸增加的关键挑战,导致严重的机械应力和可靠性问题。 除了一定尺寸之外,传统的包装技术无法有效地管理翘曲,因此需要新的方法来减轻翘曲诱导的弯曲,并为基于玻璃插孔的多芯片系统提供可扩展的性能。 为了应对这些相互交织的挑战,我们提出了一个采用架构和封装共同优化的热、翘曲和性能感知设计框架。 拟议的框架瓦解了表面和嵌入式芯片,以平衡相互冲突的设计目标,确保性能、功率和结构可靠性之间的最佳权衡。 我们的实验证明,我们的设计框架优化的多芯片架构可实现高达64.7

硬件体系结构
arXiv

用于同态加密的三输入Ciphertext乘法

同态加密(HE)允许在密文上直接进行计算,对于隐私保护计算至关重要,例如神经网络推理、医疗诊断和财务数据分析。 只有加法和2输入乘法在流行的HE方案中通过密文定义。 然而,许多HE应用涉及非线性函数,并且需要使用高阶多项式来近似以保持精度。 为了降低这些计算的复杂性,本文提出了3输入密文乘法。 引入了一个额外的评估键来执行密文乘法的再线性化步骤,并提出了新的公式来组合计算和共享中间结果。 与使用连续两个2个输入乘法相比,使用建议的方案计算三个密文的产物导致几乎一半的延迟,29

密码学与安全硬件体系结构
arXiv

Stella Nera:基于可区分的基于疯狂硬件加速器,实现高效的近似矩阵乘法

近年来,人工智能激增,机器学习的进步迅速影响了生活的几乎每个领域。 然而,这些模型日益复杂,远远超过可用硬件加速器的进步,导致巨大的计算和能量需求,主要是由于矩阵乘法,主导了计算工作负载。 Maddness(即Multiply-ADDitioN-lESS)提供了基于哈希的产品量化版本,它将矩阵乘法渲染到查找和添加中,完全消除了对乘数的需求。 我们展示了Stella Nera,第一个基于Maddness的加速器,由于其小组件和降低计算复杂性,实现了161个TOP / s / W@0.55V的能源效率,比传统的MatMul加速器好25倍。 我们通过可微分的近似值进一步增强疯狂,允许基于梯度的微调和实现92.5的端到端性能

硬件体系结构计算机视觉与模式识别机器学习机器学习 (统计)
arXiv