计算机科学
Computer Science
人工智能
Artificial Intelligence
计算与语言
Computation and Language
计算复杂性
Computational Complexity
热态在物理学的各个领域发挥着根本性的作用,在量子信息科学中变得越来越重要,与半定义编程、量子玻尔兹曼机器学习、哈密尔顿学习以及估计哈密尔顿语参数的相关任务相关的应用。 在这里,我们建立了参数化热态基本几何的公式,我们划定了用于估计这些公式值的量子算法。 更具体地说,我们建立了参数化热态的Fisher-Bures和Kubo-Mori信息矩阵的公式,我们用于估计其矩阵元素的量子算法涉及经典采样,Hamiltonian模拟和Haddamard测试的组合。 这些结果适用于开发量子玻尔兹曼机器学习的自然梯度下降算法,该算法考虑了热态的几何形状,并在获得热态样本时对估计哈密尔顿的参数的能力建立基本限制。 对于后一个任务,对于估计单个参数的特殊情况,我们勾勒出一种算法,该算法实现了对估计任务无症状最佳测量。 我们最后强调,这里开发的自然梯度下降算法可用于任何使用量子玻尔兹曼机器的机器学习问题。
通过扩散在分子通信中的发射器定位是具有许多应用的关键主题。 然而,由于接收器表面扩散和分子分布重叠的随机性,多个发射器的精确定位是一个具有挑战性的问题。 为了解决这些问题,我们引入了基于聚类的中心校正方法,可增强对密度变化的鲁棒性和异常值。 此外,我们提出了两个聚类引导残余神经网络,即用于方向改进的AngleNN和用于集群大小估计的SizeNN。 实验结果表明,与K-means相比,这两种方法都提供了显着的改进,减少了69%(2-Tx)和43%(4-Tx)之间的定位误差。
这项工作探索使用受物理学启发的AI Feynman符号回归算法,自动重新发现天文学中的一个基本方程 - 中心的方程。 通过数据预处理和搜索空间限制引入与系统物理性质相对应的观测和感应偏差,AI Feynman成功地从月球短暂性数据中恢复了这一方程的一阶分析形式。 然而,这种手动方法突出了其依赖专家驱动的坐标系选择的一个关键限制。 因此,我们建议自动预处理扩展以找到规范坐标系。 结果表明,有针对性的领域知识嵌入使符号回归能够重新发现物理定律,但也强调了在通过量身定制的偏见利用域知识时,限制符号回归以推导出物理方程的进一步挑战。
在行为科学中,进行诸如最后通牒游戏等实验来评估研究参与者对公平或自我利益的偏好。 在独裁者游戏中,一个简化版本的最后通牒游戏,其中只有两名玩家中的一个做出决定,独裁者单方面决定如何在自己和另一个玩家之间分割固定金额。 尽管最近的研究已经探索了基于大语言模型(LLM)的AI代理的行为模式,指示采用不同的角色,但我们质疑这些结果的稳健性。 特别是,其中许多研究忽略了系统提示的作用——塑造模型行为的基础指令——并没有考虑到提示的轻微变化。 然而,在研究LLM的高度复杂的行为方面时,强大的基线是必不可少的。 为了克服以前的局限性,我们提出了LLM代理行为研究(LLM-ABS)框架,以(i)探索不同的系统如何提示影响模型行为,(ii)通过使用中性的提示变化获得对代理偏好的更可靠的见解,以及(iii)分析LLM代理对开放式指令响应的语言特征,以更好地了解其行为背后的原因。 我们发现,代理人经常表现出对公平的强烈偏好,以及系统对他们的行为的重大影响。 从语言的角度来看,我们确定模型以不同的方式表达他们的反应。 尽管快速敏感性仍然是一个持续的挑战,但我们提出的框架为LLM代理行为研究奠定了坚实的基础。 我们的代码工件可在https://github.com/andreaseinwiller/LLM-ABS上找到。
线下到在线强化学习(O2O-RL)已成为安全高效的机器人政策部署的有希望的范例,但面临两个基本挑战:在线适应期间多模态行为的覆盖有限和分配变化。 我们提出了UEPO,这是一个受大型语言模型预训练和微调策略启发的统一生成框架。 我们的贡献是三重的:(1)多种子动力学感知扩散政策,在不训练多个模型的情况下有效地捕获各种模式;(2)一个动态背离正则化机制,强制执行物理上有意义的政策多样性;(3)一个基于扩散的数据增强模块,增强了动力学模型的泛化。 在D4RL基准测试中,UEPO在运动任务上实现了+5.9%的绝对改进,在灵巧操作方面实现了+5.9%的绝对改进,在灵巧操作方面实现了+12.4%的绝对改进,展示了强大的通用性和可扩展性。
混合专家(MoE)架构通过为每个输入令牌仅激活一个专门的专家网络子集来扩展语言模型,从而减少浮点运算的数量。 然而,现代MoE模型的不断增长的尺寸导致其完整参数集超过GPU内存容量;例如,Mixtral-8x7B具有450亿个参数,并且需要87 GB内存,即使每个令牌仅使用140亿个参数。 现有系统通过将非活动专家卸载到CPU内存来缓解这一限制,但跨PCIe互连转移专家会产生显着的延迟(约10毫秒)。 预选方法旨在通过预测需要哪些专家来隐藏这种延迟,但预取失败引入了显着的失速并放大了推理延迟。 如果发生预扣故障,前期工作提供了两个主要解决方案:要么按需获取专家,由于PCIe瓶颈而导致长时间失速,要么将专家从计算中退出,这显着降低了模型的准确性。 因此,关键挑战是在预选失败时保持高推理速度和模型精度。
基于排练的连续学习(CL)保持有限的内存缓冲区,以存储重播样本以保留知识,使这些方法严重依赖存储样本的质量。 当前基于排练的CL方法通常通过选择具有代表性的子集(称为核心集)来构建内存缓冲区,旨在以最小的存储开销近似完整数据集的训练功效。 然而,主流的Coreset Selection(CS)方法通常将CS问题制定为双级优化问题,依赖于许多内部和外部迭代来解决,从而导致大量的计算成本,从而限制了其实际效率。 在本文中,我们的目标是为核心构建提供更有效的选择逻辑和方案。 为此,我们首先通过局部误差分解的视角分析缓冲区训练模型和贝叶斯最优模型之间的均方误差(MSE),以调查来自不同区域的样本对MSE抑制的贡献。 进一步的理论和实验分析表明,概率密度高的样品在误差抑制中起主导作用。 受此启发,我们提出了Probability Density-Aware Coreset(PDAC)方法。 PDAC 利用投影高斯混合 (PGM) 模型来估计每个样品的联合密度,从而实现高效的密度优先缓冲选择。 最后,我们介绍了流式期望最大化(EM)算法,以增强PGM参数对流数据的适应性,为流式传输场景产生流式PDAC(SPDAC)。 广泛的比较实验表明,我们的方法在各种CL设置中优于其他基线,同时确保了有利的效率。
规范化是变压器训练 的关键点。 在Dynamic Tanh(DyT)中,作者证明Tanh可以用作替代层规范化(LN),并证实了这个想法的有效性。 但 Tanh 本身面临正交、线性和扭曲问题。 因此,他的主张不可能是可靠的。 因此,我们提出了一个具有剩余连接和非线性的Holonorm(hn)。 Holonerum适合在正常化的背景下取代Tah。 虽然 HoloNorm 表达式可能类似于维度中的 softsign 函数,但 softsign 是一种组件化函数,对于大尺寸的张量和向量都不好。 Holonorm保留了正交性,方向,信号的可反转性。 Holonnormal也是一个合适的度量,将所有向量映射到打开的单元球中。 这可以防止爆炸激活,并提高深度变形器模型的稳定性。 在这项工作中,我们仔细研究了变压器中的归一化,并说Holonorm,一种通用形式的softsign函数,首先适合作为归一化函数。 其次,定义在0到1 hn之间,占百分比,1 - Holonorm是它的互补,使其在评估模型时更好地理解。
本文介绍了通过 NL-to-SQL 的提示调谐错误更正,利用基于生成式预训练的 LLM 和 RAG 的最新进展。 我们的工作解决了在各种环境中高效、准确地将自然语言查询翻译成 SQL 表达式的关键需求,并越来越多地使用自然语言接口。 我们探索NLIDBs从早期基于规则的系统到高级神经网络驱动方法的演变。 从医疗诊断过程中汲取灵感,我们提出了一个新的框架,集成了纠错机制,该机制可以诊断错误类型,识别其原因,提供修复说明,并将这些更正应用于SQL查询。 通过嵌入微调和RAG,这种方法进一步丰富了这种方法,后者利用外部知识库来提高准确性和透明度。 通过全面的实验,我们证明我们的框架比现有基线实现了12%的显著精度提升,突出了其在当代数据驱动环境中彻底改变数据访问和处理的潜力。
预测编码是一个框架,用于理解反映环境潜在结构的低维内部表征的形成。 出现这种陈述的条件仍然不清楚。 在这项工作中,我们研究预测视界和网络深度如何塑造预测编码任务的解决方案。 使用受先前工作启发的最小抽象设置,我们在经验和理论上表明,经过多步预测视野训练的足够深的网络可以持续恢复潜在的潜在结构,这种现象通过普通最小二乘的估算器结构和学习动力学中的偏差来解释。 然后,我们将这些见解扩展到非线性网络和复杂的数据集,包括分段线性函数,MNIST,多个潜伏状态和更高维度状态几何。 我们的结果提供了对预测编码何时以及为什么诱导结构化表示的原理性理解,弥合了经验观察与理论基础之间的差距。
这项研究调查了应用于基因组序列的大型语言模型(LLM)中的嵌入重建攻击,特别关注微调如何影响这些攻击的脆弱性。 基于Pan等人的开创性工作,证明预训练语言模型的嵌入可以泄漏敏感信息,我们使用HS3D基因组数据集进行全面分析,以确定任务特异性优化是否加强或削弱隐私保护。 我们的研究将Pan等人的工作扩展到了三个重要方面。 首先,我们将他们的重建攻击管道应用于预训练和微调模型嵌入,解决了他们方法中未指定嵌入类型的关键差距。 其次,我们实施专门为DNA序列量身定制的专用标记机制,增强了模型处理基因组数据的能力,因为这些模型是在自然语言而不是DNA上进行预训练的。 第三,我们进行详细的比较分析,检查预训练和微调嵌入之间的位置特异性、核苷酸类型和隐私变化。 我们评估不同类型和维度的嵌入漏洞,为任务适应如何改变整个基因组序列的隐私风险提供更深入的见解。 我们的研究结果表明,预训练和微调嵌入在重建脆弱性方面有明显区别。 值得注意的是,微调增强了对多种架构(XLNet(+19.8%)、GPT-2(+9.8%)和BERT(+7.8%))重建攻击的抵抗力,指出特定任务优化是一种潜在的隐私增强机制。 这些结果强调了对处理敏感基因组数据的语言模型的高级保护机制的需求,同时强调了微调作为一种潜在的隐私增强技术值得进一步探索。
评分规则评估未知状态的概率预测与已实现状态,是信息激励引出的基本组成部分。 本文通过将文本信息引出问题减少到预测引出问题,通过对大型语言模型(特别是ChatGPT)的无域知识查询(特别是ChatGPT)进行评分,并评估其与人类偏好的一致,从而开发对引出文本进行评分的机制。 我们的理论分析表明,减少通过黑箱语言模型实现了可证明的正确性。 经验评估是在同行评级数据集的同行评审上进行的,与同行评审的手动指导得分相比。 我们的结果表明了一种算法人工智能的范式,对于开发具有可证明的保证的人工智能技术可能很有用。
大型语言模型(LLM)在各种人工智能任务中取得了显着的成功,这是由扩展法律推动的,这些法律将模型大小和训练数据与性能改进相关联。 然而,这种扩展范式会承受大量的内存开销,给训练和推理都带来了重大挑战。 虽然现有的研究主要解决了参数和优化器状态内存的减少,但激活内存 - 特别是来自前馈网络(FFN)的激活内存已成为关键瓶颈,特别是当实现FlashAttention时。 在这项工作中,我们对LLM进行详细的内存分析,并将FFN激活确定为激活内存开销的主要来源。 受此激励,我们引入了Mixture-of-Channels(MoC),这是一种新颖的FFN架构,仅选择性地激活SwiGLU本地门接机制确定的每个令牌的Top-K最相关的通道。 MoC在预训练期间大大减少了激活内存,并通过通过部分重量加载到GPU SRAM中来减少内存访问,从而提高了推理效率。 广泛的实验验证了 MoC 在保持竞争模型性能的同时,可显著节省内存和吞吐量。
提高大型语言模型(LLM)的推理能力,特别是在参数约束下,对于现实世界的应用至关重要。 之前的工作提出了循环变压器,每个令牌分配固定数量的额外迭代,以提高发电质量。 在第一个标准前传之后,而不是口头上,最后一层隐藏状态被反馈为用于改进令牌预测的额外迭代的输入。 然而,我们发现了一个潜在的过度思考现象:在第一次传递之后已经正确的简单令牌预测有时会在额外的迭代中修改为错误。 为了解决这个问题,我们提出了Think-at-Hard(TaH),这是一种动态的潜在思维方法,仅在硬令牌中迭代更深。 它使用轻量级的神经决定器来触发潜在的迭代,仅在标准前传后可能不正确的令牌上触发。 在潜在迭代期间,低等级适应(LoRA)模块将LLM目标从一般的下图预测转变为集中的硬令牌改进。 我们进一步引入了一种双致病注意力机制,将注意力从令牌序列维度扩展到额外的迭代深度维度。 这可以实现跨迭代信息流,同时保持完全顺序的并行。 实验表明,TaH在五个具有挑战性的基准测试中提高了LLM推理性能,同时保持了相同的参数计数。 与对所有输出令牌迭代两次的基线相比,TaH提供了8.1-11.3%的准确率增益,同时从第二次迭代中免除了94%的令牌。 针对使用相同数据进行微调的强单迭代Qwen3型号,它还可提供4.0-5.0%的精度增益。 当允许LoRA和迭代决定器提供不到3%的额外参数时,收益分别增加到8.5-12.6%和5.3-5.4%。 我们的代码可在https://github.com/thu-nics/TaH。
Transformer架构通过其自我关注机制在自然语言处理、计算机视觉和科学计算方面取得了巨大成功。 然而,其核心组件位置编码和注意力机制缺乏统一的物理或数学解释。 本文提出了结构理论框架,集成了位置编码、内核积分运算符和深入理论探究的注意力机制。 我们将离散位置(如文本令牌索引和图像像素坐标)映射到连续流形上的空间函数,使变形金刚层的场上理论解释成为可能,因为内核调制运算符对嵌入式流形起作用。
尽管生成质量有所进步,但目前的文本到图像(T2I)模型通常缺乏多样性,从而产生均匀的输出。 这项工作引入了一个框架,以解决T2I模型中对稳健多样性评估的需求。 我们的框架通过评估单个概念及其相关的变异因素来系统地评估多样性。 主要贡献包括:(1)用于细致入微多样性评估的新型人类评估模板;(2)一个策划的提示集,涵盖不同的概念及其确定的变异因素(例如提示:苹果的图像,变化因子:颜色);(3)通过二项式测试比较人类注释模型的方法。 此外,我们严格比较各种图像嵌入,用于多样性测量。 值得注意的是,我们的原则性方法允许按多样性对T2I模型进行排名,确定它们特别挣扎的类别。 这项研究提供了强大的方法和见解,为改进T2I模型多样性和度量开发铺平了道路。
我们引入了一个有限差框架,用于神经符号距离场(SDF)学习中的曲率正则化。 现有方法使用通过二阶自动分化获得的完整Hessian信息强制执行曲率先验,这是准确的,但计算成本很高。 其他人通过避免明确的黑森组装来减少这种开销,但仍需要更高阶的差异化。 相比之下,我们的方法用轻量级的有限差分模板取代了这些操作,这些模板使用众所周知的Taylor扩展近似第二个导数,截断误差为O(h^2),可以作为高斯曲率和排名缺陷损失的下拉替换。 实验表明,我们的有限差值变体实现了与自动区分同类相媲美的重建保真度,同时将GPU内存使用和训练时间减少了高达2倍。 对稀疏、不完整和非CAD数据进行的额外测试证实,拟议的配方是稳健和通用的,为弧度感知SDF学习提供了一种高效且可扩展的替代方案。
随着对记录数据的关注在汽车测试和手动评估领域达到极限,对自动在线异常检测的需求越来越大。 这种真实世界的数据在许多方面是复杂的,需要对被试者的行为进行建模。 为了解决这个问题,我们提出了一个时间变异自动编码器(TeVAE),它可以在未标记的数据上训练时以最小的误报检测异常。 我们的方法也避免了旁路现象,并引入了一种新的方法,将单个窗口重新映射到连续的时间序列。 此外,我们提出了评估我们方法的检测延迟和根本原因能力的指标,并介绍了现实世界工业数据集实验的结果。 如果正确配置,TeVAE标记的异常值只有6%的时间是错误的,并检测65%的异常存在。 它还具有在较小的训练和验证子集方面表现良好的潜力,但需要更复杂的阈值估计方法。
脑机接口(BCI)旨在解码来自非侵入性神经信号的运动意图,以实现对外部设备的控制,但实际部署仍然受到基于运动图像(MI)脑电图(EEG)信号的噪声和可变性的限制。 这项工作调查了四类MI分类的分层和元认知解码框架。 我们引入了一个多尺度的分层信号处理模块,将骨干特征重新组织为时间多尺度表示,以及一个内省的不确定性估计模块,该模块分配每个周期的可靠性得分并指导迭代改进。 我们在三个标准EEG主干(EEGNet,ShallowConvNet和DeepConvNet)上实例化此框架,并在主题无关的设置下使用BCI Competition IV-2a数据集评估四类MI解码。 在所有骨干中,与相应的基线相比,拟议的组件提高了平均分类准确性并减少主体间差异,表明主体异质性和嘈杂试验的稳健性增加。 这些结果表明,将分层多尺度处理与内省置置信度估计相结合可以增强基于MI的BCI系统的可靠性。
我们证明具有控制变量的黑盒变异推理(BBVI),特别是粘附着陆(STL)估计器,在完美的变速家族规范下以几何(传统上称为“线性”)速率收敛。 特别是,我们证明了STL估计器的梯度方差的二次边界,其中包括错误指定的变异家族。 结合先前关于二次方差条件的工作,这直接意味着BBVI与使用投影随机梯度下降的收敛。 对于投影运算符,我们考虑一个具有三角形尺度矩阵的域,投影在Θ(d)时间上是可计算的,其中d是目标后验的维度。 我们还改进了对常规闭合形式熵梯度估计器的现有分析,该估计器能够与STL估计器进行比较,为两者提供明确的非渐近复杂性保证。
继续滚动加载更多