42digest

活 水 快 报

最新研究

迈向高效教育聊天机器人:RAG框架基准测试

大型语言模型(LLM)在教育领域已展现出巨大价值,其能够捕捉大量文献信息,无需依赖外部资源即可生成上下文。本文提出一个由生成式AI驱动的GATE问答框架(GATE代表工程学研究生入学考试),利用LLM解释GATE试题解决方案并辅助学生备考。我们通过广泛基准测试选择最优嵌入模型和LLM,基于延迟、忠实度和相关性等标准评估框架性能,并通过人工评估进行额外验证。我们的聊天机器人集成最先进的嵌入模型和LLM,以提供准确且上下文感知的响应。通过严格实验,我们确定了平衡性能与计算效率的配置方案,确保机器人可靠满足学生需求。同时讨论了数据处理和建模过程中遇到的挑战及解决方案。本研究探索了检索增强生成(Retrieval-Augmented Generation, RAG)在GATE问答解释任务中的应用,实验结果表明检索精度和响应质量均有显著提升。该研究为开发有效AI教育工具提供了实践见解,同时指出了未来在可用性和可扩展性方面的改进方向。

信息检索人工智能
arXiv

大型语言模型的保证性生成

随着大型语言模型(LLM)在各种应用中的使用日益增多,控制文本生成以满足特定约束或需求的需求也在不断增长。这引发了一个关键问题:是否可能在尽可能保留原始模型分布的同时,保证生成输出严格满足约束条件?我们首先定义了理想分布——最接近原始模型且始终满足表达约束的分布——作为保证性生成的终极目标。然后我们阐述了一个基本限制,即仅通过自回归训练无法实现该目标。这促使我们需要结合训练时和推理时的方法来实施此类保证。基于这一见解,我们提出了GUARD方法,这是一种简单而有效的方案,将自回归提议分布与拒绝采样相结合。通过GUARD的理论特性,我们展示了如何通过控制特定提议分布与目标理想分布之间的KL散度,同时优化推理速度和分布接近度。为了验证这些理论概念,我们在两个具有难以满足约束的文本生成场景上进行了大量实验:词汇约束场景和情感反转场景。实验表明,GUARD在几乎完全保留理想分布的同时实现了完美的约束满足,并显著提高了推理效率。GUARD为LLM提供了一种在不损害其生成能力的前提下强制执行严格保证的原则性方法。

计算与语言
arXiv

V3rified:去中心化可验证计算中的揭示式与非揭示式机制比较

在Web3时代,去中心化技术已成为新数字范式的基石。基于去中心化的区块链架构,Web3领域旨在实现网络各个方面的民主化。从数据共享到学习模型,外包计算已成为一种成熟且普遍的做法。可验证计算使这种做法变得可信,因为客户/用户现在可以高效地验证计算的完整性。随着可验证计算在Web3领域的应用考虑,去中心化对系统可靠性至关重要,确保没有任何单一实体可以压制客户。然而与此同时,去中心化需要与效率保持平衡:客户希望他们的计算能尽快完成。受这些问题驱动,我们研究了将计算任务外包给战略性、理性的解决方案提供方时,去中心化与效率之间的权衡。具体而言,我们研究了当客户采用以下两种机制时的这种权衡:(1)揭示式机制(即拍卖机制),解决方案提供方竞标他们在特定截止日期前完成任务所需的奖励,然后客户选择由谁执行任务以及他们将获得多少奖励;(2)简单的非揭示式机制,客户承诺她将用于将特定时间的解决方案映射到奖励的规则集,然后解决方案提供方决定是否要执行任务。我们在模型中完整刻画了揭示式与非揭示式机制的能力和局限性。

计算机科学与博弈论
arXiv

Argus能评判一切吗?跨领域视觉语言模型比较研究

视觉语言模型(VLMs)正在推动多模态AI发展,但其在不同任务间的性能一致性尚未得到充分研究。我们在检索、描述生成和推理等多样化数据集上对CLIP、BLIP和LXMERT进行了基准测试。评估内容包括任务准确率、生成质量、效率以及新颖的跨数据集一致性(CDC)指标。CLIP展现出最强的泛化能力(CDC:0.92),BLIP在精选数据上表现优异,而LXMERT在结构化推理任务中领先。这些结果揭示了泛化能力与专用性能之间的权衡关系,为VLM的工业部署提供参考,并指导开发更具鲁棒性和任务适应性的架构。

信息检索人工智能计算与语言
arXiv

Articulate3D:作为通用场景描述的三维场景整体理解

三维场景理解是计算机视觉领域长期存在的挑战,也是实现混合现实、可穿戴计算和具身人工智能的关键组成部分。为这些应用提供解决方案需要一种多方面的研究方法,涵盖以场景为中心、以对象为中心以及以交互为中心的能力。虽然存在许多数据集和算法解决前两个问题,但理解可交互和可铰接物体的任务在研究领域中代表性不足,仅部分涵盖。在这项工作中,我们通过引入以下内容来解决这一不足:(1)Articulate3D,一个经过专家精心策划的三维数据集,包含对280个室内场景的高质量手动注释。Articulate3D为可铰接物体提供了8种类型的注释,涵盖部件和详细的运动信息,所有信息都存储在一个标准化的场景表示格式中,专为可扩展的三维内容创建、交换和无缝集成到模拟环境而设计。(2)USDNet,一个新颖的统一框架,能够同时预测部件分割以及可铰接物体的完整运动属性规范。我们在Articulate3D以及两个现有数据集上评估了USDNet,展示了我们统一的密集预测方法的优势。此外,我们通过跨数据集和跨领域评估突出了Articulate3D的价值,并通过LLM提示的场景编辑和可铰接物体操作的机器人策略训练等下游任务展示了其适用性。我们公开提供了我们的数据集、基准和方法源代码的访问权限。

计算机视觉与模式识别机器人学
arXiv

具有深度分子理解能力的药物发现SMILES-to-Pharmacokinetics扩散模型

人工智能(AI)正日益应用于药物开发的各个阶段。药物发现AI面临的一个挑战是,药物药代动力学(PK)数据集通常是独立收集的,重叠有限,导致数据重叠稀疏性。这种数据稀疏性使得研究人员在复方用药、药物组合研究和高通量筛选等领域难以进行数据整理。我们提出了Imagand,一种新颖的SMILES-to-Pharmacokinetic(S2PK)扩散模型,能够根据SMILES输入生成一系列PK目标属性。我们证明Imagand生成的合成PK数据在单变量和双变量分布上与真实数据非常相似,并能提高下游任务的性能。Imagand是解决数据重叠稀疏性的有前景的方案,使研究人员能够高效生成用于药物发现研究的配体PK数据。代码可在https://github.com/bing1100/Imagand获取。

定量方法人工智能机器学习
arXiv

语义均衡聚类:一种简单有效的视觉标记聚类策略

Vision Transformer(ViT)因其卓越的关系建模能力而备受关注。然而,其全局注意力机制的二次复杂度带来了巨大的计算负担。常见的解决方案是对标记进行空间分组以实现self-attention,从而降低计算需求。然而,这种策略忽略了标记中的语义信息,可能导致语义相关的标记分散在不同组中,从而损害了用于建模标记间依赖关系的self-attention的有效性。基于这些观察,我们提出了一种快速均衡的聚类方法,称为语义均衡聚类(SEC)。SEC根据标记的全局语义相关性,以高效、直接的方式进行聚类。与需要多次迭代的传统聚类方法不同,我们的方法只需单次遍历即可完成标记聚类。此外,SEC调控每个簇中的标记数量,确保均衡分布以便在当前计算平台上实现有效的并行处理,而无需进一步优化。基于SEC,我们提出了一个通用的视觉骨干网络SECViT。在图像分类、目标检测、实例分割和语义分割方面的全面实验验证了SECViT的有效性。此外,SEC可以方便快速地应用于多模态大语言模型(MLLM),如LLaVA,作为视觉语言连接器,在保持性能不变或更好的同时有效加速模型效率。

计算机视觉与模式识别
arXiv

可重构环境与策略的协同优化用于去中心化多智能体导航

本研究将多智能体系统及其周围环境视为一个协同演化系统,其中一方的行为会影响另一方。我们的目标是将智能体动作和环境配置都作为决策变量,以协调的方式优化这两个组成部分,从而提高某些关注指标。为此,我们研究了杂乱环境中的去中心化多智能体导航问题,其中假设环境布局是可重构的。通过引入两个子目标——多智能体导航和环境优化——我们提出了一个智能体-环境协同优化问题,并开发了一种协调算法,该算法在这些子目标之间交替进行,以寻找智能体动作和环境配置的最优组合,最终提高导航性能。由于显式建模智能体、环境及其性能之间关系的挑战性,我们利用policy gradient在协调框架内构建了一个无模型学习机制。形式化收敛分析表明,我们的协调算法能够跟踪相关时变非凸优化问题的局部最小解。实验验证了理论发现,并展示了协同优化的优势。有趣的是,结果还表明优化后的环境可以为运动中的智能体提供结构性指导以避免冲突。

机器人学机器学习多智能体系统
arXiv

AirRadar:基于深度神经网络的中国空气质量全国范围推断

实时监测空气质量对于保障公众健康和促进社会进步至关重要。然而,空气质量监测站的广泛部署受到其高昂成本的限制。为解决这一局限,我们提出了AirRadar,这是一种深度神经网络,旨在利用现有监测站的数据准确推断缺乏监测站位置的实时空气质量。通过利用可学习的mask tokens,AirRadar能够重建未监测区域的空气质量特征。具体而言,它分两个阶段运行:首先捕获空间相关性,然后调整分布偏移。我们使用来自中国1,085个监测站的全年数据集验证了AirRadar的有效性,证明了其在不同程度未观测数据情况下优于多个基线方法。源代码可通过https://github.com/CityMind-Lab/AirRadar获取。

机器学习人工智能
arXiv

一类连续时间线性二次强化学习问题的次线性遗憾

我们研究了一类扩散过程的连续时间线性二次(LQ)控制问题的强化学习(RL),其中状态为标量值且不包含运行控制奖励,但状态过程的波动率同时依赖于状态和控制变量。我们采用了一种不依赖模型参数知识或其估计的无模型方法,并设计了一种RL算法来直接学习最优策略参数。我们的主要贡献包括引入探索调度和对所提算法的遗憾分析。我们给出了策略参数向最优参数收敛的速率,并证明该算法在忽略对数因子情况下实现了O(N^3/4)的遗憾界,其中N是学习回合数。我们通过仿真研究验证了理论结果,证明了所提算法的有效性和可靠性。我们还进行了数值比较,将我们的方法与最近适用于状态和控制依赖波动率设置的基于模型的随机LQ RL研究进行比较,结果表明前者在遗憾界方面表现更优。

机器学习人工智能系统与控制最优化与控制
arXiv

使用Proximal Policy Optimization对ANFIS策略进行On-Policy优化

我们提出了一种使用Proximal Policy Optimization (PPO)训练神经模糊控制器的强化学习方法。与之前使用Deep Q-Networks (DQN)和Adaptive Neuro-Fuzzy Inference Systems (ANFIS)的方法不同,我们基于PPO的框架利用了稳定的on-policy actor-critic设置。在CartPole-v1环境中通过多次随机种子评估,经过20000次更新后,PPO训练的模糊智能体始终以零方差达到500的最大回报,在稳定性和收敛速度上都优于ANFIS-DQN基线。这凸显了PPO在强化学习任务中训练可解释神经模糊智能体的潜力。

机器学习人工智能
arXiv

具有保证稳定性和鲁棒性的自适应输出反馈MPC

本文针对受外部干扰的不确定系统,提出了一种自适应输出反馈模型预测控制(MPC)框架。在缺乏精确的装置参数知识和完整状态测量的情况下,MPC优化问题基于从适当设计的鲁棒自适应观测器获得的估计值进行重构。该MPC算法返回状态估计轨迹的同伦管。随后将表征状态估计误差的集合添加到同伦管截面中,形成包含真实状态轨迹的更大管道。这种双层管道结构为参数知识不完善、外部干扰和状态信息不完整所导致的不确定性提供了鲁棒性。此外,通过数值算例验证并保证了算法的递归可行性和鲁棒指数稳定性。

系统与控制最优化与控制
arXiv

匿名动态网络中的最优计算

我们给出了一个简单的特征描述,说明了在动态网络中匿名进程可以确定性计算的函数,这些函数取决于网络中的领导者数量。此外,我们提供了高效的分布式算法来计算所有这些函数,假设对网络具有最小或无先验知识。我们的每个算法都有两个版本:一个以正确输出终止,另一个更快地在正确输出上稳定而不显式终止。值得注意的是,这些是第一个确定性算法,其运行时间与进程数量和我们称为"动态断开性"的网络参数线性相关(这意味着我们的动态网络不必始终保持连接)。我们还提供了匹配的下界,表明对于任何固定数量的领导者,我们的所有算法都是渐近最优的。虽然现有关于匿名动态网络的大多数文献依赖于经典的质量分布技术,但我们的工作使用了一种称为"历史树"的新型组合结构,这具有独立的研究价值。在其他贡献中,我们的结果在匿名动态网络的两个流行基本问题上取得了决定性进展:无领导者平均共识(即计算分布在进程中的输入数字的平均值)和多领导者计数(即确定网络中的确切进程数量)。我们的贡献不仅开辟了一条关于历史树应用的有前景的研究路线,还证明了匿名动态网络中的计算实际上是可行的,并且远比之前推测的要求低。

分布式、并行与集群计算离散数学
arXiv

固体中粘弹性、热膨胀和热传导现象的热力学扩展辛数值模拟

可逆动力系统的辛数值格式能够可靠地预测长时间的解,同时也是扩展到模拟不可逆情况(如岩石、塑料、生物样品等中通过热膨胀耦合的粘弹性波传播和热传导)的良好起点。数值解的耗散误差(能量和振幅的人工非守恒)应尽可能小,以免与不可逆系统中真实发生的耗散混淆。此外,另一种众所周知的数值伪影——色散误差(在急剧变化处出现的人工振荡)也应最小化,以避免与真实的波动行为混淆。连续介质热力学方面(尊重通量平衡、强度量与通量之间的系统本构关系、具有正定熵产的热力学第二定律以及基于时空的运动学观点)对于获得此类扩展格式和监控解的质量非常有价值。在先前工作的基础上,我们建立并研究了一种用于一维粘弹性波传播的数值格式,该格式在通过热膨胀耦合的热传导存在的情况下,展示了长期可靠性以及基于热力学的量在监督解质量方面的适用性。

经典物理学数值分析
arXiv

无桥三次图中寻找均匀分布完美匹配的时间复杂度研究

我们提出了一种在3-边连通三次图中寻找完美匹配的算法,该匹配与每个3-边割恰好相交于一条边。具体而言,我们提出的算法时间复杂度为O(n log^4 n),较之前已知的O(n^3)时间复杂度算法有显著改进。我们通过高效利用3-边割的仙人掌模型来实现这一改进。作为应用,我们使用该算法在O(n log^4 n)时间内计算具有有限奇异边数(即在某个面边界上出现两次的边)的3-边连通三次图的嵌入;这一应用为著名的循环双覆盖猜想研究做出了贡献。

数据结构与算法离散数学组合数学
arXiv

小样本启发的生成式零样本学习

生成式零样本学习(ZSL)方法通常使用预定义的语义属性合成未见类的视觉特征,然后训练全监督分类模型。虽然有效,但这些方法需要大量计算资源和合成数据,从而放宽了原始ZSL假设。本文提出FSIGenZ,一种受小样本学习启发的生成式ZSL框架,减少了对大规模特征合成的依赖。我们的关键见解是:类级别属性表现出实例级变异性(即某些属性可能缺失或部分可见),而传统ZSL方法将其视为统一存在。为此,我们提出模型特定属性评分(MSAS),基于模型特定的优化动态重新评分类属性,从而在无法访问未见数据的情况下近似实例级变异性。我们进一步将MSAS调整后的属性分数作为实例聚类,估计组级别原型,作为每个未见类的代表性合成特征。为缓解由此产生的数据不平衡,我们提出了双重目的语义正则化(DPSR)策略,同时使用这些原型训练语义感知对比分类器(SCC)。在SUN、AwA2和CUB基准上的实验表明,FSIGenZ使用更少的合成特征就能达到有竞争力的性能。

机器学习
arXiv

跨场景与设备感知心脏健康:基于170万个体异构数据预训练的多模态基础模型

心脏生物信号,如心电图(ECG)和光电容积图(PPG),对于心血管疾病的诊断、预防和管理至关重要,并已广泛应用于各种临床任务中。传统的深度学习方法分析这些信号通常依赖于同质数据集和静态定制模型,限制了其在不同临床环境和采集协议中的鲁棒性和泛化能力。在本研究中,我们提出了一种心脏感知基础模型(CSFM),该模型利用先进的transformer架构和生成式掩码预训练策略,从大量异构健康记录中学习统一表示。我们的模型在多个大规模数据集(包括MIMIC-III-WDB、MIMIC-IV-ECG和CODE)的创新多模态数据整合上进行了预训练,这些数据包含来自约170万个体的心脏信号及相应的临床或机器生成的文本报告。我们证明,从我们的CSFM中得到的嵌入不仅可作为跨多样心脏感知场景的有效特征提取器,还能实现跨不同输入配置和传感器模态的无缝迁移学习。在诊断任务、人口统计信息识别、生命体征测量、临床结果预测和ECG问答等多个方面的广泛评估显示,CSFM始终优于传统的一模态一任务方法。值得注意的是,CSFM在从标准12导联系统到单导联设置的多种ECG导联配置中,以及仅在ECG、仅在PPG或两者结合可用的场景中,均表现出鲁棒的性能。这些发现凸显了CSFM作为一种多功能和可扩展解决方案,用于全面心脏监测的潜力。

机器学习人工智能信号处理
arXiv

长上下文线性系统辨识

本文研究长上下文线性系统辨识问题,其中动态系统在时间t的状态x_t线性依赖于前p个时间步的状态x_s(固定长度的上下文窗口)。我们建立了一个样本复杂度界限,对于广泛的系统类别,该界限在对数因子内匹配i.i.d.参数率,扩展了先前仅考虑一阶依赖性的研究工作。研究结果表明了一种无需混合的学习现象,说明学习长上下文线性自回归模型不会受到可能与扩展上下文窗口相关的缓慢混合特性的阻碍。此外,我们将这些结果扩展到:(i)共享低秩表示,其中秩正则化估计量改善了速率对维度的依赖性;(ii)严格稳定系统中错误设定的上下文长度,其中较短的上下文窗口具有统计优势。

机器学习 (统计)机器学习系统与控制统计理论
arXiv

从文本到带隙:预训练语言模型作为半导体带隙预测的编码器

我们研究了基于transformer的语言模型,如RoBERTa、T5和LLaMA,用于直接从编码关键材料特征(如化学成分、晶体系统、空间群、每个晶胞的原子数、价电子数以及其他相关的电子和结构性质)的文本表示中预测半导体材料的带隙。量子化学模拟如DFT提供了准确的预测,但计算量大,限制了其在大规模材料筛选中的可行性。浅层机器学习模型提供了更快的替代方案,但通常需要大量的数据预处理将非数值材料特征转换为结构化的数值输入,这往往以丢失关键描述信息为代价。相比之下,我们的方法利用预训练语言模型直接处理文本数据,消除了手动特征工程的需要。我们构建了两种格式的材料描述:一种是在一致模板中结合关键特征的结构化字符串,另一种是使用ChatGPT API生成的自然语言叙述。对于每个模型,我们附加了一个自定义的回归头,并在一个精选的无机化合物数据集上进行了任务特定的微调。我们的结果表明,经过微调的语言模型,特别是仅解码器的LLaMA-3架构,在预测准确性和灵活性上可以超越传统方法,实现了0.25 eV的MAE和0.89的R2,而最佳的浅层机器学习基线实现了0.32 eV的MAE和0.84的R2。值得注意的是,LLaMA-3以最少的微调实现了竞争性的准确性,表明其架构为科学任务提供了更具可转移性的表示。这项工作展示了微调语言模型在科学性质预测中的有效性,并为材料信息学提供了一个可扩展的、语言原生的框架。

计算与语言材料科学
arXiv

学习型数据库系统安全

学习型数据库系统内部使用机器学习(ML)来提高性能。我们可以预期这类系统容易受到某些对抗性ML攻击。通常,学习组件会在互不信任的用户或进程之间共享,类似于缓存等微架构资源,这可能导致高度现实的攻击者模型。然而,与其他基于ML的系统攻击相比,攻击者面临一定程度的间接性,因为他们无法直接与学习模型交互。此外,同一系统的学习版本与非学习版本之间的攻击面差异往往很微妙。这些因素模糊了引入ML所带来的实际风险。我们分析了学习型数据库系统中潜在攻击面增加的根源,并开发了一个用于识别由ML使用引起的漏洞的框架。我们将该框架应用于数据库社区当前正在探索的广泛学习组件集合。为了实证验证我们框架发现的漏洞,我们选择了其中3个漏洞并实施和评估了针对这些漏洞的攻击利用。我们证明,ML的使用会导致数据库中过去查询的泄露,使中毒攻击能够导致索引结构内存呈指数级膨胀并在数秒内崩溃,并使索引用户能够通过对自己键的查询计时来窥探彼此的键分布。我们发现对抗性ML是对数据库系统中学习组件的普遍威胁,指出了我们对学习型系统安全理解中的开放研究缺口,最后讨论了缓解措施,同时注意到数据泄露在多个参与方共享学习组件的系统中是固有的。

密码学与安全机器学习
arXiv