42digest

活 水 快 报

用 AI 跟踪日新月异的 AI 领域进展

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Despite the critical role of reward models (RMs) in reinforcement learning from human feedback (RLHF), current state-of-the-art open RMs perform poorly on most existing evaluation benchmarks, failing to capture the spectrum of nuanced and sophisticated human preferences. Even approaches that incorporate advanced training techniques have not yielded meaningful performance improvements. We hypothesize that this brittleness stems primarily from limitations in preference datasets, which are often narrowly scoped, synthetically labeled, or lack rigorous quality control. To address these challenges, we present a large-scale preference dataset comprising 40 million preference pairs, named SynPref-40M. To enable data curation at scale, we design a human-AI synergistic two-stage pipeline that leverages the complementary strengths of human annotation quality and AI scalability. In this pipeline, humans provide verified annotations, while large language models perform automatic curation based on human guidance. Training on this preference mixture, we introduce Skywork-Reward-V2, a suite of eight reward models ranging from 0.6B to 8B parameters, trained on a carefully curated subset of 26 million preference pairs from SynPref-40M. We demonstrate that Skywork-Reward-V2 is versatile across a wide range of capabilities, including alignment with human preferences, objective correctness, safety, resistance to stylistic biases, and best-of-N scaling, achieving state-of-the-art performance across seven major reward model benchmarks. Ablation studies confirm that the effectiveness of our approach stems not only from data scale but also from high-quality curation. The Skywork-Reward-V2 series represents substantial progress in open reward models, highlighting the untapped potential of existing preference datasets and demonstrating how human-AI curation synergy can unlock significantly higher data quality.

计算与语言 人工智能 机器学习
Fast and Simplex: 2-Simplicial Attention in Triton

Fast and Simplex: 2-Simplicial Attention in Triton

Recent work has shown that training loss scales as a power law with both model size and the number of tokens, and that achieving compute-optimal models requires scaling model size and token count together. However, these scaling laws assume an infinite supply of data and apply primarily in compute-bound settings. As modern large language models increasingly rely on massive internet-scale datasets, the assumption that they are compute-bound is becoming less valid. This shift highlights the need for architectures that prioritize token efficiency. In this work, we investigate the use of the 2-simplicial Transformer, an architecture that generalizes standard dot-product attention to trilinear functions through an efficient Triton kernel implementation. We demonstrate that the 2-simplicial Transformer achieves better token efficiency than standard Transformers: for a fixed token budget, similarly sized models outperform their dot-product counterparts on tasks involving mathematics, coding, reasoning, and logic. We quantify these gains by demonstrating that 2-simplicial attention changes the exponent in the scaling laws for knowledge and reasoning tasks compared to dot product attention.

机器学习 人工智能
Strategic Intelligence in Large Language Models: Evidence from evolutionary Game Theory

Strategic Intelligence in Large Language Models: Evidence from evolutionary Game Theory

Are Large Language Models (LLMs) a new form of strategic intelligence, able to reason about goals in competitive settings? We present compelling supporting evidence. The Iterated Prisoner's Dilemma (IPD) has long served as a model for studying decision-making. We conduct the first ever series of evolutionary IPD tournaments, pitting canonical strategies (e.g., Tit-for-Tat, Grim Trigger) against agents from the leading frontier AI companies OpenAI, Google, and Anthropic. By varying the termination probability in each tournament (the "shadow of the future"), we introduce complexity and chance, confounding memorisation. Our results show that LLMs are highly competitive, consistently surviving and sometimes even proliferating in these complex ecosystems. Furthermore, they exhibit distinctive and persistent "strategic fingerprints": Google's Gemini models proved strategically ruthless, exploiting cooperative opponents and retaliating against defectors, while OpenAI's models remained highly cooperative, a trait that proved catastrophic in hostile environments. Anthropic's Claude emerged as the most forgiving reciprocator, showing remarkable willingness to restore cooperation even after being exploited or successfully defecting. Analysis of nearly 32,000 prose rationales provided by the models reveals that they actively reason about both the time horizon and their opponent's likely strategy, and we demonstrate that this reasoning is instrumental to their decisions. This work connects classic game theory with machine psychology, offering a rich and granular view of algorithmic decision-making under uncertainty.

人工智能 计算与语言 计算机科学与博弈论
NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks

NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks

Recent work has shown that distilling reasoning traces from a larger teacher model via supervised finetuning outperforms reinforcement learning with the smaller student model alone (Guo et al. 2025). However, there has not been a systematic study of what kind of reasoning demonstrations from the teacher are most effective in improving the student model's reasoning capabilities. In this work we curate high-quality "NaturalThoughts" by selecting reasoning traces from a strong teacher model based on a large pool of questions from NaturalReasoning (Yuan et al. 2025). We first conduct a systematic analysis of factors that affect distilling reasoning capabilities, in terms of sample efficiency and scalability for general reasoning tasks. We observe that simply scaling up data size with random sampling is a strong baseline with steady performance gains. Further, we find that selecting difficult examples that require more diverse reasoning strategies is more sample-efficient to transfer the teacher model's reasoning skills. Evaluated on both Llama and Qwen models, training with NaturalThoughts outperforms existing reasoning datasets such as OpenThoughts, LIMO, etc. on general STEM reasoning benchmarks including GPQA-Diamond, MMLU-Pro and SuperGPQA.

计算与语言
AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

AI research agents are demonstrating great potential to accelerate scientific progress by automating the design, implementation, and training of machine learning models. We focus on methods for improving agents' performance on MLE-bench, a challenging benchmark where agents compete in Kaggle competitions to solve real-world machine learning problems. We formalize AI research agents as search policies that navigate a space of candidate solutions, iteratively modifying them using operators. By designing and systematically varying different operator sets and search policies (Greedy, MCTS, Evolutionary), we show that their interplay is critical for achieving high performance. Our best pairing of search strategy and operator set achieves a state-of-the-art result on MLE-bench lite, increasing the success rate of achieving a Kaggle medal from 39.6

人工智能 机器学习

最新研究

具有稳定性保证的无监督属性动态网络嵌入

动态网络嵌入的稳定性确保在不同时间表现相同的节点获得相同的嵌入,从而允许跨时间比较网络中的节点。我们提出了属性展开邻接谱嵌入(AUASE),这是一种稳定的无监督表示学习框架,适用于节点具有时变协变量信息的动态网络。为了建立稳定性,我们证明了其均匀收敛于相关的潜在位置模型。通过在四个真实属性网络上与最先进的网络表示学习方法进行比较,我们量化了动态嵌入的优势。据我们所知,AUASE 是唯一无需真实标签即可满足稳定性保证的属性动态嵌入方法,我们证明其在链接预测和节点分类任务中具有显著改进。

机器学习 (统计)机器学习统计方法论
arXiv

使用等变自回归储层计算机识别具有对称性的系统

本文报告的研究聚焦于使用等变自回归储层计算机来识别具有对称性的系统。我们提出了结构化矩阵逼近理论中的通用结果,探索了一种双重方法。首先,对通用的保持对称性的非线性时滞嵌入进行了全面考察,这涉及分析从所研究的等变系统中采样的时间序列数据。其次,应用稀疏最小二乘法来辨识输出耦合矩阵的近似表示。这些矩阵在确定等变系统的非线性自回归表示中起着关键作用。这些矩阵的结构特征由系统固有的对称性集合决定。本文概述了从所述技术衍生的原型算法,提供了对其实际应用的见解。重点强调了与经典储层计算方法相比,在模拟等变动力系统时结构化识别精度的显著提升。

系统与控制机器学习最优化与控制
arXiv

StreakNet-Arch:基于抗散射网络的水下载体LiDAR-Radar成像架构

本文提出StreakNet-Arch,这是一个基于我们自主研发的水下载体LiDAR-Radar(UCLR)系统的实时端到端二分类框架,通过嵌入Self-Attention和我们新颖的Double Branch Cross Attention(DBC-Attention)来增强散射抑制能力。在受控水箱验证条件下,配备Self-Attention或DBC-Attention的StreakNet-Arch优于传统带通滤波方法,并在相同模型规模和复杂度下获得比基于学习的MP网络和CNN更高的F_1分数。在NVIDIA RTX 3060上的实时基准测试显示,其平均成像时间保持恒定(54至84毫秒),与帧数无关,而传统方法呈线性增长(58至1257毫秒)。为促进进一步研究,我们公开了一个包含2,695,168个真实世界水下3D点云数据的条纹管相机图像数据集。更重要的是,我们在南海试验中验证了UCLR系统,对1000米深度、20米范围内的3D目标达到了46毫米的误差精度。源代码和数据详见https://github.com/BestAnHongjun/StreakNet。

计算机视觉与模式识别人工智能
arXiv

基于Riemann不变量的局部特征分解的可压缩Euler方程有限差分替代WENO格式

加权基本无振荡(WENO)格式因其能同时解析间断和在光滑区域保持高阶精度的特性,被广泛用于双曲守恒律。对于双曲系统,WENO过程通常在通过局部特征分解获得的局部特征变量上执行,以避免激波附近的振荡。然而,此类分解往往计算成本较高。本文研究了一种基于Riemann不变量的可压缩Euler方程局部特征分解方法以降低计算成本。我们将WENO过程应用于Riemann不变量的局部特征场,其特征矩阵稀疏,从而可降低计算成本。由于守恒变量与Riemann不变量之间存在非线性关系,难以从守恒变量的单元平均值获得Riemann不变量的单元平均值,因此我们仅关注有限差分替代WENO版本。数值结果充分证明了所提格式的高效性和无振荡特性。

数值分析计算物理学流体动力学
arXiv

SwarmFusion:用群体智能和深度学习革新灾害响应

灾害响应需要在混乱环境中进行快速、自适应的决策。SwarmFusion是一种新型混合框架,将粒子群优化与卷积神经网络相结合,以优化实时资源分配和路径规划。通过处理实时卫星、无人机和传感器数据,SwarmFusion提升了洪水和野火场景中的态势感知和运行效率。使用DisasterSim2025数据集的模拟显示,与基线方法相比,响应时间最多可加快40%,幸存者覆盖率达到90%。这种可扩展的数据驱动方法为时间紧迫的灾害管理提供了变革性解决方案,具有跨多种危机场景的应用潜力。

神经与演化计算机器学习
arXiv

BiTA:面向大语言模型无损加速的双向调优方法

大语言模型(LLMs)在推理过程中通常采用自回归生成方式,这会导致高内存带宽需求并因此延长延迟。为解决这一效率问题,我们提出了无损加速双向调优(BiTA),这是一种通过简化的半自回归生成和草稿验证来加速LLMs的创新方法。受prompt tuning概念的启发,我们采用参数高效的双向调优设计来增强LLMs的半自回归生成能力。通过高效的基于树的解码,模型可以并行执行候选草稿生成和验证,确保在贪婪采样下输出与自回归模型完全相同。BiTA作为一个轻量级插件模块,无需额外辅助模型或显著增加内存成本,即可无缝提升现有LLMs的推理效率。应用所提出的BiTA方法后,LLaMA-2-70B-Chat在MT-Bench基准测试上实现了2.7倍的加速。大量实验证实我们的方法超越了最先进的加速技术。

计算与语言人工智能机器学习
arXiv

基于黑盒访问的大语言模型置信度估计

评估模型响应中的不确定性或置信度,对于判断不仅响应本身乃至整个模型的可信度具有重要意义。本文探讨在仅具备黑盒查询访问权限的情况下,如何估计大语言模型(LLM)响应的置信度。我们提出一个简单可扩展的框架:通过设计新颖特征,并基于这些特征训练可解释模型(即逻辑回归)来估计置信度。实验证明,该框架能有效估计Flan-ul2、Llama-13b、Mistral-7b和GPT-4在四个基准问答任务中的置信度,以及Pegasus-large和BART-large在两个基准摘要任务中的置信度,某些情况下AUROC指标超越基线超过10%。此外,这种可解释方法揭示了可预测置信度的特征,并得出有趣发现:针对某个LLM构建的置信度模型,在给定数据集上可零样本泛化到其他LLM。

计算与语言人工智能机器学习
arXiv

美国东北部阵风预测的不确定性量化:一种证据神经网络与可解释人工智能方法

机器学习算法在减少阵风预测偏差方面显示出潜力,但仍存在对高阵风的低估问题。不确定性量化(UQ)通过识别预测何时可靠或需要谨慎解释来支持这一问题。利用美国东北部61次温带风暴的数据,我们引入证据神经网络(ENN)作为阵风预测中UQ的新方法,该方法利用了天气研究与预报(WRF)模型中的大气变量。可解释人工智能技术表明,关键预测特征导致了更高的不确定性,这与风暴强度和空间阵风梯度密切相关。与WRF相比,ENN表现出47%的改进。

机器学习大气与海洋物理学机器学习 (统计)
arXiv

试验次数在无限时间范围通用效用马尔可夫决策过程中的重要性

通用效用马尔可夫决策过程(GUMDPs)框架通过考虑依赖于给定策略诱导的状态-动作对访问频率的目标函数,对MDPs框架进行了推广。在本研究中,我们首次分析了无限时间范围GUMDPs中试验次数(即随机采样轨迹的数量)的影响。我们证明,与标准MDPs不同,试验次数在无限时间范围GUMDPs中起着关键作用,并且给定策略的预期性能通常取决于试验次数。我们同时考虑了折扣和平均GUMDPs,其中目标函数分别依赖于状态-动作对的折扣访问频率和平均访问频率。首先,我们研究了折扣GUMDPs下的策略评估,证明了GUMDPs有限与无限试验公式之间差异的下界和上界。其次,我们探讨了平均GUMDPs,研究了不同类别的GUMDPs如何影响有限与无限试验公式之间的差异。第三,我们提供了一组实证结果来支持我们的主张,强调了轨迹数量和底层GUMDP结构如何影响策略评估。

机器学习
arXiv

LLaVA-SP:通过视觉空间token增强MLLMs的视觉表示

多模态大语言模型(MLLMs)的架构通常将基于CLIP-ViT的视觉编码器与大语言模型相连接。虽然CLIP-ViT擅长捕捉全局图像特征,但在建模相邻图像块间的局部关系方面表现欠佳,导致视觉表示能力较弱,进而影响MLLMs的细节理解能力。为解决这一问题,我们提出LLaVA-SP,该方法仅在原始视觉token基础上添加六个空间视觉token来增强视觉表示。我们的方法具有三个关键优势:1)我们提出一种新颖的投影器,使用卷积核从ViT图像块特征中提取视觉空间token,模拟两种视觉空间排序方式:"从中心区域到全局"和"从抽象到具体"。然后应用交叉注意力机制融合细粒度视觉信息,丰富整体视觉表示。2)我们提出两种模型变体:LLaVA-SP-Cropping通过渐进裁剪聚焦细节特征,LLaVA-SP-Pooling通过自适应池化捕捉全局语义,使模型能够处理多样化的视觉理解任务。3)大量实验表明,使用LoRA微调的LLaVA-SP在各种多模态基准测试中均取得显著性能提升,在推理延迟几乎相同的情况下,多项任务性能超越最先进的LLaVA-1.5模型。代码和模型已开源:https://github.com/CnFaker/LLaVA-SP。

计算机视觉与模式识别
arXiv

Hypertokens:令牌化LLM中的全息关联记忆

大型语言模型(LLM)展现出卓越的能力,但也存在明显的精度损失问题,本文将其重新定义为信息扩散。这一重新定义将问题从计算精度转移到了信息论通信问题。我们通过引入HDRAM(全息定义随机存取存储器)来解决LLM中的K:V和V:K记忆问题,这是一种将transformer潜在空间视为扩频通道的符号记忆框架。基于hypertokens(整合了经典纠错码(ECC)、全息计算和量子启发搜索的结构化符号代码),HDRAM通过原理性解扩恢复分布式信息。这些相位相干的内存地址支持潜在空间中的高效键值操作和Grover-style搜索。通过将ECC语法与压缩感知和Krylov子空间对齐相结合,HDRAM在不改变架构的情况下显著改善了关联检索,展示了经典-全息-量子启发(CHQ)原理如何强化transformer架构。

机器学习人工智能计算与语言
arXiv

BrainScaleS-2移动系统中的模拟推理演示

我们介绍了基于BrainScaleS-2 ASIC的紧凑型模拟推理引擎——BrainScaleS-2移动系统,并展示了其在医疗心电图数据集分类方面的能力。该ASIC的模拟网络核心被用于执行卷积深度神经网络的乘积累加运算。在系统功耗为5.6W的情况下,我们测得ASIC的总能耗为192uJ,每个心电图患者样本的分类时间为276us。该系统能以(93.7±0.7)%的检测率正确识别出心房颤动患者。

硬件体系结构机器学习神经与演化计算
arXiv

STONet:一种用于模拟微裂缝储层中溶质输运的神经算子

本研究提出了一种新型神经算子——溶质输运算子网络(STONet),用于高效模拟微裂缝多孔介质中的污染物输运过程。STONet的模型架构专为此问题设计,创新性地将增强型DeepONet结构与基于transformer的多头注意力机制相结合,在保持与现有神经算子相当计算开销的同时提升了性能。该模型通过整合不同网络来有效编码异质性特征,并预测浓度场的变化率,从而准确模拟输运过程。训练数据通过随机采样微裂缝分布和施加压力边界条件的有限元(FEM)模拟获得,这些数据涵盖了裂缝密度、方向、开度、长度以及压力驱动流与密度驱动流平衡等多种场景。数值实验表明,经过训练后,STONet能实现准确预测,相对误差通常低于1%。

机器学习计算工程、金融与科学神经与演化计算流体动力学
arXiv

HiT-JEPA:一种用于相似性计算的分层自监督轨迹嵌入框架

城市轨迹数据的表示在有效分析空间移动模式中起着关键作用。尽管已取得显著进展,但设计能够捕捉多样化和互补信息的轨迹表示方法仍是一个开放的研究问题。现有方法难以在单一模型中同时纳入轨迹的细粒度细节和高级摘要,限制了它们兼顾长期依赖关系同时保留局部细微特征的能力。为此,我们提出HiT-JEPA(Hierarchical Interactions of Trajectory Semantics via a Joint Embedding Predictive Architecture),这是一个跨语义抽象层次学习多尺度城市轨迹表示的统一框架。HiT-JEPA采用三层层次结构,逐步捕捉点级细粒度细节、中间模式和高层轨迹抽象,使模型能够在一个连贯结构中整合局部动态和全局语义。在多个真实世界数据集上进行的轨迹相似性计算实验表明,HiT-JEPA的分层设计能产生更丰富的多尺度表示。代码已发布于:https://anonymous.4open.science/r/HiT-JEPA。

机器学习人工智能计算机视觉与模式识别
arXiv

使用深度集成模型在人机交互中测试内分布和外分布数据上的人手分割

可靠的人手检测与分割对于提升人机协作的安全性和促进高级交互至关重要。当前研究主要在内分布(ID)数据下评估人手分割性能,这些数据反映了深度学习(DL)模型的训练数据。然而,这种方法未能解决现实世界人机交互中经常出现的外分布(OOD)场景。在本研究中,我们提出了一种新颖方法,通过在ID数据和更具挑战性的OOD场景下评估预训练DL模型的性能。为了模拟真实的工业场景,我们设计了一个多样化数据集,包含简单和杂乱背景(带有工业工具)、不同数量的人手(0到4只)、以及戴手套和不戴手套的手部。对于OOD场景,我们引入了独特且罕见的情况,如手指交叉手势和快速移动手部导致的运动模糊,以解决认知和随机不确定性。为确保多视角,我们同时使用了安装在操作员头部的第一视角摄像头和静态摄像头来捕捉人机交互的RGB图像。这种方法使我们能够考虑多摄像头视角,同时评估基于现有第一视角数据集和静态摄像头数据集训练的模型性能。对于分割任务,我们使用了一个由UNet和RefineNet作为基础学习器组成的深度集成模型。性能评估采用分割指标和通过预测熵进行的不确定性量化。结果显示,在工业数据集上训练的模型表现优于非工业数据集训练的模型,突出了特定上下文训练的重要性。尽管所有模型在OOD场景下都表现不佳,但在工业数据集上训练的模型展现出明显更好的泛化能力。

计算机视觉与模式识别人机交互机器学习机器人学
arXiv

CoCMT:面向协同感知的高效通信跨模态Transformer

多智能体协同感知通过共享传感信息来协作完成机器人感知任务,从而增强每个智能体的感知能力。该方法已被证明能有效解决传感器缺陷、遮挡和远距离感知等挑战。然而,现有代表性协同感知系统传输的是中间特征图(如BEV representations),其中包含大量非关键信息,导致通信带宽需求较高。为在保持感知能力的同时提升通信效率,我们提出了CoCMT——一个基于对象查询的协作框架,通过选择性提取和传输关键特征来优化通信带宽。在CoCMT中,我们引入了高效查询Transformer(EQFormer)来有效融合多智能体对象查询,并实施协同深度监督以增强阶段间的正向强化,从而提升整体性能。在OPV2V和V2V4Real数据集上的实验表明,CoCMT在显著降低通信需求的同时性能优于现有最佳方法。在V2V4Real上,我们的模型(Top-50对象查询)仅需0.416 Mb带宽,比现有最佳方法减少83倍,同时将AP70指标提升1.1%。这一效率突破使得协同感知能在不牺牲检测精度的前提下,部署于带宽受限的实际环境中。

机器学习人工智能计算机视觉与模式识别机器人学
arXiv

在谱元代码中启用混合精度

混合精度计算有潜力显著降低百亿亿次计算的成本,但在程序中确定何时以及如何实现它可能具有挑战性。在本文中,我们提出了一种借助计算机算术工具、roofline模型和计算机算术技术来启用混合精度的方法论。作为案例研究,我们考虑了Nekbone(计算流体力学(CFD)求解器Nek5000的微型应用)和现代Neko CFD应用。借助Verificarlo工具和计算机算术技术,我们提出了一种解决Nekbone中预处理共轭梯度法停滞问题的策略,并将这些见解应用于实现Neko的混合精度版本。我们通过结合三个维度的指标来评估这些代码的混合精度版本:精度、求解时间和求解能耗。值得注意的是,在MareNostrum 5上,Nekbone的混合精度将求解时间减少了约1.62倍,求解能耗减少了2.43倍,而在实际Neko应用中,时间和能耗的增益高达1.3倍,同时精度与双精度结果相当。

数学软件分布式、并行与集群计算
arXiv

注意力机制总是必需的吗?语音语言识别案例研究

语言识别(LID)是自动语音识别(ASR)领域中的关键预处理步骤,涉及从音频样本中识别所说语言。当代能处理多语言语音的系统要求用户在使用前明确指定一种或多种语言。在多语言环境中,当ASR系统无法理解所说语言时,LID任务起着重要作用,可避免语音识别失败。本研究提出了基于卷积循环神经网络(CRNN)的LID系统,设计用于处理音频样本的梅尔频率倒谱系数(MFCC)特征。此外,我们复现了某些最先进的方法,特别是卷积神经网络(CNN)和基于注意力的卷积循环神经网络(带注意力机制的CRNN),并与我们的CRNN方法进行了对比分析。我们在13种不同的印度语言上进行了全面评估,我们的模型取得了超过98%的分类准确率。该LID模型表现出高性能水平,准确率从97

机器学习计算与语言声音处理音频与语音处理
arXiv

LoRA-Mixer:通过串行注意力路由协调模块化LoRA专家

近期将低秩自适应(LoRA)与专家混合(MoE)相结合以适应大型语言模型(LLMs)多任务的研究仍存在明显局限:它们要么为切换专家替换整个注意力/前馈层,要么添加并行专家分支,降低了参数效率和任务保真度。我们提出LoRA-Mixer,一个集成LoRA专家的模块化轻量级MoE框架。我们的核心创新在于用动态路由的任务特定LoRA专家替换注意力模块输入/输出线性层的投影矩阵。该设计通过利用transformer和状态空间模型(SSMs)固有的线性投影结构,确保与各种基础模型的无缝兼容。该框架支持两种操作范式:(1)通过新颖的硬-软路由策略联合优化LoRA专家和路由机制,或(2)直接部署来自外部存储库的预训练冻结LoRA模块。为了在有限数据下实现稳健的路由器训练,同时确保稳定的路由决策和最大化专家重用,我们引入了自适应专业化平衡损失(SBL),联合优化专家平衡和任务特定对齐。在七个基准数据集(包括MedQA、CoLA、SST-2、GSM8K、ARC-E、ARC-C和HumanEval)上的大量实验证明了LoRA-Mixer的有效性。在GSM8K、HumanEval和MedQA等数据集上,LoRA-Mixer实现了7.61%的显著提升。

机器学习人工智能
arXiv

OMNI-DC:基于多分辨率深度集成的高鲁棒性深度补全方法

深度补全(DC)任务旨在从RGB图像和稀疏深度图预测密集深度图。现有DC方法在新数据集或未见过的稀疏深度模式上泛化能力较差,限制了其实际应用。我们提出OMNI-DC,这是一种具有高鲁棒性的DC模型,能够zero-shot泛化到各种数据集。关键设计是一个新颖的多分辨率深度集成器,使我们的模型能够处理非常稀疏的深度输入。我们还引入了一种新的拉普拉斯损失来建模训练过程中的模糊性。此外,我们使用尺度归一化技术和合成深度模式在多个高质量数据集的混合数据上训练OMNI-DC。在7个数据集上的大量实验表明,相比基线方法有持续改进,误差降低幅度高达43%。

计算机视觉与模式识别
arXiv