Recent work has shown that training loss scales as a power law with both model size and the number of tokens, and that achieving compute-optimal models requires scaling model size and token count together. However, these scaling laws assume an infinite supply of data and apply primarily in compute-bound settings. As modern large language models increasingly rely on massive internet-scale datasets, the assumption that they are compute-bound is becoming less valid. This shift highlights the need for architectures that prioritize token efficiency. In this work, we investigate the use of the 2-simplicial Transformer, an architecture that generalizes standard dot-product attention to trilinear functions through an efficient Triton kernel implementation. We demonstrate that the 2-simplicial Transformer achieves better token efficiency than standard Transformers: for a fixed token budget, similarly sized models outperform their dot-product counterparts on tasks involving mathematics, coding, reasoning, and logic. We quantify these gains by demonstrating that 2-simplicial attention changes the exponent in the scaling laws for knowledge and reasoning tasks compared to dot product attention.
Are Large Language Models (LLMs) a new form of strategic intelligence, able to reason about goals in competitive settings? We present compelling supporting evidence. The Iterated Prisoner's Dilemma (IPD) has long served as a model for studying decision-making. We conduct the first ever series of evolutionary IPD tournaments, pitting canonical strategies (e.g., Tit-for-Tat, Grim Trigger) against agents from the leading frontier AI companies OpenAI, Google, and Anthropic. By varying the termination probability in each tournament (the "shadow of the future"), we introduce complexity and chance, confounding memorisation. Our results show that LLMs are highly competitive, consistently surviving and sometimes even proliferating in these complex ecosystems. Furthermore, they exhibit distinctive and persistent "strategic fingerprints": Google's Gemini models proved strategically ruthless, exploiting cooperative opponents and retaliating against defectors, while OpenAI's models remained highly cooperative, a trait that proved catastrophic in hostile environments. Anthropic's Claude emerged as the most forgiving reciprocator, showing remarkable willingness to restore cooperation even after being exploited or successfully defecting. Analysis of nearly 32,000 prose rationales provided by the models reveals that they actively reason about both the time horizon and their opponent's likely strategy, and we demonstrate that this reasoning is instrumental to their decisions. This work connects classic game theory with machine psychology, offering a rich and granular view of algorithmic decision-making under uncertainty.
AI research agents are demonstrating great potential to accelerate scientific progress by automating the design, implementation, and training of machine learning models. We focus on methods for improving agents' performance on MLE-bench, a challenging benchmark where agents compete in Kaggle competitions to solve real-world machine learning problems. We formalize AI research agents as search policies that navigate a space of candidate solutions, iteratively modifying them using operators. By designing and systematically varying different operator sets and search policies (Greedy, MCTS, Evolutionary), we show that their interplay is critical for achieving high performance. Our best pairing of search strategy and operator set achieves a state-of-the-art result on MLE-bench lite, increasing the success rate of achieving a Kaggle medal from 39.6
Transcending human cognitive limitations represents a critical frontier in LLM training. Proprietary agentic systems like DeepResearch have demonstrated superhuman capabilities on extremely complex information-seeking benchmarks such as BrowseComp, a feat previously unattainable. We posit that their success hinges on a sophisticated reasoning pattern absent in open-source models: the ability to systematically reduce extreme uncertainty when navigating vast information landscapes. Based on this insight, we introduce WebSailor, a complete post-training methodology designed to instill this crucial capability. Our approach involves generating novel, high-uncertainty tasks through structured sampling and information obfuscation, RFT cold start, and an efficient agentic RL training algorithm, Duplicating Sampling Policy Optimization (DUPO). With this integrated pipeline, WebSailor significantly outperforms all opensource agents in complex information-seeking tasks, matching proprietary agents' performance and closing the capability gap.
Dense 3D scene reconstruction from an ordered sequence or unordered image collections is a critical step when bringing research in computer vision into practical scenarios. Following the paradigm introduced by DUSt3R, which unifies an image pair densely into a shared coordinate system, subsequent methods maintain an implicit memory to achieve dense 3D reconstruction from more images. However, such implicit memory is limited in capacity and may suffer from information loss of earlier frames. We propose Point3R, an online framework targeting dense streaming 3D reconstruction. To be specific, we maintain an explicit spatial pointer memory directly associated with the 3D structure of the current scene. Each pointer in this memory is assigned a specific 3D position and aggregates scene information nearby in the global coordinate system into a changing spatial feature. Information extracted from the latest frame interacts explicitly with this pointer memory, enabling dense integration of the current observation into the global coordinate system. We design a 3D hierarchical position embedding to promote this interaction and design a simple yet effective fusion mechanism to ensure that our pointer memory is uniform and efficient. Our method achieves competitive or state-of-the-art performance on various tasks with low training costs. Code is available at: https://github.com/YkiWu/Point3R.
本文提出StreakNet-Arch,这是一个基于我们自主研发的水下载体LiDAR-Radar(UCLR)系统的实时端到端二分类框架,通过嵌入Self-Attention和我们新颖的Double Branch Cross Attention(DBC-Attention)来增强散射抑制能力。在受控水箱验证条件下,配备Self-Attention或DBC-Attention的StreakNet-Arch优于传统带通滤波方法,并在相同模型规模和复杂度下获得比基于学习的MP网络和CNN更高的F_1分数。在NVIDIA RTX 3060上的实时基准测试显示,其平均成像时间保持恒定(54至84毫秒),与帧数无关,而传统方法呈线性增长(58至1257毫秒)。为促进进一步研究,我们公开了一个包含2,695,168个真实世界水下3D点云数据的条纹管相机图像数据集。更重要的是,我们在南海试验中验证了UCLR系统,对1000米深度、20米范围内的3D目标达到了46毫米的误差精度。源代码和数据详见https://github.com/BestAnHongjun/StreakNet。
大语言模型(LLMs)在推理过程中通常采用自回归生成方式,这会导致高内存带宽需求并因此延长延迟。为解决这一效率问题,我们提出了无损加速双向调优(BiTA),这是一种通过简化的半自回归生成和草稿验证来加速LLMs的创新方法。受prompt tuning概念的启发,我们采用参数高效的双向调优设计来增强LLMs的半自回归生成能力。通过高效的基于树的解码,模型可以并行执行候选草稿生成和验证,确保在贪婪采样下输出与自回归模型完全相同。BiTA作为一个轻量级插件模块,无需额外辅助模型或显著增加内存成本,即可无缝提升现有LLMs的推理效率。应用所提出的BiTA方法后,LLaMA-2-70B-Chat在MT-Bench基准测试上实现了2.7倍的加速。大量实验证实我们的方法超越了最先进的加速技术。
评估模型响应中的不确定性或置信度,对于判断不仅响应本身乃至整个模型的可信度具有重要意义。本文探讨在仅具备黑盒查询访问权限的情况下,如何估计大语言模型(LLM)响应的置信度。我们提出一个简单可扩展的框架:通过设计新颖特征,并基于这些特征训练可解释模型(即逻辑回归)来估计置信度。实验证明,该框架能有效估计Flan-ul2、Llama-13b、Mistral-7b和GPT-4在四个基准问答任务中的置信度,以及Pegasus-large和BART-large在两个基准摘要任务中的置信度,某些情况下AUROC指标超越基线超过10%。此外,这种可解释方法揭示了可预测置信度的特征,并得出有趣发现:针对某个LLM构建的置信度模型,在给定数据集上可零样本泛化到其他LLM。
大型语言模型(LLM)展现出卓越的能力,但也存在明显的精度损失问题,本文将其重新定义为信息扩散。这一重新定义将问题从计算精度转移到了信息论通信问题。我们通过引入HDRAM(全息定义随机存取存储器)来解决LLM中的K:V和V:K记忆问题,这是一种将transformer潜在空间视为扩频通道的符号记忆框架。基于hypertokens(整合了经典纠错码(ECC)、全息计算和量子启发搜索的结构化符号代码),HDRAM通过原理性解扩恢复分布式信息。这些相位相干的内存地址支持潜在空间中的高效键值操作和Grover-style搜索。通过将ECC语法与压缩感知和Krylov子空间对齐相结合,HDRAM在不改变架构的情况下显著改善了关联检索,展示了经典-全息-量子启发(CHQ)原理如何强化transformer架构。
城市轨迹数据的表示在有效分析空间移动模式中起着关键作用。尽管已取得显著进展,但设计能够捕捉多样化和互补信息的轨迹表示方法仍是一个开放的研究问题。现有方法难以在单一模型中同时纳入轨迹的细粒度细节和高级摘要,限制了它们兼顾长期依赖关系同时保留局部细微特征的能力。为此,我们提出HiT-JEPA(Hierarchical Interactions of Trajectory Semantics via a Joint Embedding Predictive Architecture),这是一个跨语义抽象层次学习多尺度城市轨迹表示的统一框架。HiT-JEPA采用三层层次结构,逐步捕捉点级细粒度细节、中间模式和高层轨迹抽象,使模型能够在一个连贯结构中整合局部动态和全局语义。在多个真实世界数据集上进行的轨迹相似性计算实验表明,HiT-JEPA的分层设计能产生更丰富的多尺度表示。代码已发布于:https://anonymous.4open.science/r/HiT-JEPA。
多智能体协同感知通过共享传感信息来协作完成机器人感知任务,从而增强每个智能体的感知能力。该方法已被证明能有效解决传感器缺陷、遮挡和远距离感知等挑战。然而,现有代表性协同感知系统传输的是中间特征图(如BEV representations),其中包含大量非关键信息,导致通信带宽需求较高。为在保持感知能力的同时提升通信效率,我们提出了CoCMT——一个基于对象查询的协作框架,通过选择性提取和传输关键特征来优化通信带宽。在CoCMT中,我们引入了高效查询Transformer(EQFormer)来有效融合多智能体对象查询,并实施协同深度监督以增强阶段间的正向强化,从而提升整体性能。在OPV2V和V2V4Real数据集上的实验表明,CoCMT在显著降低通信需求的同时性能优于现有最佳方法。在V2V4Real上,我们的模型(Top-50对象查询)仅需0.416 Mb带宽,比现有最佳方法减少83倍,同时将AP70指标提升1.1%。这一效率突破使得协同感知能在不牺牲检测精度的前提下,部署于带宽受限的实际环境中。
近期将低秩自适应(LoRA)与专家混合(MoE)相结合以适应大型语言模型(LLMs)多任务的研究仍存在明显局限:它们要么为切换专家替换整个注意力/前馈层,要么添加并行专家分支,降低了参数效率和任务保真度。我们提出LoRA-Mixer,一个集成LoRA专家的模块化轻量级MoE框架。我们的核心创新在于用动态路由的任务特定LoRA专家替换注意力模块输入/输出线性层的投影矩阵。该设计通过利用transformer和状态空间模型(SSMs)固有的线性投影结构,确保与各种基础模型的无缝兼容。该框架支持两种操作范式:(1)通过新颖的硬-软路由策略联合优化LoRA专家和路由机制,或(2)直接部署来自外部存储库的预训练冻结LoRA模块。为了在有限数据下实现稳健的路由器训练,同时确保稳定的路由决策和最大化专家重用,我们引入了自适应专业化平衡损失(SBL),联合优化专家平衡和任务特定对齐。在七个基准数据集(包括MedQA、CoLA、SST-2、GSM8K、ARC-E、ARC-C和HumanEval)上的大量实验证明了LoRA-Mixer的有效性。在GSM8K、HumanEval和MedQA等数据集上,LoRA-Mixer实现了7.61%的显著提升。
在图形用户界面(GUI)中定位自然语言查询面临着独特挑战,包括视觉元素的多样性、空间杂乱性以及语言的歧义性。本文提出DiMo-GUI,一种无需训练的GUI定位框架,采用两大核心策略:动态视觉定位和模态感知优化。与传统将GUI视为单一图像不同,我们的方法将输入分割为文本元素和图标元素,使模型能够使用通用视觉语言模型对各模态进行独立推理。当预测存在歧义或错误时,DiMo-GUI通过生成以模型初始预测为中心的候选聚焦区域来动态调整注意力,并逐步放大子区域以优化定位结果。这种分层精炼过程无需额外训练或标注即可消除视觉拥挤布局的歧义。我们在标准GUI定位基准上评估了该方法,结果表明相较于基线推理流程取得了持续改进,凸显了模态分离与区域聚焦推理相结合的有效性。
图分类旨在根据图的结构和属性特征对其进行分类,在社交网络分析和生物信息学等多个领域具有广泛应用。在解决该任务的方法中,基于模式(即子图)的方法具有良好的可解释性,因为用于分类的模式可以直接解释。识别有意义模式的常规方法是使用质量度量,即评估每个模式判别能力的函数。然而,文献中提出了数十种此类度量,难以针对特定应用选择最合适的度量。目前仅有少量综述尝试通过比较这些度量提供见解,且没有专门针对图数据的分析。这通常导致广泛使用的度量被系统性地采用,而缺乏全面评估。为解决该问题,我们对文献中的38种质量度量进行了比较分析,基于四种数学特性对其进行理论表征。我们利用公开数据集构建基准测试,并提出建立模式黄金标准排序的方法。通过这些资源,我们在模式排序和分类性能两方面对度量进行了实证比较。此外,我们提出基于聚类的预处理步骤,通过将出现在相同图中的模式分组来提升分类性能。实验结果表明该步骤能有效减少待处理模式数量,同时保持可比性能。我们还发现文献中广泛使用的某些流行度量并未取得最佳效果。
3D头部风格化技术将真实面部特征转化为艺术化表征,可显著提升游戏和虚拟现实应用中的用户参与度。尽管3D感知生成器已取得重大进展,但现有3D风格化方法大多仅能提供近正面视角,且难以保持原始主体的独特身份特征,常导致输出结果缺乏多样性和个性。本文通过利用PanoHead模型合成360度全方位视角图像,解决了这些挑战。我们提出了一种新颖框架,采用负对数似然蒸馏(LD)来增强身份保持能力并提升风格化质量。通过在3D GAN架构中集成多视角网格分数和镜像梯度,并引入分数排序加权技术,我们的方法实现了显著的定性和定量改进。研究成果不仅推进了3D头部风格化的技术水平,还为扩散模型与GAN之间的有效蒸馏过程提供了重要见解,特别关注身份保持这一关键问题。更多可视化结果请访问https://three-bee.github.io/head_stylization。
二尖瓣反流是最常见的心脏疾病之一。四维超声已成为评估动态瓣膜形态的主要成像方式。然而,由于相位标注有限、运动伪影严重和成像质量差,四维二尖瓣(MV)分析仍然具有挑战性。现有方法缺乏相位间依赖性,阻碍了四维MV分析。为填补这一空白,我们提出了一种运动-拓扑引导的一致性网络(MTCNet),用于半监督学习(SSL)中精确的四维MV超声分割。MTCNet仅需稀疏的舒张末期和收缩末期标注。首先,我们设计了一种跨相位运动引导的一致性学习策略,利用双向注意力记忆库传播时空特征,使MTCNet在相位内和相位间均能实现优异性能。其次,我们提出了一种新颖的拓扑引导相关性正则化方法,通过探索物理先验知识保持解剖合理性。因此,MTCNet能有效利用标注和未标注相位间的结构对应性。在首个最大的四维MV数据集(来自160名患者的1408个相位)上的广泛评估表明,MTCNet相比其他先进方法具有更优的跨相位一致性(Dice: 87.30
高效视觉指令微调(EVIT)旨在以最小计算开销使多模态大语言模型(MLLMs)适应下游任务。然而随着任务多样性和复杂性增加,EVIT在解决数据冲突方面面临重大挑战。为克服这一局限,我们提出双低秩适应(Dual-LoRA),这是一个从整体到局部的框架,通过双重结构优化增强适配器解决数据冲突的能力。具体而言,我们利用两个子空间:用于稳定保留整体知识的技能空间,以及局部激活整体知识的秩校正任务空间。此外,我们引入视觉线索增强(VCE),这是一个多级局部特征聚合模块,旨在通过局部细节丰富视觉-语言投影。我们的方法在内存和时间上都很高效,仅需标准LoRA方法(注入查询和值投影层)1.16倍的推理时间,且只需4专家LoRA-MoE 73%的推理时间。在各种下游任务和通用MLLM基准上的大量实验验证了我们所提方法的有效性。
在真实的自动驾驶应用中,环境干扰如传感器数据噪声、各种光照条件、挑战性天气和外部对抗性扰动是不可避免的。现有研究和测试表明,这些干扰会严重影响车辆的感知能力和性能,其中一个主要问题是误报检测,即不真实存在或出现在错误位置的幽灵物体(如不存在的车辆)。传统的导航方法倾向于为避免所有检测到的物体以确保安全,然而,避免幽灵物体可能会导致车辆进入更危险的情况,如在高速公路上突然刹车。考虑到各种干扰类型,从感知层面解决这一问题较为困难。一个潜在的解决方案是通过整个场景中的关系学习来检测幽灵,并开发一个集成的端到端导航系统。我们的基本逻辑是,场景中所有车辆的行为都受到其邻居的影响,正常车辆的行为是合乎逻辑的,而幽灵车辆则不是。通过学习周围车辆的时空关系,为每个检测到的车辆学习信息可靠性表示,然后开发一个机器人导航网络。与现有工作相比,我们鼓励网络学习如何表示可靠性以及如何自行聚合所有带有不确定性的信息,从而提高效率和泛化能力。据作者所知,本文首次提出了使用图关系学习在存在幽灵车辆的情况下实现端到端鲁棒导航的工作。在CARLA平台上的仿真结果证明了所提方法在各种场景下的可行性和有效性。
我们基于Spivak和Kent创建的ontology logs(ologs)理论,定义了接线图的概念。在本文中,接线图是指有限的有向标记图,其标记对应olog中的类型,也可解释为自主系统中传感器的读数。因此,接线图可作为自主系统形成抽象概念的框架。我们证明骨架接线图的底层图构成一个范畴,这使得骨架接线图可以同时运用图论和范畴论的技术进行比较和操作。我们还通过使用接线图特有的操作,将图编辑距离的定义扩展到接线图情形,从而在所有骨架接线图的集合上得到一个度量。最后,我们给出一个计算两个由接线图表示的概念之间距离的扩展示例,并解释如何将我们的框架应用于任何应用领域。
图神经网络(GNNs)已成为从图结构数据中学习以实现推荐的最先进方法。然而,现有大多数基于GNN的推荐方法都聚焦于在预定义图上优化模型结构和学习策略,忽视了图构建阶段的重要性。早期的图构建工作通常依赖特定规则或众包,这些方法要么过于简单,要么过于劳动密集型。鉴于大型语言模型(LLMs)具有丰富的开放世界知识和卓越的推理能力,近期研究开始利用LLMs来自动化图构建。然而,这些方法普遍存在两个局限:(1)缺乏全局视角(如忽略上下文信息);(2)构建效率低下。为此,我们提出了AutoGraph,一个基于LLMs的自动图构建推荐框架。具体而言,我们首先使用LLMs推断用户偏好和物品知识,并将其编码为语义向量。接着,我们采用向量量化从语义向量中提取潜在因子。这些潜在因子随后作为额外节点被整合,连接用户/物品节点,从而形成具有深度全局视角语义的图结构。我们进一步设计了基于元路径的消息聚合机制,以有效聚合语义和协同信息。该框架与模型无关,可兼容不同的骨干模型。在三个真实数据集上的大量实验表明,与现有基线方法相比,AutoGraph具有显著的效果和效率优势。我们已在华为广告平台部署AutoGraph,并实现了2.69%的效果提升。
本文提出了"深度诅咒"的概念,用以解释和解决现代大语言模型(LLM)中近半数层效果不如预期的问题。我们首先在Llama、Mistral、DeepSeek和Qwen等主流LLM家族中广泛验证了这一现象的存在。通过理论和实证分析,我们发现LLM深层效果不佳的根本原因是广泛使用的Pre-Layer Normalization (Pre-LN)。虽然Pre-LN能稳定Transformer LLM的训练,但其输出方差会随模型深度呈指数增长,这导致深层Transformer块的导数成为单位矩阵,从而几乎无法为训练做出贡献。为解决这一问题,我们提出了LayerNorm Scaling (LNS)方法,通过将层归一化输出的方差按深度的平方根倒数进行缩放。这一简单修改缓解了深层Transformer层的输出方差爆炸问题,提高了它们的贡献度。在多种模型规模(130M到7B)上的实验表明,LNS在提升LLM预训练性能方面始终优于以往的归一化和缩放技术。此外,这种改进能无缝迁移到监督微调阶段。所有这些提升都归因于LayerNorm Scaling使深层在训练过程中能更有效地发挥作用。我们的代码已开源:\href{https://github.com/lmsdss/LayerNorm-Scaling}{LayerNorm-Scaling}。
目标检测系统必须可靠地感知感兴趣对象,同时不过度自信,以确保在动态环境中做出安全决策。基于分布外(out-of-distribution, OoD)检测的过滤技术通常作为额外保障,用于过滤由新对象过度自信引起的幻觉。然而,在现有OoD基准下评估YOLO系列检测器及其过滤器往往导致性能不尽如人意。本文研究了性能瓶颈的根本原因,并提出了一种从根本上提升性能的方法。我们的第一个贡献是对所有现有评估结果的校准:尽管现有OoD基准数据集中的图像声称不包含分布内(in-distribution, ID)类别的对象(即训练数据集中定义的类别),但约13
随着Diffusion Models展现出优异的性能,学界已投入大量努力来提升其可控性。然而,如何训练Diffusion Models获得解耦的潜在空间,以及如何在采样过程中自然地融入解耦条件,这些问题尚未得到充分探索。本文提出了一种用于Diffusion Models特征解耦的训练框架(FDiff)。我们进一步提出了两种采样方法,既能提升模型生成的真实性,又能增强可控性。具体而言,我们训练基于两种潜在特征(空间内容掩码和平坦风格嵌入)的Diffusion Models。我们利用Diffusion Models去噪过程的归纳偏置,将姿态/布局信息编码到内容特征中,将语义/风格信息编码到风格特征中。关于采样方法,我们首先通过打破条件独立性假设来推广Composable Diffusion Models(GCDM),允许条件输入之间存在一定依赖关系,实验证明这能有效提升生成真实性。其次,我们提出了针对内容和风格特征的时间步依赖的权重调度方法以进一步提升性能。在图像编辑和图像转换任务中,我们观察到所提方法相比现有方法具有更好的可控性。
当今的多语言大语言模型(LLMs)可能无法为其菲律宾用户提供文化上恰当且相关的响应。我们介绍了Kalahi,这是一个由菲律宾母语者合作创建的文化LLM评估套件。它包含150个高质量、手工制作且细致的提示词,用于测试LLMs生成与菲律宾共享文化知识和价值观相关的内容的能力。LLM在Kalahi中的优异表现表明模型能够生成类似于普通菲律宾人在特定情境下会说的话或做的事。我们在支持多语言和菲律宾语的LLMs上进行了实验。结果表明,虽然对菲律宾人来说很简单,但Kalahi对LLMs具有挑战性,表现最佳的模型仅能回答46.0%的问题。
预训练的大语言模型(LLM)在执行零样本任务(包括时间序列预测)方面表现出惊人的有效性。然而,由于模型的复杂性,理解这些能力背后的机制仍然极具挑战性。我们研究了LLM推断动力系统行为的能力,这些系统的演化遵循具有物理意义的控制原理。研究结果表明,主要在文本上训练的语言模型LLaMA 2,无需微调或提示工程就能准确预测动力系统的时间序列。此外,学习到的物理规则准确性随着输入上下文窗口长度的增加而提高,揭示了一种上下文版本的神经缩放定律。在此过程中,我们提出了一种灵活高效的算法,可直接从LLM中提取多位数的概率密度函数。