我们介绍了第一个将文本嵌入从一个向量空间转换为另一个矢量空间的方法,而无需任何配对数据,编码器或预定义的匹配集。 我们的无监督方法将任何嵌入转化为和从通用的潜在表示(即由柏拉图表示假说推测的通用语义结构)。 我们的翻译在具有不同架构、参数计数和训练数据集的模型对之间实现了高余烃相似性。 将未知嵌入到不同空间中的能力,同时保留其几何形状,对矢量数据库的安全性有严重影响。 只能访问嵌入向量的对手可以提取有关底层文档的敏感信息,足以进行分类和属性推断。
在关于生成式AI的版权诉讼中,原告和被告经常对大型语言模型(LLM)在多大程度上记住原告受保护的表达提出反对。 利用对抗性ML和版权法,我们表明这些两极分化的立场大大简化了记忆和版权之间的关系。 为此,我们利用最近的概率提取技术,从13个开放权重的LLM中提取Books3数据集。 通过许多实验,我们表明,从不同的LLM中提取至少一些书籍的很大一部分是可能的。 这是LLM背诵提取文本的证据;这种记忆内容被复制在模型参数内。 但结果很复杂:记忆的程度因模型和书籍而异。 通过我们的具体实验,我们发现最大的LLM不会记住大多数书籍 - 无论是全部或部分。 然而,我们也发现Llama 3.1 70B记忆了一些书,比如《哈利·波特》和《1984》,几乎完全。 我们讨论了为什么我们的结果对版权案件有重大影响,尽管不是明确有利于任何一方的结果。
模仿学习进行操纵有一个众所周知的数据稀缺问题。 与自然语言和2D计算机视觉不同,没有互联网规模的数据库用于灵巧操作。 一个吸引人的选择是以自我为中心的人类视频,一个被动的可扩展数据源。 然而,现有的大规模数据集,如Ego4D,没有原生手姿势注释,也没有专注于对象操作。 为此,我们使用Apple Vision Pro来收集EgoDex:迄今为止最大和最多样化的灵巧的人操纵数据集。 EgoDex拥有829小时的以自我为中心的视频,在录制时收集了配对的3D手和手指跟踪数据,其中可以使用多个校准相机和设备上的SLAM来精确跟踪每个手的每个关节的姿势。 该数据集涵盖了194个不同的桌面任务中的日常家庭物品的各种不同操作行为,从系鞋带到折叠洗衣。 此外,我们培训和系统地评估数据集上手轨迹预测的模仿学习政策,引入衡量这个日益重要领域的进展的指标和基准。 通过发布这个大规模的数据集,我们希望推动机器人技术、计算机视觉和基础模型的前沿。
使用强化学习(RL)对预训练的大型语言模型(LLM)进行微调通常作为直接策略优化。 这种方法自然受到青睐,因为它有效地改进了预训练的LLM,被视为初始政策。 另一种RL范式,Q-学习方法,在LLM社区中受到的关注要少得多,同时在各种非LLM RL任务中表现出重大成功。 特别是,Q-learning有效性来自其采样效率和离线学习能力,鉴于LLM采样的计算成本很高,这一点尤其有价值。 然而,由于LLM的特殊性,天真地将Q-学习风格的更新应用于模型的日志是无效的。 我们的核心贡献是从Bellman方程中得出理论上的接地损失函数,以使Q-学习方法适应LLM。 为此,我们仔细调整了RL文献的见解,以考虑LLM特定特性,确保日志成为可靠的Q值估计值。 然后,我们使用此损失来构建一个实用的算法,ShiQ for Shifted-Q,它支持离线,令牌明智的学习,同时保持简单的实现。 最后,我们在合成数据和真实世界基准(例如UltraFeedback和BFCL-V3)上评估ShiQ,证明其在单转和多转LLM设置中的有效性
现代人工智能的大部分兴奋是由扩大现有系统导致更好的性能的观察所推动的。 但是,更好的表现是否必然意味着更好的内部表示? 虽然表示乐观主义者认为必须这样做,但本立场文件挑战了这一观点。 我们将通过开放式搜索过程进化的神经网络与通过传统随机梯度下降(SGD)训练的网络进行比较,这些网络可以生成单个图像的简单任务。 这种最小的设置提供了一个独特的优势:每个隐藏神经元的全部功能行为可以很容易地可视化为图像,从而揭示网络的输出行为如何由神经元内部构建神经元。 结果是惊人的:虽然两个网络都产生相同的输出行为,但其内部表示差异很大。 SGD训练的网络表现出一种混乱的形式,我们将其称为断裂纠缠表示(FER)。 有趣的是,进化的网络基本上缺乏FER,甚至接近统一因子表示(UFR)。 在大型模型中,FER可能会降低广义、创造力和(持续)学习等核心模型能力。 因此,理解和减轻FER可能对代表性学习的未来至关重要。
现代人工智能的大部分兴奋是由扩大现有系统导致更好的性能的观察所推动的。 但是,更好的表现是否必然意味着更好的内部表示? 虽然表示乐观主义者认为必须这样做,但本立场文件挑战了这一观点。 我们将通过开放式搜索过程进化的神经网络与通过传统随机梯度下降(SGD)训练的网络进行比较,这些网络可以生成单个图像的简单任务。 这种最小的设置提供了一个独特的优势:每个隐藏神经元的全部功能行为可以很容易地可视化为图像,从而揭示网络的输出行为如何由神经元内部构建神经元。 结果是惊人的:虽然两个网络都产生相同的输出行为,但其内部表示差异很大。 SGD训练的网络表现出一种混乱的形式,我们将其称为断裂纠缠表示(FER)。 有趣的是,进化的网络基本上缺乏FER,甚至接近统一因子表示(UFR)。 在大型模型中,FER可能会降低广义、创造力和(持续)学习等核心模型能力。 因此,理解和减轻FER可能对代表性学习的未来至关重要。
大型语言模型(LLM)在许多应用中都表现出显着的性能,包括通过在回答问题之前产生“思维令牌”的思想链(CoT)技术具有挑战性的推理问题。 虽然现有的理论作品证明具有离散令牌的CoT提高了LLM的能力,但最近关于连续CoT的工作缺乏理论理解,为什么它在各种推理任务中优于离散对应物,例如定向图可到达性,这是一个基本的图形推理问题,包括许多实用的领域应用作为特殊情况。 在本文中,我们证明具有连续CoT的D步骤的双层变压器可以解决定向图可到达性问题,其中D是图的直径,而具有离散CoT的恒定深度变压器的已知结果需要O(n^2)解码步骤,其中n是顶点(D<n)的数量。 在我们的构建中,每个连续思想向量都是一个叠加状态,可以同时编码多个搜索边界(即并行广度优先搜索(BFS),而离散CoT必须选择从叠加状态采样的单个路径,这导致顺序搜索需要更多步骤,并可能被困在本地解决方案中。 我们还进行了广泛的实验,以验证我们的理论结构是否与通过训练动力学获得的经验解决方案一致。 值得注意的是,将多个搜索边界编码为叠加状态在训练连续的CoT中自动出现,没有明确的监督来指导模型同时探索多个路径。
尽管在深度学习模型的优化领域取得了重大进展,其中最先进的开源混合专家模型参数量高达数百亿,但依赖Hessian向量积的方法仍然仅限于在单个GPU上运行,因此甚至无法应用于参数量级在十亿范围内的模型。我们发布了一个软件包HessFormer,它与著名的Transformers包很好地集成,并允许在具有多个GPU的单个节点上进行分布式Hessian向量计算。我们的实现底层是分布式随机Lanczos求积算法,我们将其公开发布。使用这个包,我们研究了最近的Deepseek 700亿参数模型的Hessian谱密度。
奖励模型(RMs)在将大型语言模型(LLMs)与人类价值观对齐方面发挥着关键作用。然而,人类反馈中的噪声偏好会导致奖励泛化错误——一种奖励模型学习虚假相关性或过度拟合噪声偏好的现象,这给RMs的泛化带来了重要挑战。本文系统地分析了偏好对的特征,旨在识别噪声偏好与奖励建模中人类对齐偏好的区别。我们的分析表明,噪声偏好对于RMs来说难以拟合,因为它们会导致剧烈的训练波动和不规则的梯度更新。这些独特的动态表明了识别和排除此类噪声偏好的可行性。经验研究表明,使用在完整偏好数据集(包括大量噪声)上训练的奖励模型优化的策略LLM,其性能低于仅在高质量偏好子集上训练的策略LLM。为了应对这一挑战,我们提出了一种在线协作奖励建模(CRM)框架,通过同行评审和课程学习来实现鲁棒的偏好学习。特别是,CRM维护两个RMs,通过同行评审彼此的数据选择来协作过滤潜在的噪声偏好。课程学习同步了两个模型的能力,减轻了过度差异,以促进同行评审的效用。大量的实验表明,CRM显著增强了RM的泛化能力,在极端40%噪声下,RewardBench上的提升高达9.94分。此外,CRM可以无缝扩展到隐式奖励对齐方法,提供一种鲁棒且通用的对齐策略。
我们提出了一种神经方法,用于估计空间变化的采光选择分布,以改进蒙特卡洛渲染中的重要性采样,尤其是在具有许多光源的复杂场景中。我们的方法使用神经网络来预测每个着色点的采光选择分布,基于局部信息进行训练,通过最小化学习分布与目标分布之间的KL散度,以在线方式进行。为了有效地管理数百或数千个光源,我们将我们的神经方法与光层次技术相结合,其中网络预测集群级别的分布,而现有方法则在集群内采样光源。此外,我们引入了一种残差学习策略,利用现有技术的初始分布,加速训练过程中的收敛。我们的方法在各种具有挑战性的场景中实现了卓越的性能。
模型合并已成为增强大型语言模型的一种有前途的技术,尽管它在大规模预训练中的应用仍然相对未开发。 在本文中,我们介绍了在训练前过程中模型合并技术的全面调查。 通过对密集和混合专家(MoE)架构的广泛实验,从数百万到超过1000亿个参数,我们证明,将训练有恒定学习率的检查点合并不仅实现了显着的性能改进,而且还能够准确预测退火行为。 这些改进既能提高模型开发效率,又大大降低培训成本。 我们对合并策略和超参数的详细消融研究为潜在机制提供了新的见解,同时发现了新的应用。 通过全面的实验分析,我们提供了开源社区实用预培训指南,用于有效的模型合并。
强化学习(RL)在提高大型语言模型(LLM)的推理能力方面取得了显著成功。 最广泛使用的RL方法之一是组相对策略优化(GRPO)<cit.>,以其内存效率和训练DeepSeek-R1成功而闻名。 然而,当一组中所有采样响应不正确(称为全负样本组)时,GRPO会停滞不前,因为它未能更新策略,阻碍了学习进度。 本文的贡献是双重的。 首先,我们提出了一个简单而有效的框架,使用AI反馈在GRPO中引入全负样本组中的响应多样性。 我们还通过程式化模型提供理论分析,展示这种多样化如何改善学习动态。 其次,我们通过经验验证了我们的方法,展示了离线和在线学习环境中各种模型尺寸(7B,14B,32B)的改进性能,包括10个基准测试,包括基础和蒸馏变体。 我们的发现强调,从所有负样本组学习不仅可行,而且有益,从<cit.>推进最近的见解。
在资源受限的设备上部署深度卷积神经网络(CNN)由于其高计算需求和严格的静态架构,带来了重大挑战。 为了克服这些限制,本论文探讨了使CNN能够根据可用的硬件资源动态调整其计算复杂性的方法。 我们引入了自适应的 CNN 架构,能够在运行时扩展其容量,从而有效地平衡性能和资源利用率。 为了实现这种适应性,我们提出了一个结构化的修剪和动态重建方法,在单个CNN模型中创建嵌套子网络。 这种方法允许网络在不进行再培训的情况下动态切换紧凑和全尺寸配置,使其适用于跨不同硬件平台的部署。 在 CIFAR-10 和 Imagenette 数据集上跨多个 CNN 架构(包括 VGG-16、AlexNet、ResNet-20 和 ResNet-56)进行的实验表明,自适应模型在不同计算约束下有效保持甚至增强性能。 我们的研究结果强调,将适应性直接嵌入到 CNN 架构中显著提高了其稳健性和灵活性,为在各种计算环境中高效部署现实世界铺平了道路。
行业规模的推荐系统面临着一个核心挑战:代表具有高基本性的实体,如用户或项目,使用密集的嵌入,这些嵌入必须在培训和推理期间访问。 然而,随着嵌入尺寸的增长,内存限制使存储和访问变得越来越困难。 我们描述了一种轻量级的,可学习的嵌入压缩技术,将密集的嵌入投射到高维,稀疏激活的空间中。 我们的方法专为检索任务而设计,可降低内存需求,同时保持检索性能,可在严格的资源限制下实现可扩展的部署。 我们的结果表明,利用稀疏性是提高大规模推荐者效率的有希望的方法。 我们在https : / /github.com/recombee/CompresSAE上发布代码。
我们通过最优控制理论的视角研究变形金刚,使用连续时间公式中的工具,对培训和建筑设计产生可操作的见解。 该框架提高了现有变形金刚模型的性能,同时提供了理想的理论保证,包括泛化和稳健性。 我们的框架旨在即插即用,实现与已建立的 Transformer 模型的无缝集成,并且只需要对实现进行轻微的更改。 我们对文本生成、情绪分析、图像分类和点云分类等动机的任务进行了7次广泛的实验。 实验结果表明,该框架提高了基线的测试性能,同时提高了参数效率。 在使用 nanoGPT 的字符级文本生成上,我们的框架实现了 46 42 的最终测试损失,证明了对更大模型的可扩展性。 据我们所知,这是第一个将最优控制理论应用于变形金刚的训练和架构的工作。 它为系统,理论驱动的改进提供了新的基础,并超越了昂贵的试错方法。
大型语言模型(LLM)已经展示了非凡的能力,但经常面临挑战,需要复杂的推理任务。 虽然思维链(CoT)促使显着增强了推理,但它不分青红皂白地为所有查询生成冗长的推理步骤,导致大量的计算成本和低效率,特别是对于更简单的输入。 为了解决这个关键问题,我们引入了AdaCoT(Adaptive Chain-of-Thought),这是一个新颖的框架,使LLM能够自适应地决定何时调用CoT。 AdaCoT将自适应推理作为帕累托优化问题,旨在平衡模型性能与与CoT调用相关的成本(频率和计算开销)。 我们提出了一个基于强化学习(RL)的方法,特别是利用近端策略优化(PPO),通过调整惩罚系数来动态控制CoT触发决策边界,从而允许模型根据隐式查询复杂度来确定CoT必要性。 一个关键的技术贡献是选择性损失掩蔽(SLM),旨在抵消多阶段RL训练期间的决定边界坍缩,确保稳健和稳定的自适应触发。 实验结果表明,AdaCoT成功地导航了帕累托边界,大大减少了不需要详细推理的查询的CoT使用。 例如,在我们的生产流量测试组中,AdaCoT将CoT触发率降至3.18%,并在复杂任务中将平均响应令牌减少了69.06。
二进制量化方法,用二进制矩阵取代重量矩阵,用更便宜的添加替换昂贵的乘法,提供了一种计算效率高的方法来解决大型语言模型(LLM)不断增长的计算和存储需求。 然而,严重的量化约束(±1)可能导致显着的准确性下降。 在本文中,我们提出了双二进制因子化(DBF),这是一种新颖的方法,将密集的重量矩阵分解为两个二进制(符号)矩阵的产品,每个矩阵都伴随着缩放向量。 DBF保留了二进制表示的效率优势,同时实现了与最先进的方法竞争或优于最先进的方法的压缩率。 具体来说,在每重量1位的范围内,DBF优于现有的双线性化方法。 在每重量2位的范围内,DBF与QuIP#和QTIP等最佳量化方法竞争。 与大多数现有的压缩技术不同,后者提供有限的压缩水平选择,DBF允许通过调整因子化的中间尺寸来对压缩比进行细粒度控制。 基于这一优势,我们进一步引入了一种算法,用于根据以前开发的通道修剪标准,用于估计DBF的非均匀层压缩比。 代码可查阅:https://github.com/usamec/double_binary
时间序列预测在各个领域起着至关重要的作用,基于频域分析的方法已成为一个重要的分支。 然而,大多数现有的研究都集中在精心设计的模型架构上,并且通常针对有限的数据集量身定制,仍然缺乏普遍性。 此外,独立和相同分布(IID)数据的假设也与时域标签的强相关性相矛盾。 为了解决这些问题,放弃时域监督,我们提出了一种称为跨维频率(X-Freq)损失的纯频域监督方法。 具体来说,基于一种统计现象,我们首先证明时间序列的信息熵高于其光谱熵,这意味着在频域中具有更高的确定性,因此可以提供更好的监督。 其次,傅里叶变换和波流变换分别应用于时间序列的时间维度和通道维度,以捕捉长期和短期的频率变化以及空间配置特征。 第三,预测和目标之间的损失在频域中统一计算。 此外,我们即插即用地将X-Freq整合到多个高级预测模型中,并在14个真实世界的数据集上进行比较。 实验结果表明,如果不对原始架构或超参数进行任何修改,X-Freq可以在短期架构或超参数上将预测性能平均提高3.3,从而展示卓越的通用性和实用性。 该代码将公开发布。
极端天气事件给电力系统带来了越来越大的压力,暴露了纯粹反应反应的局限性,并促使人们需要积极主动的复原力规划。 然而,现有方法往往依赖于简化的不确定性模型,并将主动和被动决策脱钩,忽视了它们的关键相互依存关系。 本文提出了一种新的三级优化框架,该框架集成了主动基础设施投资、时空中断的对抗建模和自适应反应响应。 我们使用构象预测构建高概率、无分布的不确定性集,以捕获复杂和数据冗余的中断模式。 为了解决由此产生的嵌套决策问题,我们通过强大的二元性得出了双级重新计算,并开发了一个可扩展的 Benders 分解算法。 对真实和合成数据的实验表明,我们的方法一贯优于传统的稳健和两阶段方法,实现了更低的最坏情况损失和更有效的资源分配,特别是在严格的操作限制和大规模不确定性的情况下。
虽然在大型数据集上训练的神经网络已经成功地用于描述和预测许多物理现象,但科学家有一种感觉,与传统的科学模型不同,这种关系以简单的数学表达式形式包装,神经网络的发现不能整合到科学知识中。 对 ML 无法产生人类可以理解的关系的批评者已经融合了“可解释性”的概念,因为它与更传统的科学形式相去甚远。 正如对可解释性的兴趣日益浓厚所表明的那样,物理科学的研究人员不仅寻求预测模型,而且还寻求揭示支配兴趣系统的基本原则。 然而,文献中缺乏对可解释性的定义及其在科学中的确切作用的清晰度。 在这项工作中,我们认为方程发现和符号回归的研究人员倾向于将易感性的概念与可解释性混为一谈。 我们回顾了来自科学界外部的可解释ML的关键论文,并认为,尽管他们提出的定义和方法可以为SciML的解释性问题提供信息,但它们不足以实现这一新目的。 注意到这些缺陷,我们提出了物理科学可解释性的操作定义。 我们的可解释性概念强调对数学原理的理解。 虽然看起来是无害的,但这种对机制的强调表明,狭隘往往是不必要的。 它还质疑在缺乏先验知识时可解释的科学发现的可能性。 我们相信,对SciML可解释性的准确和哲学上知情的定义将有助于将研究工作集中在实现数据驱动的科学未来的最重大障碍上。
大型语言模型(LLM)的最新进展显着改善了文本到语音(TTS)系统,增强了对语音风格,自然性和情感表达的控制,这使TTS系统更接近人类水平的性能。 虽然平均意见评分(MOS)仍然是TTS系统评估的标准,但它受到主观性,环境不一致和有限的可解释性的影响。 现有的评估数据集也缺乏多维设计,往往忽略了说话风格、语境多样性和陷阱话语等因素,这在中国TTS评价中尤为明显。 为了应对这些挑战,我们引入了音频图灵测试(ATT),这是一个多维的中文语料库数据集ATT-Corpus与一个简单的图灵测试启发的评估协议。 ATT没有依赖复杂的MOS刻度或直接的模型比较,而是要求评估人员判断声音是否听起来是人类的声音。 这种简化降低了评级偏差,提高了评估稳健性。 为了进一步支持快速模型开发,我们还将Qwen2-Audio-Instruct与人工判断数据作为自动评估的自动ATT进行微调。 实验结果表明,ATT通过其多维设计有效地区分了特定能力维度的模型。 Auto-ATT还证明了与人类评估的紧密配合,证实了其作为快速可靠的评估工具的价值。 白盒 ATT-Corpus 和 Auto-ATT 可以在 ATT Hugging Face Collection (https : / /huggingface.co/collections/meituan/audio-turing-test-6824463203648faeaf38a4)中找到。
量子计算(QC)和机器学习(ML)的快速发展引发了人们的兴趣,推动了量子机器学习(QML)算法的广泛探索,以应对广泛的复杂挑战。 高性能QML模型的开发需要专家级的专业知识,对QML的广泛采用提出了关键挑战。 关键障碍包括设计有效的数据编码策略和参数化量子电路,这两种电路对QML模型的性能都至关重要。 此外,测量过程通常是被忽视的 - 现有的QML模型采用的预定义测量方案可能不符合目标问题的具体要求。 我们提出了一个创新框架,使量子系统的可观察性,即Hermitian矩阵可训练。 这种方法采用端到端的可微分学习框架,同时优化用于编程参数化可观测值和标准量子电路参数的神经网络。 值得注意的是,量子可观测参数由神经网络动态编程,允许可观测数据根据输入数据流实时调整。 通过数值模拟,我们证明所提出的方法有效地在可变量子电路中动态地编程可观测,与现有方法相比取得了卓越的结果。 值得注意的是,它提供了增强的性能指标,例如更高的分类精度,从而显著提高了QML模型的整体有效性。
协同过滤(CF)通过将历史用户-物品交互的信息编码到密集的ID嵌入表,从而实现大规模的推荐系统。 然而,随着嵌入表的增长,封闭式解决方案变得不切实际,通常需要使用迷你批次梯度下降进行训练。 尽管在设计用于训练CF模型的损耗函数方面进行了广泛的工作,但我们认为这些管道的一个核心组成部分被严重忽视:重量衰减。 获得高性能模型通常需要仔细调整重量衰减,无论损失如何,但其必要性尚不清楚。 在这项工作中,我们质疑为什么重量衰减在CF管道中至关重要,以及它如何影响训练。 通过理论和实证分析,我们惊奇地发现,重量衰减的主要功能是将流行信息编码到嵌入向量的大小。 此外,我们发现调整重量衰减是一种粗糙的非线性旋钮,可以影响对流行或不受欢迎的项目的偏好。 基于这些发现,我们提出了用于嵌入Magnitudes的Pularity-awaRe初始化策略,这是一种简单而有效的解决方案,以简化高性能CF模型的训练。 PRISM预先编码通常通过重量衰减学到的流行信息,消除了其必要性。 我们的实验表明,PRISM将性能提高了高达4.77次的训练时间,达到38.48,此外,我们将PRISM参数化,以调节初始化强度,提供具有成本效益和有意义的策略,以减轻流行偏差。
多模态对比学习作为一种自我监督的表示学习技术,在基础模型训练(如CLIP <cit.>)方面取得了巨大成功。 在本文中,我们研究从多模态对比学习中学习表示的理论属性,超越线性表示和特定数据分布。 我们的分析表明,通过温度优化,多模态对比学习不仅可以最大化模式之间的相互信息,还可以适应数据的内在维度,而数据的内部维度可以远低于表示向量的用户指定维度。 合成和真实世界数据集的实验展示了对比学习学习低维和信息化表示的能力,弥合了理论见解和实践表现。
在过去的几十年里,人们对研究高维数据中的低维结构产生了浓厚的兴趣。 统计因子模型 - 即低等级加上对角线协方差结构 - 为建模此类结构提供了强大的框架。 然而,用于拟合统计因子模型的传统方法,如主成分分析(PCA)或假设数据为高斯的最大可能性估计,对观察到的数据中的重尾和异常值高度敏感。 在本文中,我们提出了一种新的期望最大化(EM)算法,用于稳健拟合统计因子模型。 我们的方法基于Tyler对椭圆分布的散点矩阵的M估计器,包括解决Tyler的最大可能性估计问题,同时施加结构约束,强制执行低等级加对角协方差结构。 我们介绍了合成和真实示例的数值实验,展示了我们在非均匀噪声和子空间恢复中到达方向估计方法的稳健性。