活 水 快 报
用 AI 跟踪日新月异的 AI 领域进展

数字福利欺诈检测与荷兰SyRI判决
2020年,荷兰法院就一个名为Systeem Risico Indicatie(SyRI)的数字福利欺诈检测系统案件作出判决。法院裁定SyRI立法不合法,因为它不符合《欧洲人权公约》规定的隐私权。在本文中,我们分析了该判决及其影响。此裁决是法院因侵犯隐私权而宣布福利欺诈检测系统无效的首批判决之一。我们表明该判决的直接影响有限。该判决对自动化欺诈检测系统整体论述不多,因为它仅限于案件的具体情况。尽管如此,该判决仍然具有重要意义。该判决提醒政策制定者,欺诈检测必须以尊重数据保护原则和隐私权的方式进行。该判决还确认了在使用个人数据时透明度的重要性。

在可扩展世界模型中训练智能体
世界模型从视频中学习通用知识,并在想象中模拟经验来训练行为,为智能体提供了一条通向智能的路径。然而,先前世界模型无法准确预测复杂环境中的物体交互。我们介绍了Dreamer 4,这是一个可扩展的智能体,通过在快速准确的世界模型内部进行强化学习来学习解决控制任务。在复杂的视频游戏Minecraft中,该世界模型准确预测了物体交互和游戏机制,大幅超越了先前世界模型。通过捷径强制目标和高效的transformer架构,世界模型在单个GPU上实现了实时交互推理。此外,世界模型仅从少量数据中学习通用的动作条件化,使其能够从多样化的未标记视频中提取大部分知识。我们提出了仅从离线数据在Minecraft中获取钻石的挑战,这与机器人等实际应用相一致,在这些应用中从环境交互中学习可能不安全且缓慢。该任务需要从原始像素中选择超过20,000个鼠标和键盘动作序列。通过在想象中学习行为,Dreamer 4成为首个纯粹从离线数据、无需环境交互就在Minecraft中获得钻石的智能体。我们的工作为想象训练提供了一个可扩展的方案,标志着向智能体迈出了一步。

SimpleFold:蛋白质折叠比你想象的更简单
蛋白质折叠模型通常通过将领域知识整合到架构块和训练流程中,取得了突破性成果。然而,鉴于生成模型在不同但相关问题上取得的成功,很自然地会质疑这些架构设计是否是构建高性能模型的必要条件。在本文中,我们介绍了SimpleFold,这是第一个基于流匹配的蛋白质折叠模型,仅使用通用transformer块。蛋白质折叠模型通常采用计算昂贵的模块,涉及三角更新、显式对表示或为该特定领域定制的多个训练目标。相反,SimpleFold采用具有自适应层的标准transformer块,并通过生成流匹配目标以及额外的结构项进行训练。我们将SimpleFold扩展到30亿参数,并在约900万个蒸馏蛋白质结构以及实验性PDB数据上进行训练。在标准折叠基准测试中,SimpleFold-3B相比最先进的基线模型实现了有竞争力的性能,此外SimpleFold在集成预测方面表现出强大性能,这对于通过确定性重建目标训练的模型通常很困难。由于其通用架构,SimpleFold在消费级硬件上的部署和推理显示出高效性。SimpleFold挑战了蛋白质折叠中对复杂领域特定架构设计的依赖,为未来进展开辟了替代设计空间。

意见可能不正确!我们的观点:论数据保护法中的准确性原则
与世界上大多数数据隐私法一样,GDPR包含了一项准确性原则。原则上,数据控制者必须确保其使用的个人数据是准确的。有人认为准确性原则不适用于以关于数据主体的意见形式存在的个人数据。然而,我们从实证法的角度论证,准确性原则确实适用于意见。我们进一步从规范角度论证,准确性原则应当适用于意见。

龙宝宝:Transformer与脑模型之间的缺失环节
自约翰·冯·诺依曼和阿兰·图灵以来,计算系统与大脑之间的关系一直是理论先驱者的研究动机。均匀的、无标度的生物网络(如大脑)具有强大的特性,包括随时间推移的泛化能力,这是机器学习在通往通用推理模型道路上的主要障碍。我们介绍了"龙宝宝"(BDH),这是一种新的大型语言模型架构,基于一个由n个局部相互作用的神经元粒子组成的无标度生物启发网络。BDH结合了强大的理论基础和固有的可解释性,同时不牺牲类似Transformer的性能。BDH是一个实用的、高性能的、基于注意力的最先进状态空间序列学习架构。除了作为图模型外,BDH还支持GPU友好的实现。它表现出类似Transformer的缩放定律:经验表明,在相同参数数量(1000万到10亿)和相同训练数据的情况下,BDH在语言和翻译任务上的性能可与GPT2相媲美。BDH可以表示为脑模型。BDH在推理过程中的工作记忆完全依赖于使用脉冲神经元的Hebbian学习的突触可塑性。我们经验证实,在处理语言输入时,每当BDH听到或推理特定概念时,特定的单个突触会加强连接。BDH的神经元相互作用网络是一个具有重尾度分布的高模块化图。BDH模型在生物学上是合理的,解释了人类神经元可能用来实现言语的一种可能机制。BDH专为可解释性而设计。BDH的激活向量是稀疏且正的。我们在语言任务上证明了BDH的单义性。状态的可解释性(超越神经元和模型参数的可解释性)是BDH架构的固有特征。
热门分类
最新研究
Symskill:用于数据高效和实时长频操纵的符号和技能共同发明
在动态环境中多步骤操作仍然具有挑战性。 两个主要的方法家族以不同的方式失败:(i)模仿学习(IL)是反应性的,但缺乏组合化,因为单体策略不会决定场景变化时需要重用哪种技能;(ii)经典任务和运动规划(TAMP)提供组合性,但具有令人望而却步的规划延迟,防止实时故障恢复。 我们引入了SymSkill,这是一个统一的学习框架,结合了IL和TAMP的好处,允许实时组合化和故障恢复。 离线,SymSkill联合学习谓词,操作符和技能直接从未标记和未分段的演示。 在执行时,在指定一个或多个学习谓词的组合时,SymSkill使用符号规划器来编写和重新排序学习技能以实现符号目标,同时在运动和符号级别实时执行恢复。 加上兼容的控制器,SymSkill能够在人类和环境干扰下安全不间断地执行。 在RoboCasa模拟中,SymSkill可以用85执行12个单步任务
DAG 描述:隐藏混淆下结构学习的持续优化
我们研究线性高斯SEM的结构学习在潜在的混杂的存在。 当错误独立时,现有的连续方法会出类拔萃,而去混杂的先管道依赖于普遍存在的因子结构或非线性。 我们提出了DECOR,一种基于可能性且完全可微分的估算器,可共同学习DAG和相关的噪声模型。 我们的理论为全球参数可识别性提供了简单的充分条件:如果混合图是无弓的,噪声协方差具有均匀的特征值边距,那么从(,)到观测协方差的映射是注射的,因此定向结构和噪声都是唯一确定的。 估计器将平滑的环图更新与凸噪声更新交替进行,并且可以包括轻弓互补惩罚或临时和解步骤。 在合成基准上,混淆密度,图形密度,潜在等级和尺寸与n<p,DECOR匹配或优于强基线,并且在混杂不普遍时特别健壮,同时在普遍性下保持竞争力。
粗糙的Sobol'和Niederreiter序列
我们引入了粗糙的拼字,一种新的数字序列随机化,在混合半径表示中排列数字块。 这种构造旨在保留底层点的强大(0,e,d)序列属性。 对于足够平滑的integrands,我们证明这种方法实现了规范 O(n^-3+ε) 的方差衰减率,与标准Owen的争抢相匹配。 至关重要的是,我们表明其最大增益系数仅与维度O(log d)对数增长,从而提供了理论稳健性,以对抗影响痉挛Sobol序列的维度诅咒。 数字实验验证了这些发现并说明了一个实际的权衡:虽然欧文的争抢对于对低维投影敏感的综合体来说更胜一筹,但粗糙的争抢对于具有低有效截断维度的功能具有竞争力。
DisCo:加强多人类一代的多样性约束
最先进的文本到图像模型在现实主义方面表现出色,但在多人的提示上崩溃——重复的面孔、合并身份和错误计算的个人。 我们引入了DisCo(Reinforcement with Diversity Constraints),这是第一个基于RL的框架,可以直接优化多人类生成中的身份多样性。 DisCo通过组-关系策略优化(GRPO)微调流匹配模型,其组合奖励(i)惩罚图像内面部相似性,(ii)阻止交叉样本身份重复,(iii)强制准确人员计数,(iv)通过人类偏好评分保持视觉保真度。 单阶段课程稳定训练的复杂性,不需要额外的注释。 在DivesHumans测试集上,DisCo实现了98.6独特的人脸准确性和近乎完美的全球身份传播 - 超越了开源和专有方法(例如,双子座,GPT-Image),同时保持具有竞争力的感知质量。 我们的成果将 DisCo 确立为可扩展的、无注释的解决方案,解决了生成模型中长期存在的身份危机,并为构图多人类生成设定了新的基准。
控制理论启发了由线性高斯动力系统驱动的线性土匪的探索方法
本文引入了一个线性匪徒环境,奖励是已知的线性高斯动态系统(LGDS)的输出。 在这种环境下,我们解决了平衡探索(收集有关环境的信息)和开发的基本挑战,选择具有最高预测回报的行动。 我们提出了两种算法,Kalman filter Upper Confidence Bound(Kalman-UCB)和信息过滤器Directed Exploration Action-selection(IDEA)。 Kalman-UCB在面对不确定性时采用了乐观的原则。 IDEA 选择最大化预测奖励组合的操作和一个术语,该术语量化了操作最小化 Kalman 过滤器状态预测的错误,这取决于称为可观察性的 LGDS 属性。 IDEA 受到机器学习中的超参数优化等应用的启发。 超参数优化中遇到的一个主要问题是大型动作空间,这阻碍了在面对不确定性时受到乐观原则启发的方法的性能,因为它们需要探索每个动作以降低奖励预测的不确定性。 为了预测 Kalman-UCB 或 IDEA 是否会表现得更好,请提供基于 LGDS 属性的指标。 该度量通过在各种随机生成的环境中的数值结果进行验证。
从人类干预中预测偏好学习
从人类参与中学习旨在将人类主体纳入监控和纠正代理行为错误。 虽然大多数互动模仿学习方法侧重于在当前状态下纠正代理人的行动,但它们不会调整其在未来状态中的行为,这可能会造成更严重的危险。 为了解决这个问题,我们引入了人类干预的预测偏好学习(PPL),它利用人类干预中包含的隐性偏好信号来为未来推出的预测提供信息。 PPL的关键思想是将每个人类干预引导到L未来时间步骤中,称为偏好视界,假设代理遵循相同的动作,并且人类在偏好视界中做出相同的干预。 通过对这些未来状态进行偏好优化,专家校正被传播到预计代理商探索的安全关键区域,显着提高学习效率和减少所需的人类演示。 我们通过自动驾驶和机器人操纵基准的实验来评估我们的方法,并证明其效率和普遍性。 我们的理论分析进一步表明,选择合适的偏好视界L平衡了风险状态与标签正确性的覆盖,从而限制了算法最优性差距。 演示和代码可在:https://metadriverse.github.io/ppl
从2D到3D,基于深度学习的磁共振成像中的形状重建:回顾
基于深度学习的三维(3D)形状重建从二维(2D)磁共振成像(MRI)在医疗疾病诊断,治疗规划和计算建模中变得越来越重要。 本综述调查了3D MRI重建的方法图,重点关注4种主要方法:点云,基于网格,形状感知和体积模型。 对于每个类别,我们分析当前最先进的技术,它们的方法论基础,局限性以及跨解剖结构的应用。 我们提供从心脏到神经到肺成像的广泛概述。 我们还关注模型对疾病解剖学的临床适用性,以及它们的训练和测试数据的影响。 我们检查公开可用的数据集、计算需求和评估指标。 最后,我们重点介绍了新兴的研究方向,包括多模态集成和跨模式框架。 本综述旨在为研究人员提供当前3D重建方法的结构化概述,以确定推动深度学习走向更强大,可推广和临床影响的解决方案的机会。
通过集成语言模型嵌入和图形神经网络检测LLM生成的垃圾邮件评论
大型语言模型(LLM)的兴起使得产生了高度有说服力的垃圾邮件评论,这些评论与人类写作密切相关。 这些审查对现有检测系统构成了重大挑战,并威胁到在线平台的可信度。 在这项工作中,我们首先使用三个不同的LLM创建三个逼真的LLM生成的垃圾邮件审查数据集,每个LLM都由产品元数据和真正的参考审查指导。 GPT-4.1的评估证实了这些审查的高说服力和欺骗性潜力。 为了应对这一威胁,我们提出了FraudSquad,这是一种混合检测模型,它将来自预训练语言模型的文本嵌入与用于垃圾邮件节点分类的栅格图变压器集成。 FraudSquad在不依赖手动特征工程或大量培训资源的情况下捕获语义和行为信号。 实验表明,欺诈Squad超过最先进的基线高达44.22
SoftAdaClip:公平和私人模式培训的顺利剪贴策略
差分隐私(DP)为敏感数据提供了强有力的保护,但通常会降低模型性能和公平性,特别是对于代表性不足的群体。 其中一个主要原因是DP-SGD的梯度剪切,它可以不成比例地抑制少数民族亚群的学习信号。 虽然自适应剪裁可以增强实用性,但它仍然依赖于均匀的硬剪,这可能会限制公平性。 为了解决这个问题,我们引入了SoftAdaClip,这是一种微分式的私人训练方法,它以平滑的、基于tanh的变换取代硬剪,以保持相对梯度量级,同时边界灵敏度。 我们评估各种数据集的SoftAdaClip,包括MIMIC-III(临床文本),GOSSIS-eICU(结构化医疗保健)和成人收入(表格数据)。 我们的结果表明,SoftAdaClip将亚组差异减少多达87个
密度 - 比率加权行为克隆:从腐败数据集学习控制策略
离线强化学习(RL)能够从固定数据集中进行策略优化,使其适用于在线探索不可行的安全关键应用。 然而,这些数据集通常受到对抗性中毒,系统错误或低质量样本的污染,导致标准行为克隆(BC)和离线RL方法中的政策性能下降。 本文介绍了密度-比率加权行为克隆(Weighted BC),这是一种强大的模仿学习方法,使用一个小的,经过验证的清洁参考集,通过二进制鉴别器估计轨迹级密度比。 这些比率被剪切并用作BC目标中的权重,以优先考虑干净的专家行为,同时降低权重或丢弃损坏的数据,而无需了解污染机制。 我们建立理论保证,表明与清洁专家政策趋同,具有独立于污染率的有限样本边界。 建立了一个全面的评估框架,其中包含了关于持续控制基准的各种中毒协议(奖励,状态,过渡和行动)。 实验表明,即使在高污染比下也能保持近乎最佳的性能,优于传统的BC,批次受限的Q学习(BCQ)和行为规范化演员-批评者(BRAC)。
计算 Phylogenetic 多样性
Phylogenetic Diversity(PD)是衡量一组当今物种(taxa)的整体生物多样性的一个备受推崇的衡量标准,表明其生态意义。 在最大化的Phylogenetic Diversity(Max-PD)问题中,人们被要求在系统发育树中找到一小组分类,该测量值可以最大化。 Max-PD在保护规划中特别相关,其中有限的资源需要优先考虑某些分类。高盛,PLoS,2005],它的泛化 - 旨在建模生物过程和其他方面的保护规划与更高的准确性 - 经常表现出NP-hardness,使他们计算具有挑战性。 本论文探讨了这些广义问题的选择在参数化的复杂性的框架内。 在广义诺亚方舟问题(GNAP)中,每个分类法只能以一定的生存概率生存,这可以通过在分类法中投入更多的钱来增加。 我们表明,GNAP在分类法的数量方面是W[1]-硬,但对于不同成本和不同生存概率的数量是XP。 此外,我们还表明,单位成本-NAP,GNAP的特殊情况,是NP-hard。 在时间对物理遗传多样性(Time-PD)的敏感最大化(Time-PD)中,考虑不同的分类法的灭绝时间,之后它们不能再保存。 对于Time-PD,我们提出了颜色编码算法,证明Time-PD相对于多样性的阈值和可接受的多样性损失是固定参数可追踪的(FPT ) 。 在优化PD与依赖性(PDD)中,每个保存的分类法必须是生态系统的来源或另一个保存物种的捕食者。 这些依赖性在食物网中给出。 我们显示PDD是FPT,当参数化时,解决方案的大小加上系统发育树的高度。 此外,我们认为pa...
用于电催化剂设计的催化剂GFlowNet:氢进化反应案例研究
高效和廉价的能源储存对于加速采用可再生能源和确保稳定供应至关重要,尽管风能和太阳能等来源波动。 电催化剂在氢能存储(HES)中起着关键作用,允许能量作为氢存储。 然而,为这一进程开发负担得起的高性能催化剂仍然是一个重大挑战。 我们引入了Catalyst GFlowNet,这是一种生成模型,利用基于机器学习的形成和吸附能量预测因子来设计作为高效催化剂的晶体表面。 我们通过概念验证应用于氢进化反应(HES中的关键反应)证明了模型的性能,为此我们成功地将铂作为最有效的已知催化剂。 在未来工作中,我们的目标是将这种方法扩展到氧进化反应,其中当前的最佳催化剂是昂贵的金属氧化物,并打开搜索空间来发现新材料。 这个生成式建模框架为加速寻找新颖而高效的催化剂提供了一条有希望的途径。
探索数据库标准化对SQL生成的影响
Schema设计,特别是归一化,是SQL(NL2SQL)系统自然语言中一个关键但经常被忽视的因素。 大多数先前的研究都会评估固定模式的模型,忽略设计对性能的影响。 我们介绍了第一个对模式归一化影响的系统研究,评估了合成和真实世界数据集上的八个领先的大型语言模型,具有不同的规范化水平。 我们构建具有正式归一化(1NF-3NF)和具有实用方案的真实学术论文数据集的受控合成数据集。 我们的结果表明,非规范化的模式在简单的检索查询上提供了高精度,即使在零拍摄设置中使用具有成本效益的模型也是如此。 相比之下,规范化的模式(2NF/3NF)引入了诸如基本表选择和连接类型预测中的错误等挑战;然而,通过提供很少的示例,这些问题得到了实质性的缓解。 对于聚合查询,规范化的架构产生了更好的性能,主要是由于它们针对数据重复和NULL值问题,导致非规范化模式错误。 这些发现表明,NL2SQL应用程序的最佳模式设计取决于要支持的查询类型。 我们的研究证明了在开发NL2SQL接口时考虑模式设计的重要性,并为现实世界的场景集成自适应模式选择。
支持基础:超越受边界条目的快速关注
softmax注意力的二次复杂性仍然是扩展大型语言模型(LLM)的核心瓶颈。 [Alman and Song,NourIPS 2023]提出了一种亚象限注意力近似算法,但它只能在限制性限制进入假设下工作。 由于这种假设在实践中很少成立,因此它对现代LLM的适用性是有限的。 在本文中,我们介绍了支持基础分解,这是一个新的框架,用于在边界条目之外进行有效的关注近似。 我们的经验证明,查询和关键矩阵的条目表现出亚高斯行为。 我们的方法使用此属性来分割大大小小的条目,从而能够对稀疏组件进行精确计算,并在致密组件上实现多项式近似。 我们建立严格的理论保证,证明亚四度运行时,并将该方法扩展到多阈值设置,消除了所有分配假设。 此外,我们为多项式注意力的经验成功提供了第一个理论理由[Kacham, Mirrokni, and Zhong, ICML 2024],表明 softmax 注意力可以通过将多个多项式注意力与素描相结合来紧密近似。
PENEX: AdaBoost-Inspired Neural Network Regularization(英语:AdaBoost-Inspired Neural Network Regularization)
AdaBoost依次适合所谓的弱学习者,以尽量减少指数损失,这比其他损失函数(如交叉熵)更严重地惩罚错误标记的数据点。 矛盾的是,随着弱学习者数量的增加,AdaBoost在实践中推广得很好。 在本工作中,我们引入了惩罚指数损失(PENEX),这是多类指数损失的新配方,理论上是基础的,与现有配方相反,可以通过一阶方法进行优化。 我们在经验上和理论上都证明,PENEX隐含地最大化了数据点的间隙。 此外,我们表明PENEX上的梯度增量隐含地参数化了提升框架中的弱学习者。 在计算机视觉和语言任务中,我们表明PENEX表现出的正则化效果通常优于具有类似计算成本的既定方法。 我们的研究结果强调了 PENEX 作为 AdaBoost 启发的替代品的潜力,用于有效训练和微调深度神经网络。
通过 Shapley Value 为 Kolmogorov-Arnold 网络的 Shift-Invariant Attribute Scoring
对于许多现实世界的应用程序来说,理解特征结果关系与实现高预测准确性一样重要。 虽然传统的神经网络擅长预测,但其黑箱性质掩盖了潜在的功能关系。 Kolmogorov-Arnold Networks(KAN)通过在边缘使用可学习的基于spline的激活功能来解决这个问题,从而在保持竞争性能的同时恢复符号表示。 然而,KAN的架构为网络修剪带来了独特的挑战。 由于对输入坐标移位的敏感性,传统的基于量级的方法变得不可靠。 我们提出了ShapKAN,一个使用Shapley值归因的修剪框架,以不变的方式评估节点的重要性。 与基于量级的方法不同,ShapKAN量化了每个节点的实际贡献,无论输入参数化如何,都能确保一致的重要性排名。 关于合成和真实世界数据集的广泛实验表明,ShapKAN保留了真正的节点重要性,同时实现了有效的网络压缩。 我们的方法提高了 KAN 的可解释性优势,促进了在资源受限环境中的部署。
带有 Try-Once-Discard 协议的单主多站远程操作系统的事件触发控制和通信
单主多省(SMMS)远程操作系统可以在更短的时间内远程执行多个任务,覆盖大范围区域,更轻松地适应单点故障,从而有效地涵盖更广泛的应用。 随着共享通信网络的从属机械手数量的增加,通信带宽的限制变得至关重要。 为了缓解带宽使用,try-Once-Discard(TOD)调度协议和事件触发机制通常单独使用。 在本文中,我们结合了这两种策略来优化SMMS远程操作系统的网络带宽和能耗。 具体来说,我们为使用TOD调度协议的一类SMMS远程操作系统提出了事件触发的控制和通信方案。 考虑到动态不确定性、相对速度的可用性和时间变化的延迟,我们开发基于事件触发方案的虚拟观察者的自适应控制器,以实现主服务器同步。 建立了SMMS远程操作系统在这些事件触发控制和通信方案下的稳定性标准,表明Zeno行为被排除在外。 最后,进行实验以验证拟议算法的有效性。
连接网络物理系统弹性架构的可扩展设计方法:多重攻击下的安全保证
复杂、互联的网络物理系统(CPS)在电力系统等领域越来越普遍。 已经提出了具有网络弹性的架构来恢复CPS受损的网络组件。 最近的作品研究了调整此类架构的恢复时间,以确保单系统设置的安全性。 将这些设计扩展到互连的CPS更具挑战性,因为解决方案必须考虑到对多个子系统的攻击,这些子系统可以以任何顺序发生,并且可能无限的时间重叠。 本文旨在通过开发可扩展框架来分配弹性架构并告知其恢复时间的调整,从而应对上述挑战。 我们的方法引入了一个标量索引,量化每个子系统在受损输入下对安全性的影响。 这些索引在子系统中线性聚合,在任意攻击顺序和时间重叠下实现可扩展分析。 我们建立了一个线性不等式,涉及每个子系统的索引和恢复时间,保证安全性和指导弹性架构分配。 我们还提出了一种基于分割的方法,以加强先前衍生的条件。 然后,我们介绍算法来计算建议的索引,并找到具有安全保障的成本最优架构分配。 我们通过针对不同攻击场景下互连房间的温度调节的案例研究来验证该框架。
面向逆问题的测量引导一致性模型采样
Diffusion models已成为解决逆成像问题的强大生成先验,但其依赖缓慢的多步采样限制了实际部署。Consistency models通过实现单步或仅需少数步骤的高质量生成来解决这一瓶颈,然而它们对逆问题的直接适应尚未得到充分探索。本文提出了一种针对逆问题重建的改进consistency采样方法:采样器的随机性由与测量算子相关的测量一致性机制引导,该机制在保持基于consistency生成效率的同时,强制满足对获取测量的保真度。在Fashion-MNIST和LSUN Bedroom数据集上的实验表明,与基线consistency采样相比,该方法在感知和像素级指标(包括Fréchet Inception Distance、Kernel Inception Distance、峰值信噪比和结构相似性指数)上均取得了一致的改进,仅需少数步骤即可产生具有竞争力或更优的重建结果。
BioBlobs:用于蛋白质表示学习的可微分图划分
蛋白质功能由大小和拓扑结构各异的连贯子结构驱动,然而当前的蛋白质表示学习模型(PRL)通过依赖刚性子结构(如k跳和固定半径邻域)扭曲了这些信号。我们提出了BioBlobs,一个即插即用、完全可微分的模块,通过将结构动态划分为灵活大小、非重叠的子结构("blobs")来表示蛋白质。生成的blobs被量化到一个共享且可解释的码本中,产生一个用于计算蛋白质嵌入的功能相关蛋白质子结构的离散词汇表。我们展示了BioBlobs表示在各种PRL任务中提高了广泛使用的蛋白质编码器(如GVP-GNN)的性能。我们的方法强调了直接捕获功能相关蛋白质子结构的架构的价值,既能提高预测性能,又能提供对蛋白质功能的机制性洞察。