随着SCADA系统的快速部署,如何有效分析工业信号并检测异常状态成为工业界的迫切需求。由于这些信号具有显著的异质性(我们将其总结为M5问题),先前的研究仅关注小的子问题并使用专用模型,未能利用模态间的协同效应和强大的缩放定律。然而,我们认为由于内在相似性,M5信号可以用统一方式建模。因此,我们提出了FISHER——一个用于多模态工业信号综合表征的基础模型。为支持任意采样率,FISHER将采样率的增量视为子带信息的拼接。具体而言,FISHER以STFT子带作为建模单元,并采用师生自监督学习框架进行预训练。我们还开发了RMIS基准,用于评估M5工业信号在多个健康管理任务中的表征能力。与顶级自监督学习模型相比,FISHER展现出全面且卓越的能力,综合性能提升最高达5.03%。
协调良好且与音乐对齐的全息舞蹈能显著增强情感表现力和观众参与度。然而,由于全息3D舞蹈数据集的稀缺性、音乐与舞蹈跨模态对齐的困难性,以及身体、手部和面部相互依赖运动的建模复杂性,生成此类舞蹈仍具挑战性。为解决这些问题,我们引入了SoulDance——一个通过专业动作捕捉系统采集的高精度音乐-舞蹈配对数据集,包含精细标注的全息舞蹈动作。基于此数据集,我们提出了SoulNet框架,旨在生成音乐对齐、运动协调的全息舞蹈序列。SoulNet包含三个核心组件:(1)分层残差向量量化(Hierarchical Residual Vector Quantization),用于建模身体、手部和面部之间复杂精细的运动依赖关系;(2)音乐对齐生成模型(Music-Aligned Generative Model),将这些分层运动单元组合成富有表现力且协调的全息舞蹈;(3)音乐-运动检索模块(Music-Motion Retrieval Module),这是一个预训练的跨模态模型,作为音乐-舞蹈对齐先验,确保生成过程中舞蹈与输入音乐的时间同步和语义连贯性。大量实验表明,SoulNet在生成高质量、音乐协调且对齐良好的全息3D舞蹈序列方面显著优于现有方法。
零拍摄域适应是一种在不利用目标域图像数据的情况下将模型适应目标域的方法。 为了在没有目标图像的情况下实现适应,现有的研究利用CLIP的嵌入空间和文本描述来模拟目标样式特征。 尽管之前在零射域适应方面取得了成就,但我们观察到,这些文本驱动的方法难以捕捉复杂的现实世界变化,并由于其对齐过程而显着增加适应时间。 我们不是依靠文本描述,而是探索利用图像数据的解决方案,它提供了多样化和更细粒度的风格线索。 在这项工作中,我们提出了SIDA,一种利用合成图像的新型高效零拍摄域适应方法。 为了生成合成图像,我们首先创建详细的、源类的图像,并应用图像翻译以反映目标域的风格。 然后,我们利用这些合成图像的样式特征作为目标域的代理。 基于这些功能,我们引入了Domain Mix和Patch Style Transfer模块,这些模块能够对现实世界的变化进行有效的建模。 特别是,Domain Mix 混合了多种样式来扩展域内表示,Patch Style Transfer 为单个 Patch 分配不同的样式。 我们通过在各种零镜头适应场景中展示最先进的性能来展示我们方法的有效性,特别是在具有挑战性的领域。 此外,我们的方法通过显著缩短整体适应时间来实现高效率。
图形用户界面(UI)软件经历了从传统的二维(2D)桌面/网络/移动界面到空间三维(3D)环境的根本转变。 虽然现有工作在自动化2D软件生成(如HTML/CSS和移动应用程序界面代码合成)方面取得了显着成功,但3D软件的生成仍然没有得到探索。 目前用于3D软件生成的方法通常生成整个3D环境,不能修改或控制软件中的特定元素。 此外,这些方法难以处理现实世界中固有的复杂的空间和语义限制。 为了应对挑战,我们介绍了Scenthesis,这是一种新颖的要求敏感的3D软件合成方法,在用户规格和生成的3D软件之间保持正式的可追溯性。 Scenethesis建立在ScenethesisLang上,ScenethesisLang是一种特定领域语言,作为粒度约束感知中间表示(IR),以弥合自然语言要求和可执行的3D软件。 它既是一种全面的场景描述语言,既可以进行3D软件元素的细粒度修改,也可以作为能够表达复杂空间约束的正式约束表达规范语言。 通过将3D软件合成分解为在ScenethesisLang上运行的阶段,Senethesis可以实现独立的验证,有针对性的修改和系统的约束满意度。 我们的评估表明,场景分析可以准确捕获超过80个
现代艺术作品越来越需要自动化的舞蹈编排,以适应不同的音乐风格和个人舞者的特点。 现有方法通常无法制作与音乐节奏和用户定义的编舞风格相协调的高质量舞蹈视频,限制了它们在现实世界中的适应性。 为了解决这一差距,我们引入了ChoreoMuse,这是一个基于扩散的框架,它使用SMPL格式参数及其变体版本作为音乐和视频生成之间的中介,从而克服了视频分辨率带来的通常限制。 至关重要的是,ChoreoMuse支持风格可控,高保真舞蹈视频生成,跨越不同的音乐类型和个人舞者特征,包括以任何分辨率处理任何参考个人的灵活性。 我们的方法采用新颖的音乐编码器MotionTune来捕捉音频中的动作线索,确保生成的编舞密切遵循输入音乐的节拍和表现力。 为了定量评估生成的舞蹈与音乐和舞蹈风格相匹配的程度,我们引入了两个新的指标,以衡量与预期风格线索的对齐。 广泛的实验证实,ChoreoMuse在多个维度上实现了最先进的性能,包括视频质量,节拍对齐,舞蹈多样性和风格依从性,展示了其作为广泛创意应用的稳健解决方案的潜力。 视频结果可以在我们的项目页面找到:https : / /choreomuse.github.io。
零拍摄域适应是一种在不利用目标域图像数据的情况下将模型适应目标域的方法。 为了在没有目标图像的情况下实现适应,现有的研究利用CLIP的嵌入空间和文本描述来模拟目标样式特征。 尽管之前在零射域适应方面取得了成就,但我们观察到,这些文本驱动的方法难以捕捉复杂的现实世界变化,并由于其对齐过程而显着增加适应时间。 我们不是依靠文本描述,而是探索利用图像数据的解决方案,它提供了多样化和更细粒度的风格线索。 在这项工作中,我们提出了SIDA,一种利用合成图像的新型高效零拍摄域适应方法。 为了生成合成图像,我们首先创建详细的、源类的图像,并应用图像翻译以反映目标域的风格。 然后,我们利用这些合成图像的样式特征作为目标域的代理。 基于这些功能,我们引入了Domain Mix和Patch Style Transfer模块,这些模块能够对现实世界的变化进行有效的建模。 特别是,Domain Mix 混合了多种样式来扩展域内表示,Patch Style Transfer 为单个 Patch 分配不同的样式。 我们通过在各种零镜头适应场景中展示最先进的性能来展示我们方法的有效性,特别是在具有挑战性的领域。 此外,我们的方法通过显著缩短整体适应时间来实现高效率。
图形用户界面(UI)软件经历了从传统的二维(2D)桌面/网络/移动界面到空间三维(3D)环境的根本转变。 虽然现有工作在自动化2D软件生成(如HTML/CSS和移动应用程序界面代码合成)方面取得了显着成功,但3D软件的生成仍然没有得到探索。 目前用于3D软件生成的方法通常生成整个3D环境,不能修改或控制软件中的特定元素。 此外,这些方法难以处理现实世界中固有的复杂的空间和语义限制。 为了应对挑战,我们介绍了Scenthesis,这是一种新颖的要求敏感的3D软件合成方法,在用户规格和生成的3D软件之间保持正式的可追溯性。 Scenethesis建立在ScenethesisLang上,ScenethesisLang是一种特定领域语言,作为粒度约束感知中间表示(IR),以弥合自然语言要求和可执行的3D软件。 它既是一种全面的场景描述语言,既可以进行3D软件元素的细粒度修改,也可以作为能够表达复杂空间约束的正式约束表达规范语言。 通过将3D软件合成分解为在ScenethesisLang上运行的阶段,Senethesis可以实现独立的验证,有针对性的修改和系统的约束满意度。 我们的评估表明,场景分析可以准确捕获超过80个
现代艺术作品越来越需要自动化的舞蹈编排,以适应不同的音乐风格和个人舞者的特点。 现有方法通常无法制作与音乐节奏和用户定义的编舞风格相协调的高质量舞蹈视频,限制了它们在现实世界中的适应性。 为了解决这一差距,我们引入了ChoreoMuse,这是一个基于扩散的框架,它使用SMPL格式参数及其变体版本作为音乐和视频生成之间的中介,从而克服了视频分辨率带来的通常限制。 至关重要的是,ChoreoMuse支持风格可控,高保真舞蹈视频生成,跨越不同的音乐类型和个人舞者特征,包括以任何分辨率处理任何参考个人的灵活性。 我们的方法采用新颖的音乐编码器MotionTune来捕捉音频中的动作线索,确保生成的编舞密切遵循输入音乐的节拍和表现力。 为了定量评估生成的舞蹈与音乐和舞蹈风格相匹配的程度,我们引入了两个新的指标,以衡量与预期风格线索的对齐。 广泛的实验证实,ChoreoMuse在多个维度上实现了最先进的性能,包括视频质量,节拍对齐,舞蹈多样性和风格依从性,展示了其作为广泛创意应用的稳健解决方案的潜力。 视频结果可以在我们的项目页面找到:https : / /choreomuse.github.io。
规范语音功能分类在理解人类语音生成和开发健壮的语音技术方面起着至关重要的作用,特别是在临床环境中,有针对性的语音分析和治疗可以提高疾病诊断准确性和个性化康复。 在这项工作中,我们提出了一个多模态深度学习框架,该框架结合了实时磁共振成像(rtMRI)和语音信号,对三个关键的发音维度进行分类:发音方式,发音和语音。 我们对源自上述关节尺寸的15个语音类进行分类,并通过四种音频/视觉配置来评估系统:单模态rtMRI,单模态音频信号,多模态中间融合和基于对比度学习的音频视觉融合。 USC-TIMIT数据集的实验结果表明,我们基于对比的学习方法实现了最先进的性能,平均F1得分为0.81,比单模基线绝对增加0.23。 结果证实了对比表示学习对多模态表达分析的有效性。 我们的代码和处理数据集将在https : / /github.com/DaE-plz/AC_Contrastive_Phonology上公开发布,以支持未来的研究。
最近对语音驱动的说话人脸生成的研究取得了有希望的结果,但他们对固定驱动语音的依赖限制了进一步的应用(例如,人脸语音不匹配)。 因此,我们将任务扩展到更具挑战性的设置:给定面部图像和文字,生成说话的面部动画及其相应的演讲。 因此,我们提出了一个新的框架,Face2VoiceSync,有几个新的贡献:1)语音面部对齐,确保生成的声音与面部外观相匹配;2)多样性和操纵,使生成语音控制对参数化特征空间;3)高效训练,使用轻量级VAE连接视觉和音频大预训练模型,具有比现有方法少得多的可训练参数;4)新评估指标,公平评估多样性和身份一致性。 实验显示Face2VoiceSync在单个40GB GPU上实现了视觉和音频最先进的性能。
多模态大语言模型(MLLM)的最新进展为语音、文本、图像和其他模式的统一建模开辟了新的可能性。 本文基于我们之前的工作,研究了多种输入模式可以提高嘈杂环境中自动语音识别(ASR)准确性的条件和模型架构。 通过合成和真实世界数据的实验,我们发现(1)利用更多的模式通常会提高ASR的准确性,因为每种模式都提供互补的信息,但改进取决于听觉噪声的量。 (2)同步模式(例如唇部运动)在高噪声水平下更有用,而不同步模式(例如图像上下文)在中等噪声水平下最有用。 (3)更高质量的视觉表示始终如一地提高ASR的准确性,突出了开发更强大的视觉编码器的重要性。 (4)曼巴在多模态的好处方面表现出与变形金刚类似的趋势。 (5) 模式的输入顺序及其在损失函数中的权重可以显著影响准确性。 这些发现既提供了实用的见解,又有助于加深我们对在具有挑战性的条件下多模态语音识别的理解。
面向语音驱动的3D面部动画的高质量、稳健的机器学习模型的训练需要大量、多样化的高质量音频动画对数据集。 为了克服缺乏这样的数据集,最近的工作引入了大型预训练语音编码器,这些编码器对输入音频的变化非常可靠,因此,使面部动画模型能够泛化扬声器,音频质量和语言。 然而,由此产生的面部动画模型非常大,只能在专用机器上离线推理。 在这项工作中,我们探索游戏开发背景下的设备实时面部动画模型。 我们通过使用混合知识蒸馏与伪标签来克服大型数据集的缺乏。 给定一个大型音频数据集,我们使用高性能的教师模型来训练非常小的学生模型。 与预先训练的语音编码器相反,我们的学生模型仅由卷积和完全连接的层组成,消除了对注意力上下文或经常性更新的需求。 在我们的实验中,我们证明我们可以将内存占用量减少到3.4 MB,并且需要未来的音频上下文高达81毫秒,同时保持高质量的动画。 这为设备内推理铺平了道路,这是迈向现实、模型驱动的数字字符的重要一步。
虽然3D高斯表示(3DGS)已被证明对物体的几何形状和外观建模有效,但它们捕获其他物理属性(如声音)的潜力在很大程度上仍未被探索。 在本文中,我们介绍了一个名为SonicGauss的新框架,通过利用其固有的几何和材料特性来合成3DGS表示的影响声音。 具体来说,我们将基于扩散的声音合成模型与基于PointTransformer的特征提取器集成在一起,直接从高斯椭圆中推断材料特性和空间声学相关性。 我们的方法支持以撞击位置为条件的空间变化的声音响应,并在广泛的对象类别中推广。 ObjectFolder 数据集和真实世界记录的实验表明,我们的方法产生了逼真的、有位置感知的听觉反馈。 结果突出了框架的鲁棒性和概括能力,为弥合3D视觉表示和交互式声音合成提供了有希望的一步。 项目页面:https://chunshi.wang/SonicGauss
多模态表示学习旨在通过整合不同的数据模式来改善多模态理解,从而创建一个统一的表示空间。 传统方法通常依赖于成对的对比学习,它依赖于预定义的锚定模式,限制了所有模式的对齐。 最近的进展调查了多种模式同时调整的情况,但仍然存在一些挑战,例如固定锚点的限制和优化单一值产物造成的不稳定。 为了应对这些挑战,本文提出了原则多模态表示学习(PMRL),这是一个新颖的框架,可以更稳定地实现多种模式的同步对齐,而不会锚定依赖。 具体来说,基于完全对齐对应于排名-1 Gram矩阵的理论洞察力,PMRL优化了表示矩阵的显性单数值,以沿着共享的领先方向对齐模式。 我们提出了一个基于softmax的损失函数,它将奇异值视为日志,以优先考虑最大的奇异值。 此外,主要特征向量上的实例对比正正正态正则可保持实例间可分离性并防止表示崩溃。 与基线方法相比,跨不同任务的广泛实验证明了PMRL的优势。 源代码将公开。
我们提出了CatchPhrase,这是一种新颖的音频到图像生成框架,旨在减轻音频输入和生成图像之间的语义错位。 虽然多模态编码器的最新进展使跨模态生成取得了进展,但谐波仪和听觉错觉产生的模糊性继续阻碍精确对齐。 为了解决这个问题,CatchPhrase通过利用大型语言模型(LLM)和音频字幕模型(ACM)从弱类标签中生成丰富的跨模态语义提示(EXPrompt Mining)。 为了解决类级和实例级错位问题,我们应用多模态过滤和检索来为每个音频示例(EXPrompt Selector)选择语义最一致的提示。 然后训练一个轻量级的映射网络,使预先训练的文本到图像生成模型适应音频输入。 对多个音频分类数据集进行的广泛实验表明,CatchPhrase改善了音频到图像的对齐,并通过减轻语义错位来持续提高生成质量。
部分相关视频检索(PRVR)解决了将未修剪的视频与仅描述部分内容的文本查询相匹配的重大挑战。 现有方法在欧几里得空间中受到几何失真的影响,有时会歪曲视频的内在层次结构,而忽略了某些分层语义,最终导致次优的时间建模。 为了解决这个问题,我们提出了PRVR的第一个双曲面建模框架,即HLFormer,它利用双曲空间学习来补偿欧几里得空间的次优分层建模功能。 具体来说,HLFormer集成了Loentz Attention Block和Euclidean Attention Block,用于在混合空间中编码视频嵌入,使用均导自适应交互模块动态融合功能。 此外,我们引入了部分订单保存损失,通过Lorenzian圆锥形约束强制执行“文本<视频”层次结构。 这种方法通过加强视频内容和文本查询之间的部分相关性,进一步增强了跨模态匹配。 广泛的实验表明,HLFormer优于最先进的方法。 代码发布于https://github.com/lijun2005/ICCV25-HLFormer。
历史民俗材料的数字化带来了独特的挑战,由于不同的文本布局,不同的印刷和手写风格,以及语言变化。 该研究探讨了斯洛文尼亚民俗和历史文本数字化的不同光学字符识别(OCR)方法,将传统方法和大型语言模型(LLM)相结合,以提高文本转录的准确性,同时保持语言和结构完整性。 我们将单级OCR技术与多阶段管道进行了比较,这些管道结合了机器学习驱动的后处理,以实现文本规范化和布局重建。 虽然LLM增强方法在改进识别输出和提高可读性方面显示出希望,但它们也带来了与意外修改相关的挑战,特别是在保存辩证表达和历史结构方面。 我们的发现为大规模民俗档案选择最佳数字化策略提供了见解,并概述了开发强大的OCR管道的建议,这些管道平衡了自动化与数字人文研究对文本真实性的需求。
大型语言模型(LLM)是在大量的程序文本上训练的,但它们并不直接观察现实世界的现象。 在烹饪食谱的背景下,这带来了挑战,因为成分的中间状态经常被省略,这使得模型难以跟踪成分状态并准确理解食谱。 在本文中,我们将状态探测(a state probing)应用于评估语言模型对世界的理解的方法,应用于烹饪领域。 我们提出了一个新的任务和数据集,用于评估LLM在烹饪过程中如何识别中间成分状态。 我们首先构建一个新的日本配方数据集,其中包含明确和准确的成分状态变化注释,从结构良好且受控的配方文本中收集。 使用此数据集,我们设计三个新任务来评估LLM是否可以跟踪成分状态过渡并识别中间步骤中存在的成分。 我们使用广泛使用的LLM(如Llama3.1-70B和Qwen2.5-72B)的实验表明,学习成分状态知识提高了他们对烹饪过程的理解,实现了与商用LLM相当的性能。
多模态机器翻译(MMT)通过结合视觉环境来提高翻译质量,帮助解决文本模糊性。 虽然现有的MMT方法在双语环境中表现良好,但由于跨语言干扰和无效的参数共享策略,将其扩展到多语种翻译仍然具有挑战性。 为了解决这个问题,我们提出了LLaVA-NeuMT,这是一种新颖的多式联运多语种翻译框架,明确了语言特定和语言无关的表示模型,以减轻多语言干扰。 我们的方法包括一层选择机制,该机制为不同的语言对确定最翔实的层,以及一种神经元级适应策略,该策略动态选择特定语言和不可知神经元,以提高翻译质量,同时减少冗余。 我们对M3-Multi30K和M3-AmbigCaps数据集进行了广泛的实验,证明LLaVA-NeuMT虽然只微调了40%的模型参数,但超越了完全的微调方法,并最终在两个数据集上实现了SOTA结果。 我们的分析进一步提供了对多模态多语言适应中所选层和神经元的重要性的见解,为多模态翻译中的跨语言适应提供了高效和可扩展的解决方案。
利用可见光(RGB)和红外(IR)图像的互补特性为改善物体检测提供了巨大的潜力。 在本文中,我们提出了WaveMamba,这是一种跨模态融合方法,可有效集成由Discrete Wavelet Transform(DWT)分解的RGB和IR的独特和互补频率特征。 还提出了包含逆离散小波变换(IDWT)的改进检测头,以减少信息丢失并产生最终检测结果。 我们的方法的核心是引入WaveMamba Fusion Block(WMFB),它促进了低/高频子波段的全面融合。 在WMFB中,基于Mamba框架的低频Mamba融合块(LMFB)首先通过通道交换执行初始低频特征融合,然后使用先进的门控注意机制进行深度融合,以加强集成。 使用采用“绝对最大”融合方法的策略增强了高频特征。 这些进步带来了显著的性能提升,我们的方法超越了最先进的方法,实现了平均mAP改进4.5。
上下文建模对于准确估计潜在分布的学习图像压缩至关重要。 虽然最近的先进方法扩大了上下文建模能力,但它们仍然难以有效地利用跨不同编码步骤的远程依赖和不同的上下文信息。 在本文中,我们介绍了一种新颖的分层渐进上下文模型(HPCM),用于更高效的上下文信息获取。 具体来说,HPCM采用分层编码计划,在多个尺度上对潜在方之间的上下文依赖关系进行顺序建模,从而实现更高效的远程上下文建模。 此外,我们提出了一个渐进的上下文融合机制,将以前编码步骤的上下文信息整合到当前步骤中,有效地利用不同的上下文信息。 实验结果表明,我们的方法实现了最先进的速率失真性能,并在压缩性能和计算复杂性之间取得了更好的平衡。 代码可在https://github.com/lyq133/LIC-HPCM。
自动驾驶汽车生成大量的点云数据,但只有子集与特定任务(如碰撞检测、交通分析或拥塞监控)相关。 有效查询这些数据对于实现有针对性的分析至关重要。 在这项工作中,我们通过定义三种核心查询类型来正式化点云查询:RETRIEVAL,COUNT和AGGREGATION,每种类型都符合不同的分析场景。 所有这些查询都严重依赖准确的对象计数来产生有意义的结果,使精确的对象计数成为查询执行的关键组成部分。 之前的工作重点是2D视频数据的索引技术,假设检测模型提供准确的计数信息。 然而,当应用于3D点云数据时,最先进的检测模型通常无法生成可靠的对象计数,导致查询结果出现大量错误。 为了解决这一限制,我们提出了基于热图的网络CounterNet,这是一个基于热图的网络,旨在在大规模点云数据中精确计算对象。 CounterNet没有专注于准确的对象定位,而是通过查找对象中心来检测对象存在,以提高计数精度。 我们通过使用重叠区域的功能地图分区策略进一步提高其性能,从而能够更好地处理复杂交通场景中的小对象和大型对象。 为了适应不同的帧特性,我们引入了一个每帧动态模型选择策略,为每个输入选择最有效的配置。 对三个真实世界自动驾驶汽车数据集的评估表明,CounterNet将计数精度提高了5
生成高质量的卡通动画多模态控制具有挑战性,因为非人类角色的复杂性,风格上多样化的运动和细粒度的情绪。 现实世界的视频和卡通动画之间存在巨大的领域差距,因为卡通动画通常是抽象的,并且具有夸张的动作。 同时,公共多模态卡通数据由于与现实生活场景相比难以进行大规模自动注释过程而极其稀缺。 为了弥补这一差距,我们提出了MagicAnime数据集,这是一个大规模,分层注释和多模态数据集,旨在支持多个视频生成任务,以及它包含的基准。 包含用于图像对视频生成的400k视频剪辑,用于全身注释的50k对视频剪辑和关键点,用于视频对视频人脸动画的12k对视频剪辑,以及用于音频驱动人脸动画的2.9k对视频和音频剪辑。 同时,我们还构建了一组多模态卡通动画基准,称为MagicAnime-Bench,以支持上述任务中不同方法的比较。 对四项任务进行全面实验,包括视频驱动人脸动画、音频驱动人脸动画、图像对视频动画和姿势驱动角色动画,验证其在支持高保真、细粒度和可控生成方面的有效性。
随着大型语言模型(LLM)的兴起,游戏中的互动正在从严格的命令转向自然对话。 然而,LLM对玩家性能和游戏体验的影响仍然被低估。 这项工作探讨了LLM在游戏过程中作为共同构建者的角色,研究了其对任务性能,可用性和玩家体验的影响。 使用Minecraft作为沙盒,我们提供了一个LLM辅助界面,通过自然语言吸引玩家,旨在促进创造力并简化复杂的游戏命令。 我们进行了一项与30名参与者的混合方法研究,比较了LLM辅助和基于命令的界面,涉及简单而复杂的游戏任务。 定量和定性分析表明,LLM辅助界面显著提高了玩家的性能、参与度和整体游戏体验。 此外,任务复杂性对两个接口的玩家性能和体验都有显著的影响。 我们的研究结果强调了LLM辅助界面彻底改变虚拟体验的潜力,强调了在人工智能驱动的多模态游戏环境中平衡直观性与可预测性,透明度和用户代理的重要性。
我们提出了一个通用的视频级模式-意识跟踪模型与在线密集时间令牌学习(称为 ) 。 它旨在支持各种跟踪任务,包括RGB,RGB + Thermal,RGB + Depth和RGB + Event,使用相同的模型架构和参数。 具体来说,我们的模型设计有三个核心目标:视频级采样。 我们将模型的输入扩展到视频序列级别,旨在从近乎全球的角度查看更丰富的视频上下文。 视频级协会。 此外,我们引入了两个简单而有效的在线密集时间令牌关联机制,通过视频流传播目标的外观和运动轨迹信息。 模式可扩展。 我们提出了两种新颖的闸门感知器,它们通过门控注意力机制自适应地学习跨模态表示,然后通过单点训练方式将它们压缩到同一组模型参数中,用于多任务推理。 这个新的解决方案带来了以下好处:(i)纯化的令牌序列可以作为下一个视频帧中推理的时间提示,从而利用以前的信息来指导未来的推理。(ii)与需要独立训练的多模态跟踪器不同,我们的一枪训练方案不仅可以减轻训练负担,还可以改善模型表示。 对可见和多模态基准的广泛实验表明,我们实现了新的SOTA性能。 该代码可在https://github.com/GXNU-ZhongLab/ODTrack上查阅。