想象一下,听到狗吠声,转向声音只看到一辆停放的汽车,而真正的,沉默的狗坐在别处。 这种感官冲突测试了感知,但人类通过优先考虑声音而不是误导性的视觉效果来可靠地解决它们。 尽管多模态AI集成了视觉和音频,但对这些系统如何处理跨模态冲突或它们是否偏爱一种模式知之甚少。 在这项研究中,我们系统地研究了AI声音本地化的模式偏见和冲突解决。 我们评估领先的多模态模型,并根据六个视听条件下的心理物理实验中的人类表现进行基准测试,包括一致,冲突,缺席的线索。 人类一直优于人工智能,通过依赖听觉信息,表现出对冲突或缺失视觉效果的卓越弹性。 相比之下,人工智能模型通常默认为视觉输入,将性能降低到接近机会水平。 为了解决这个问题,我们使用通过3D模拟生成的立体声音频图像数据集来微调最先进的模型。 即使训练数据有限,改进模型也超越了现有的基准。 值得注意的是,它还反映了人类般的水平定位偏差,由于立体声音频结构反映了人的耳朵放置,因此可能倾向于左向右精度。 这些发现强调了感官输入质量和系统架构如何塑造多模态表示精度。
我们提出了第一个大规模开放设置基准的多语言音频视频深度伪造检测。 我们的数据集包括超过250小时的8种语言的真实和虚假视频,每种语言60个,假视频由七个不同的deepfake生成模型生成,根据生成内容的质量选择。 我们组织训练、验证和测试拆分,以便在训练期间只提供所选生成模型和语言的一个子集,从而创建几个具有挑战性的开放式评估设置。 我们用最近文献中提出的各种预先训练和微调的deepfake探测器进行实验。 我们的结果表明,最先进的探测器目前在我们的开放式场景中进行测试时无法保持其性能水平。 我们公开发布我们的数据和代码:https : / /huggingface.co/datasets/unibuc-cs/MAVUS-DD。
使用非破坏性方法确定菠萝的保质期质量是减少浪费和增加收入的关键一步。 在本文中,构建了一个多模态和多视图分类模型,根据音频和视觉特征将菠萝分为四个质量级别。 为了研究目的,我们编译并发布了PQC500数据集,由500个菠萝组成,有两种模式:一种是利用菠萝通过多个麦克风记录声音,另一种是在不同地点由多个摄像头拍摄照片,提供多模态和多视图视听功能。 我们修改了对比式视听遮蔽自动解码器,通过丰富的音频和视觉对组合来训练基于跨模态的分类模型。 此外,我们建议对训练数据进行紧凑大小的采样,以实现高效计算。 实验在各种数据和模型配置下进行了评估,结果表明,使用音频主采样训练的拟议跨模态模型可以产生84个,优于仅音频和仅视觉的单模态模型,分别达到6个。
文本视频检索的最新进展主要是由对比学习框架驱动的。 然而,现有方法忽略了优化张力的一个关键来源:表示空间中文本和视频分发之间的分离(称为模式差距),以及批次抽样中假阴性的普遍存在。 这些因素导致InfoNCE损失下的梯度冲突,阻碍了稳定的对齐。 为了减轻这一点,我们提出了GARE,一个Gap-Aware检索框架,在文本t_i和视频v_j之间引入了可学习的,对特定的增量Delta_ij,以从全局锚表示卸载张力。 我们首先通过在信任区域约束下对InfoNCE损失进行多变量一阶Taylor近似得出Delta_ij的理想形式,通过引导更新沿着本地最优下降方向将其揭示为解决梯度冲突的机制。 由于直接计算Delta_ij的成本很高,我们引入了一个轻量级的神经模块,该模块以每个视频文本对之间的语义差距为条件,通过梯度监督引导实现结构感知校正。 为了进一步稳定学习并促进可解释性,我们使用三个组件对Delta进行规范化:防止振荡的信任区域约束,促进语义覆盖的方向多样性术语以及限制冗余的信息瓶颈。 四个检索基准的实验表明,GARE持续提高嘈杂监督的对齐精度和稳健性,证实了间隙感知张力缓解的有效性。
如果一个活跃的公民应该越来越成为一个计算开明的人,用算法的异质性取代理性的自主性,那么我在这篇文章里争辩说,我们必须开始通过我们称之为数字Bildung的新概念来教授批评计算概念的原则。 事实上,如果民间社会本身是由计算系统和媒体调解的,那么公众使用理性也必须辅之以谈判和使用这些计算形式的技能来表达这种批评。 不仅需要提高关于计算及其相关的软化过程的知识基调,而且迫切需要关注计算中可能的认识挑战,正如目前所构成的那样,它倾向于通过实用哲学而不是通过照顾智力领土的哲学来证明理由。 因此,我们需要开发一种利用从哲学,政治,历史,人类学,社会学,媒体研究,计算机科学和人文学科中汲取的概念和方法,试图更普遍地理解这些问题 - 特别是软件和数据越来越多地渗透到我们日常生活的方式以及创造的压力和裂缝。 换句话说,我们必须着手开展一项关键的跨学科研究计划,以了解这些系统在特定和一般情况下的创建、实例化和规范化的方式。
想象一下,听到狗吠声,转向声音只看到一辆停放的汽车,而真正的,沉默的狗坐在别处。 这种感官冲突测试了感知,但人类通过优先考虑声音而不是误导性的视觉效果来可靠地解决它们。 尽管多模态AI集成了视觉和音频,但对这些系统如何处理跨模态冲突或它们是否偏爱一种模式知之甚少。 在这项研究中,我们系统地研究了AI声音本地化的模式偏见和冲突解决。 我们评估领先的多模态模型,并根据六个视听条件下的心理物理实验中的人类表现进行基准测试,包括一致,冲突,缺席的线索。 人类一直优于人工智能,通过依赖听觉信息,表现出对冲突或缺失视觉效果的卓越弹性。 相比之下,人工智能模型通常默认为视觉输入,将性能降低到接近机会水平。 为了解决这个问题,我们使用通过3D模拟生成的立体声音频图像数据集来微调最先进的模型。 即使训练数据有限,改进模型也超越了现有的基准。 值得注意的是,它还反映了人类般的水平定位偏差,由于立体声音频结构反映了人的耳朵放置,因此可能倾向于左向右精度。 这些发现强调了感官输入质量和系统架构如何塑造多模态表示精度。
TikTok和YouTube等平台上的视频内容迅速崛起,改变了信息传播,但也促进了有害内容的传播,尤其是仇恨视频。 尽管在打击仇恨言论方面做出了重大努力,但检测这些视频仍然具有挑战性,因为它们往往是隐含的。 目前的检测方法主要依靠单模态方法,这些方法不足以反映不同模式的互补特征。 虽然多模态技术提供了更广泛的视角,但许多技术未能有效地整合时间动态和模式-明智的互动,这对于识别细微的仇恨内容至关重要。 在本文中,我们介绍了CMFusion,这是一种增强的多模态仇恨视频检测模型,使用新颖的通道-明智和模式-明智的融合机制。 CMFusion首先使用预先训练的模型从文本,音频和视频模式中提取功能,然后结合时间交叉注意力机制来捕获视频和音频流之间的依赖关系。 然后,学习的功能由通道和模式智能融合模块处理,以获得视频的信息表示。 我们对真实世界数据集的广泛实验表明,CMFusion在精度、精度、召回和F1得分方面明显优于五个广泛使用的基线。 全面的消融研究和参数分析进一步验证了我们的设计选择,突出了模型在检测仇恨视频方面的有效性。 源代码将在https://github.com/EvelynZ10/cmfusion上公布。
在技术和人工智能领域,数字模型在我们的生活中发挥着重要作用,是现实世界对象数字孪生的重要组成部分。 它们可以由设计师,艺术家或游戏开发人员使用样条曲线和表面,网格和体素创建,但制作这样的模型太耗时了。 随着人工智能工具的增长,人们对3D模型的自动化生成产生了兴趣,例如生成式设计方法,这可以节省创作者宝贵的时间。 本文回顾了几个在线3D模型生成器,并批判性地分析了结果,希望从不同的提示中看到更高质量的结果。
触觉感知受到接触对象表面特性的深刻影响。 然而,尽管这些材料在塑造触觉体验方面起着至关重要的作用,但在现有的触觉表征学习方法中,这些物质特征在很大程度上被忽视了。 大多数方法主要侧重于将触觉数据与视觉或文本信息对齐,从而忽略理解材料固有特性的触觉反馈的丰富性。 在这项工作中,我们通过重新审视触觉表示学习框架并将材料感知先验纳入学习过程来解决这一差距。 这些先验物代表了特定于不同材料的预学特征,使触觉模型能够更好地捕获和概括表面纹理的细微差别。 我们的方法能够在各种材料和纹理上实现更准确,上下文丰富的触觉反馈,提高机器人,触觉反馈系统和材料编辑等实际应用的性能。
大型语言和多模态模型(LLM和LMM)表现出强大的推理能力,但通常受到缓慢解码速度的限制。 在LMM中,这一挑战尤为严重,其中视觉输入通常包含比文本信息密度低的令牌更多 - 这个问题因最近倾向于细粒度的视觉标记以提高性能的趋势而加剧。 推测性解码已经有效地加速了LLM推理,通过使用较小的草稿模型来生成候选令牌,然后由目标模型选择性地验证,在不牺牲输出质量的情况下提高速度。 虽然这种策略已经扩展到LMM,但现有方法在很大程度上忽略了视觉输入的独特特性,并且完全依赖于基于文本的模型草案。 在这项工作中,我们提出了FLASH(Fast Latent-Aware Semi-Autoregressive Heuristics),一种专门为LMM设计的推测解码框架,它利用多模态数据的两个关键属性来设计模型草案。 首先,为了解决视觉令牌中的冗余,我们提出了一个轻量级的潜伏感知令牌压缩机制。 其次,认识到视觉对象经常在场景中共同发生,我们采用半自动解码策略,每次向前传递生成多个令牌。 这些创新加速了解码草稿,同时保持了高接受率,从而加快了整体推理。 实验表明,FLASH在单模态和多模态设置中明显优于先前的推测解码方法,与原始LMM相比,在视频字幕上实现了高达2.68×的速度,在视觉指令调优任务上实现了2.55×的速度。
多模态文本图像内容中的毒性检测面临越来越大的挑战,特别是多模态隐式毒性,其中每种模式本身看起来是良性的,但在组合时传达危险。 多模态隐性毒性不仅在社交平台中表现为正式陈述,而且还提示可能导致大型视觉语言模型(LVLM)的有毒对话。 尽管单模态文本或图像适配性取得了成功,但对多模态内容的毒性检测,特别是多模态隐式毒性,仍然没有得到充分估计。 为了填补这一空白,我们全面构建了多模态隐性毒性(MMIT)的分类法,并引入了MMIT数据集,包括2,100个多模态语句和提示,涉及7个风险类别(31个子类别)和5个典型的跨模态相关性模式。 为了推进多模态隐式毒性的检测,我们构建了ShieldVLM,该模型通过深思熟虑的跨模态推理识别多模态语句、提示和对话中的隐性毒性。 实验表明,ShieldVLM在检测隐性和显性毒性方面优于现有的强基线。 该模型和数据集将公开提供,以支持未来的研究。 警告:本文包含潜在的敏感内容。
嵌入问题解答(EQA)要求代理商自主探索和理解环境,以回答依赖于上下文的问题。 现有框架通常围绕规划器,它指导停止模块,内存模块和推理的应答模块。 在本文中,我们提出了一个名为MemoryEQA的以内存为中心的EQA框架。 与以规划器为中心的 EQA 模型不同,内存模块无法与其他模块完全交互,MemoryEQA 灵活地将内存信息输入所有模块,从而提高处理复杂任务的效率和准确性,例如涉及不同区域多个目标的任务。 具体来说,我们建立了一个多模态分层记忆机制,该机制分为存储语言增强场景图的全局内存,以及保留历史观测和状态信息的本地内存。 在执行 EQA 任务时,利用多模态大语言模型将内存信息转换为所需的输入格式,以便注入不同的模块。 为了评估EQA模型的内存能力,我们构建了基于HM3D的MT-HM3D数据集,由1,587个问题对组成,涉及多个区域的多个目标,这需要代理保持对探索获得的目标信息的记忆。 HM-EQA,MT-HM3D和OpenEQA的实验结果表明了我们框架的有效性,其中19.8强调了内存能力在解决复杂任务中的关键作用。
我们提出了第一个大规模开放设置基准的多语言音频视频深度伪造检测。 我们的数据集包括超过250小时的8种语言的真实和虚假视频,每种语言60个,假视频由七个不同的deepfake生成模型生成,根据生成内容的质量选择。 我们组织训练、验证和测试拆分,以便在训练期间只提供所选生成模型和语言的一个子集,从而创建几个具有挑战性的开放式评估设置。 我们用最近文献中提出的各种预先训练和微调的deepfake探测器进行实验。 我们的结果表明,最先进的探测器目前在我们的开放式场景中进行测试时无法保持其性能水平。 我们公开发布我们的数据和代码:https : / /huggingface.co/datasets/unibuc-cs/MAVUS-DD。
本文介绍了NeoLightning,这是Buchla Lightning的现代重新诠释。 NeoLightning保留了Don Buchla的“Buchla Lightning”(20世纪90年代推出)的创新精神,同时使其基于手势的互动可供当代用户使用。 虽然最初的Buchla Lightning和许多其他历史仪器在其时代是开创性的,但它们现在基本上不受支持,将用户交互限制在间接体验上。 为了解决这个问题,NeoLightning利用MediaPipe进行基于深度学习的手势识别,并使用Max / MSP和Process进行实时多媒体处理。 经过重新设计的系统提供精确、低延迟的手势识别和沉浸式3D交互。 通过将原始Lightning的创作精神与现代进步相结合,NeoLightning重新定义了基于手势的音乐互动,扩展了表现和互动声音设计的可能性。
多模态大语言模型(MLLM)的最新进展显着增强了人工智能系统理解和生成多模态内容的能力。 然而,这些模型在应用于非西方文化背景时往往表现出有限的有效性,这引起了人们对其更广泛适用性的担忧。 为了解决这一限制,我们提出了中国传统文化理解基准(TCC-Bench),这是一个双语(即中英文)视觉问答(VQA)基准,专门用于评估MLLM对中国传统文化的理解。 TCC-Bench包括文化丰富和视觉上多样化的数据,包括博物馆文物,日常生活场景,漫画和其他具有文化意义的背景的图像。 我们采用半自动化管道,在纯文本模式下利用GPT-4o生成候选问题,然后进行人为策划,以确保数据质量并避免潜在的数据泄露。 该基准还通过防止在问题文本中直接披露文化概念来避免语言偏见。 广泛的MLLM的实验评估表明,当前模型在推理基于文化的视觉内容时仍然面临重大挑战。 研究结果突出表明,在发展具有文化包容性和具有上下文意识的多式联运系统方面,需要进行进一步研究。 代码和数据可在https://tcc-bench.github.io/找到。
从文本描述中生成3D人类运动仍然具有挑战性,这是由于人类运动的多样性和复杂性。 虽然现有方法在训练分布中表现出色,但它们经常与分发外运动作斗争,限制了它们在现实世界中的适用性。 现有的基于VQVAE的方法通常不能使用离散令牌忠实地代表新颖的运动,这阻碍了它们超越可见数据进行推广的能力。 同时,基于扩散的方法在连续表示上运行,通常缺乏对单个帧的精细控制。 为了应对这些挑战,我们提出了一个强大的运动生成框架MoMADiff,它将掩模建模与扩散过程相结合,使用帧级连续表示来生成运动。 我们的模型支持灵活的用户提供的关键帧规范,能够精确控制运动合成的空间和时间方面。 MoMADiff在具有稀疏关键帧作为运动提示的新型文本到运动数据集上展示了强大的泛化能力。 在两个坚持的数据集和两个标准基准上进行的广泛实验表明,我们的方法在运动质量、指令保真度和关键帧依从性方面一直优于最先进的模型。
纹理网格质量评估(TMQA)对于各种3D网格应用至关重要。 然而,现有的TMQA方法往往难以提供准确和稳健的评估。 受字段在表示3D几何和颜色信息方面的有效性的激励,我们提出了一种新的基于点的TMQA方法,称为字段网格质量度量(FMQM)。 FMQM利用签名的距离字段和新提出的名为最近曲面点颜色字段的色场来实现有效的网格特征描述。 与视觉感知相关的四个特征是从几何和色场中提取的:几何相似性、几何梯度相似性、空间色分布相似性以及空间色梯度相似性。 三个基准数据集的实验结果表明,FMQM优于最先进的(SOTA)TMQA指标。 此外,FMQM具有低计算复杂性,使其成为3D图形和可视化中实际应用的实用和高效的解决方案。 我们的代码可公开查阅:https://github.com/yyyykf/FMQM。
道路地形在确保自动驾驶汽车(AV)的驾驶安全方面起着至关重要的作用。 然而,现有的自动驾驶汽车传感器,包括摄像头和激光雷达,容易受到照明和天气条件变化的影响,因此很难实现对路况的实时感知。 在本文中,我们提出了一个具有照明意识的多模态融合网络(IMF),该网络利用外部感知和本体感知,并根据照明特征优化融合过程。 我们引入了一个照明感知子网络来准确估计照明特征。 此外,我们设计了一个多模态融合网络,能够根据照明特性动态调整不同模式的重量。 我们通过预训练照明感知子网络来增强优化过程,并将照明损耗作为训练限制之一。 广泛的实验表明,与最先进的方法相比,国际货币基金组织表现出卓越的表现。 采用单一模式感知方法的比较结果突出了多模态融合在精确感知不同照明条件下道路地形的综合优势。 我们的数据集可在:https://github.com/lindawang2016/IMF。
我们介绍了Text2midi-InferAlign,这是一种在推理时间改进符号音乐生成的新技术。 我们的方法在推理过程中利用文本到音频对齐和音乐结构对齐奖励,以鼓励生成的音乐与输入标题保持一致。 具体来说,我们引入了两个目标分数:一个文本-音频一致性分数,测量生成的音乐和原始文本标题之间的节奏一致,以及一个谐波一致性分数,惩罚包含与键不一致的音符的生成音乐。 通过在生成过程中优化这些基于对齐的目标,我们的模型产生的符号音乐与输入标题更紧密地联系在一起,从而提高生成作品的整体质量和一致性。 我们的方法可以扩展任何现有的自动回归模型,而无需进一步的培训或微调。 我们根据Text2midi评估我们的工作 - 现有的文本到中生成模型,展示了客观和主观评估指标的显着改进。
我们研究在边缘计算启用的毫米波(mmWave)多用户虚拟现实系统中为360^∘视频流提供多任务边缘用户通信计算资源分配。 为了平衡本文中出现的通信计算权衡,我们制定了一个视频质量最大化问题,将相互依赖的多任务/多用户动作空间和重新缓冲时间/质量变化限制。 我们为多任务速率适应和计算分布(MTRC)制定了深度强化学习框架,以解决感兴趣的问题。 我们的解决方案不依赖于对环境的先验知识,仅使用先前的视频流统计(例如,吞吐量,解码时间和传输延迟)和内容信息,以调整分配的视频比特率和计算分布,因为它在线观察诱导的流性能。 此外,为了捕捉环境中的任务相互依赖性,我们利用神经网络级联将我们的MTRC方法扩展到两个新变体,称为R1C2和C1R2。 我们用真实世界的毫米波网络跟踪和360^∘视频数据集训练所有三种方法,以评估其表现在预期体验质量(QoE)、视口峰值信噪比(PSNR)、回逃时间和质量变化方面。 我们优于最先进的速率适应算法,C1R2显示最佳效果,并实现5.21-6.06 dB PSNR增益,2.18-2.70x回缓冲时间缩短和4.14-4.50 dB质量变异降低。
考虑到检测仇恨语言的重要性,标记的仇恨言论数据是昂贵和耗时的收集,特别是对于低资源语言。 之前的工作已经证明了跨语言传输学习和数据增强在提高标记数据有限的任务的性能方面的有效性。 为了开发一种高效且可扩展的跨语言传输学习方法,我们利用最近的邻居检索来增强目标语言中最小的标记数据,从而提高检测性能。 具体来说,我们假设访问目标语言中的一小部分标记训练实例,并使用这些实例从大型多语言仇恨言论检测池中检索最相关的标记示例。 我们评估我们对八种语言的方法,并证明它始终如一地优于仅根据目标语言数据训练的模型。 此外,在大多数情况下,我们的方法超越了目前最先进的方法。 值得注意的是,我们的方法具有高数据效率,在某些情况下检索到小到200个实例,同时保持卓越的性能。 此外,它是可扩展的,因为检索池可以很容易地扩展,并且该方法可以很容易地适应新的语言和任务。 我们还应用最大的边际相关性来减轻冗余并过滤掉高度相似的检索实例,从而在某些语言中改进。
鉴于扬声器的视听剪辑,面部反应生成旨在预测听众的面部反应。 挑战在于捕捉视频和音频之间的相关性,同时平衡适当性,现实主义和多样性。 虽然以前的工作主要集中在单模态输入或简化的反应映射上,但最近的方法,如PerFRDiff,已经探索了多模态输入和适当的反应映射的千载难。 在这项工作中,我们提出了面部反应扩散(ReactDiff)框架,该框架将多模态变换器与条件扩散在潜在空间中独特地集成,以实现增强的反应生成。 与现有方法不同,ReactDiff利用课内和跨类的关注进行细粒度多模态交互,而编码器和解码器之间的潜在扩散过程可实现多样化但上下文适当的输出。 实验结果表明,ReactDiff明显优于现有方法,在保持竞争现实主义的同时,面部反应相关性为0.26,多样性得分为0.094。 代码在 href{https://github.com/Hunan-Tiger/ReactDiff}{github}。
使用非破坏性方法确定菠萝的保质期质量是减少浪费和增加收入的关键一步。 在本文中,构建了一个多模态和多视图分类模型,根据音频和视觉特征将菠萝分为四个质量级别。 为了研究目的,我们编译并发布了PQC500数据集,由500个菠萝组成,有两种模式:一种是利用菠萝通过多个麦克风记录声音,另一种是在不同地点由多个摄像头拍摄照片,提供多模态和多视图视听功能。 我们修改了对比式视听遮蔽自动解码器,通过丰富的音频和视觉对组合来训练基于跨模态的分类模型。 此外,我们建议对训练数据进行紧凑大小的采样,以实现高效计算。 实验在各种数据和模型配置下进行了评估,结果表明,使用音频主采样训练的拟议跨模态模型可以产生84个,优于仅音频和仅视觉的单模态模型,分别达到6个。
如果一个活跃的公民应该越来越成为一个计算开明的人,用算法的异质性取代理性的自主性,那么我在这篇文章里争辩说,我们必须开始通过我们称之为数字Bildung的新概念来教授批评计算概念的原则。 事实上,如果民间社会本身是由计算系统和媒体调解的,那么公众使用理性也必须辅之以谈判和使用这些计算形式的技能来表达这种批评。 不仅需要提高关于计算及其相关的软化过程的知识基调,而且迫切需要关注计算中可能的认识挑战,正如目前所构成的那样,它倾向于通过实用哲学而不是通过照顾智力领土的哲学来证明理由。 因此,我们需要开发一种利用从哲学,政治,历史,人类学,社会学,媒体研究,计算机科学和人文学科中汲取的概念和方法,试图更普遍地理解这些问题 - 特别是软件和数据越来越多地渗透到我们日常生活的方式以及创造的压力和裂缝。 换句话说,我们必须着手开展一项关键的跨学科研究计划,以了解这些系统在特定和一般情况下的创建、实例化和规范化的方式。
由人工智能驱动的视频生成取得了显著的进步,从而创造了动态和逼真的内容。 然而,在视频序列中保持字符一致性仍然是一个重大挑战,目前的模型难以确保外观和属性的一致性。 本文介绍了人脸一致性基准(FCB),这是一个评估和比较AI生成视频中角色一致性的框架。 通过提供标准化指标,该基准突出了现有解决方案中的差距,并促进了更可靠的方法的开发。 这项工作是提高AI视频生成技术中字符一致性的关键一步。