计算机科学
Computer Science
人工智能
Artificial Intelligence
计算与语言
Computation and Language
计算复杂性
Computational Complexity
基于扩散的视频生成可以创建逼真的视频,但现有的基于图像和文本的调节无法提供精确的运动控制。 运动条件合成的先前方法通常需要针对模型的微调,这在计算上是昂贵和限制性的。 我们引入了Time-to-Move(TTM),这是一种无训练的即插即用框架,用于运动和外观控制的视频生成,具有图像到视频(I2V)扩散模型。 我们的关键见解是使用通过用户友好的操作获得的粗糙参考动画,例如剪切和拖拽或基于深度的重新投影。 在SDEdit使用粗布局线索进行图像编辑的激励下,我们将粗糙的动画视为粗糙的运动线索,并将机制调整到视频域。 我们通过图像调节来保持外观,并引入双时钟去噪,这是一种依赖区域的策略,可以在运动指定的区域中强制进行强对齐,同时允许其他地方的灵活性,平衡用户意图与自然动力学的保真度。 这种对采样过程的轻量修改无需额外的培训或运行时成本,并且与任何骨干兼容。 对物体和相机运动基准的广泛实验表明,TTM在现实主义和运动控制方面与现有的基于训练的基线相匹配或超过。 除此之外,TTM还引入了一种独特的功能:通过像素级调理进行精确的外观控制,超过仅文本提示的限制。 访问我们的项目页面获取视频示例和代码:https://time-to-move.github.io/。
在当今的数字世界中,它有许多不同类型的媒体,steganography,秘密通信的艺术,有很多问题要处理。 传统方法通常是固定的,并且仅与一种类型的载体媒体一起工作。 这意味着他们与那里的所有不同类型的媒体都相处不好。 这个系统不会向“弱”或易于检测的载体发送数据,因为它无法适应。 这使得系统不那么安全,一般也不那么秘密。 本文提出了基于跨模式推理(CMR)引擎的新型智能运营商分配框架。 这个引擎着眼于广泛的载体,如图像,音频和文本,看看它们是否适合steganography。 它使用重要的测量,如熵,信号复杂性和词汇丰富性,为每个模式得出一个单一的可靠性得分。 该框架使用这些分数来公平和智能地共享秘密比特流,为被认为更强大和更复杂的运营商提供更多数据。 这种适应性分配策略使系统尽可能难以找到,并且尽可能强大地对抗Steganalysis。 我们证明,与静态、非自适应的多模态技术相比,这种基于推理的方法在数据保护方面更安全、更优越。 这使得建立更强大、更智能的秘密通信系统成为可能。
视觉语言模型(VLMs),如CLIP,表现出强劲的性能,但在适应下游任务时会挣扎。 及时学习已成为一种高效和有效的策略,可以适应VLM,同时保持其预先训练的知识。 然而,现有方法仍然会导致过拟合和降低零射通概括。 为了应对这一挑战,我们提出了一个最佳的传输(OT)引导的提示学习框架,通过保持预训练和微调模型之间特征分布的结构一致性来缓解遗忘。 与传统的点向约束不同,OT自然地捕获交叉实例关系,并扩展了用于快速调整的可行参数空间,从而在适应和泛化之间实现更好的权衡。 我们的方法对视觉和文本表示都强制了联合约束,确保了整体特征对齐。 基准数据集的广泛实验表明,我们简单而有效的方法可以在基础到新颖的泛化,跨数据集评估和域泛化方面超越现有的快速学习策略,而无需额外的增强或集成技术。 代码可在https://github.com/ChongQingNoSubway/Prompt-OT上查阅。
基于兴趣区域(ROI)的图像压缩已经迅速发展,因为它能够在重要区域保持高保真度,同时减少数据冗余。 然而,现有的压缩方法主要应用口罩在量化之前抑制背景信息。 这种使用硬门的显式位分配策略会显著影响熵模型的统计分布,从而限制了压缩模型的编码性能。 作为回应,这项工作提出了一个有效的基于ROI的深度图像压缩模型,具有隐式位分配。 为了更好地利用ROI面罩进行隐式位分配,本文提出了一个新的掩码引导功能增强(MGFE)模块,包括区域自适应注意力(RAA)块和频率空间协作注意力(FSCA)块。 该模块允许在不同区域灵活分配位,同时通过频率空间域协作增强全局和本地功能。 此外,我们使用双解码器来单独重建前景和背景图像,使编码网络能够以数据驱动的方式最佳平衡前台增强和背景质量保存。 据我们所知,这是第一个利用隐式位分配进行高质量区域适应编码的工作。 COCO2017数据集的实验表明,我们基于隐式的图像压缩方法在速率扭曲性能方面明显优于显式位分配方法,在重建的背景区域保持令人满意的视觉质量的同时,实现最佳结果。
从自然语言指令中导航看不见的环境对于视觉和语言导航(VLN)中的自我中心代理来说仍然具有挑战性。 人类在室内导航过程中自然在空间布局中研磨具体的语义知识。 虽然以前的工作引入了不同的环境表示来改善推理,但辅助模式往往与RGB特征幼稚地结合在一起,这低估了每种模式的独特贡献。 我们提出了分层语义理解和空间意识(SUSA)架构,使代理能够感知和地面环境的多个尺度。 具体来说,Textual Semantic Understanding(TSU)模块通过生成视图级描述,捕获细粒度语义并缩小指令和环境之间的模式差距来支持局部动作预测。 补充的是,深度增强空间感知(DSP)模块逐步构建了轨迹级深度探索图,提供了全球空间布局的粗粒度表示。 广泛的实验表明,SUSA的分层表示丰富性显着提高了在离散VLN基准(REVERIE,R2R和SONON)基线上的导航性能,并更好地推广到连续R2R-CE基准。
细粒度图像文本对齐是多模态学习的关键挑战,支持关键应用,如视觉问题回答,图像字幕和视觉语言导航。 与全局对齐不同,细粒度对齐需要本地化视觉区域和文本令牌之间的精确对应,通常受到嘈杂注意力机制和跨模态关系的过度简化建模的阻碍。 在这项工作中,我们确定了现有方法的两个基本限制:缺乏强大的模式内机制来评估视觉和文本令牌的重要性,导致复杂场景中的泛化不良;以及缺乏细粒度的不确定性建模,这未能捕捉到区域字对应关系的一对一和多对一性质。 为了解决这些问题,我们提出了一个统一的方法,包括显著感知和粒度感知建模以及区域级不确定性建模。 我们的方法利用特定模式的偏见来识别显著特征,而不依赖于脆的跨模态注意,并代表区域特征作为高斯分布的混合物,以捕获细粒度的不确定性。 Flickr30K和MS-COCO的广泛实验表明,我们的方法在各种骨干架构中实现了最先进的性能,显着增强了细粒度图像文本对齐的鲁棒性和可解释性。
第三届关于艺术可解释AI(XAIxArts)的国际研讨会汇集了HCI,交互设计,AI,可解释AI(XAI)和数字艺术的研究人员社区,以探索XAI对艺术的作用。 研讨会在第17届ACM创意和认知会议(C C 2025)上举行。
音乐编辑是音乐制作的重要一步,它有广泛的应用,包括游戏开发和电影制作。 大多数现有的零拍摄文本引导编辑方法都依赖于预训练的扩散模型,涉及向后扩散过程。 然而,这些方法往往难以保存音乐内容。 此外,文本指令通常无法准确描述所需的音乐。 在本文中,我们提出了两种音乐编辑方法,通过利用乐谱蒸馏来提高原始音乐与编辑音乐之间的一致性。 第一种方法,SterMusic,是一种使用delta去噪评分的粗粒度零镜头编辑方法。 第二种方法SteeMusic+通过操纵代表用户定义音乐风格的概念令牌来实现细粒度的个性化音乐编辑。 SteerMusic+允许将音乐编辑到用户定义的音乐风格中,仅靠文本指令无法实现。 实验结果表明,我们的方法在保持音乐内容一致性和编辑保真度方面优于现有方法。 用户研究进一步证实我们的方法实现了卓越的音乐编辑质量。
视频和播客已成为公民传播的首选媒介,也是错误信息的载体。 新兴的科学传播知识基础设施(SciCom KI)策划了这些越来越非文本的媒体,仍然支离破碎,没有足够的能力来对抗内容洪水。 我们的工作旨在支持SciCom KI与一个中央,协作平台,SciCom Wiki,以促进FAIR(可查找,可访问,可互操作,可重复使用)的媒体表示,特别是视频和播客。 我们调查了来自53个利益相关者的要求,并在11次访谈中单独完善了这些见解。 然后,我们设计并实施以Wikibase为中心的开源服务系统,并与另外14名参与者评估我们的原型。 总的来说,我们的发现确定了几个需要系统地支持SciCom KI。 我们的 SciCom Wiki 方法适合满足所提出的要求。 此外,我们确定SciCom KI在FAIR知识和相关系统方面严重不发达,有助于其协作创建和策划。 我们的系统可以提供类似于维基数据的中心知识节点,但需要共同努力,以扩展必要的功能,以抵御迫在眉睫的(错误)信息洪水。
语义通信标志着从比特精度传输向以意义为中心的通信的范式转变,随着无线系统接近理论容量限制,这一点至关重要。 生成式AI的出现催化了生成式语义通信,其中接收者通过利用学习的先验来从最小的语义线索中重建内容。 在生成方法中,扩散模型以其卓越的生成质量,稳定的训练动力学和严格的理论基础而脱颖而出。 然而,该领域目前缺乏将扩散技术与通信系统设计联系起来的系统指导,迫使研究人员浏览不同的文献。 本文提供了第一个关于生成语义通信的扩散模型的综合教程。 我们提出基于分数的扩散基础,并系统地审查三个技术支柱:可控制生成的有条件扩散,加速推理的高效扩散,以及跨领域适应的广义扩散。 此外,我们引入了一个逆问题视角,将语义解码重新定位为后验推理,将语义通信与计算成像联系起来。 通过对以人为中心、以机器为中心和以代理为中心的场景的分析,我们说明了扩散模型如何在保持语义保真度和稳健性的同时实现极端压缩。 通过将生成式AI创新与通信系统设计联系起来,本文旨在建立扩散模型,作为下一代无线网络及其他领域的基础组件。
如今,导航和乘车共享应用程序已经收集了许多带有时空数据的图像。 与时空信息相关的分析此类图像的核心技术是交通场景理解(TSU),旨在全面描述交通场景。 与传统的时空数据分析任务不同,对时空和视觉文本数据的依赖为TSU任务带来了独特的挑战。 然而,最近的研究经常将TSU视为一个共同的图像理解任务,忽略了时空信息,并忽略了交通场景不同方面之间的相互关系。 为了解决这些问题,我们为TSU提出了基于CILP(ST-CLIP)的新型SpatioTemporal增强模型。 我们的模型使用经典的视觉语言模型CLIP作为骨干,并设计一种空间-时间上下文感知多视点提示(SAMP)学习方法,将时空信息纳入TSU。 提示学习方法由两个部分组成:一个动态时空上下文表示模块,为每个流量场景图像提取空间-时间数据表示向量,以及一个双级ST-aware多方面提示学习模块,将ST-context表示向量集成到CLIP模型的提示词嵌入中。 第二个模块还提取了低级视觉特征和图像上的高级语义特征,以利用交通场景不同方面的交互关系。 据我们所知,这是首次尝试将时空信息集成到视觉语言模型中,以促进TSU任务。 两个真实世界数据集的实验通过几枪式学习策略,在复杂的场景理解场景中表现出卓越的性能。
AI生成内容(AIGC)的快速扩散重塑了数字营销和在线消费者行为的动态。 然而,由于数据异质性、非线性传播机制和不断变化的消费者互动,预测此类内容的扩散轨迹和市场影响仍然具有挑战性。 该研究提出了人工智能驱动的决策支持系统(DSS),该系统使用混合图形神经网络(GNN)和时间转换器框架集成了多源数据,包括社交媒体流,营销支出记录,消费者参与日志和情绪动态。 该模型通过双通道架构共同学习内容扩散结构和时间影响演变,而因果推理模块将营销刺激对投资回报(ROI)和市场可见性的影响分开。 从Twitter、TikTok和YouTube广告等多个在线平台收集的大规模真实世界数据集的实验表明,我们的系统在所有六个指标中的表现都优于现有的基线。 拟议的DSS通过提供对AIGC驱动的内容传播和市场增长模式的可解释实时洞察来增强营销决策。
音频描述(AD)对于使视力障碍者可以访问视觉内容至关重要。 最近的作品展示了一个有希望的步骤,使AD自动化,但它们仅限于在此过程中使用人类注释的地面真理AD来描述高质量的电影内容。 在这项工作中,我们提出了一个端到端的管道,MCAD,它将AD一代从电影扩展到体育领域,重点是足球比赛,而不依赖于地面真理AD。 为了解决没有特定领域的 AD 数据集的问题,我们在公开可用的电影 AD 数据集上微调视频大语言模型,以便它学习 AD 的叙事结构和约定。 在推理过程中,MCAD包含多模态上下文线索,如球员身份,足球事件和行动以及游戏评论。 这些线索与微调VideoLLM的输入提示相结合,使系统能够为每个视频段生成完整的AD文本。 我们进一步引入了一个新的评估指标ARGE-AD,旨在准确评估生成AD的质量。 ARGE-AD评估生成的AD存在五个特征:(i)使用人的名字,(ii)提及动作和事件,(iii)AD的适当长度,(iv)没有代词,以及(v)从评论或字幕重叠。 我们对电影和足球数据集的方法进行了深入分析。 我们还验证使用此度量来定量评论生成 AD 的质量,使用我们的跨域度量。 此外,我们还为两位AD专家注释的100个足球游戏剪辑提供音频描述。
在本文中,我们研究了多模态大语言模型(MLLM)用于生成虚拟活动,利用视觉语言模式的集成来实现虚拟环境的解释。 我们的方法通过MLLM的多模态推理功能识别和抽象关键场景元素,包括场景布局,语义上下文和对象身份。 通过将这些抽象与关于人类活动的大量知识联系起来,MLLM能够产生适应性和上下文相关的虚拟活动。 我们提出了一个结构化框架来阐明抽象的活动描述,强调虚拟空间内详细的多字符交互。 利用衍生的高级上下文,我们的方法准确地定位虚拟字符,并确保其交互和行为通过战略优化在现实和上下文上是适当的。 实验结果证明了我们方法的有效性,为增强模拟虚拟环境中的现实主义和上下文意识提供了新的方向。
多模态数据的语义通信可以在嘈杂和带宽有限的通道上有效地传输与任务相关的信息。 然而,一个关键的挑战是同时压缩多模态冗余,并在通道失真下提高语义可靠性。 为了应对这一挑战,我们提出了一个稳健而高效的多模态任务导向的通信框架,该框架将两阶段变化信息瓶颈(VIB)与相互信息(MI)的冗余最小化相结合。 在第一阶段,我们应用 uni-modal VIB 来单独压缩每种模式,即文本、音频和视频,同时保留特定任务的特性。 为了提高效率,使用带有对抗性训练的MI最小化模块来抑制跨模态依赖性并促进互补性而不是冗余。 在第二阶段,多模态VIB进一步用于压缩熔融表示,并增强对通道失真的鲁棒性。 关于多模态情绪识别任务的实验结果表明,拟议的框架在准确性和可靠性方面大大优于现有基线,特别是在低信噪比制度下。 我们的工作提供了一个原则框架,共同优化了特定模式的压缩、多式联运冗余和通信可靠性。
由于复杂的法律语言、程序不透明和高昂的费用,孟加拉国的低收入人口面临着负担得起的法律咨询的主要障碍。 现有的人工智能法律助理缺乏孟加拉语支持和针对司法管辖区的适应,限制了它们的有效性。 为了解决这个问题,我们开发了Mina,一个针对孟加拉国语境的基于LLM的法律助理。 它采用多语言嵌入和基于RAG的工具链框架进行检索,推理,翻译和文档生成,通过交互式聊天界面提供上下文感知的法律草案,引用和普通语言解释。 在2022年和2023年孟加拉国律师协会考试的各个阶段,由孟加拉国顶尖大学的法学院教师评估,米娜在初步MCQ,书面和模拟Viva Voce考试中得分75-80%,匹配或超过人类平均表现,并表现出清晰,情境理解和合理的法律推理。 这些结果证实了其作为低成本,多语言人工智能助手的潜力,该助理可以自动化关键法律任务并扩大司法救助范围,就构建特定领域,低资源系统以及应对多语言适应,效率和可持续公共服务人工智能部署的挑战提供真实世界的案例研究。
随着虚拟现实(VR)技术的普及和元宇宙的出现,社交VR应用变得越来越普遍,可供一般用户群体使用。 作为社交媒体的一种新颖形式,这些平台为用户提供了从事社交活动的独特机会。 然而,仍然存在一个重大限制:无法在公共社交VR环境中进行私人对话。 当前的互动主要是公开的,使用户难以在不破坏正在进行的对话的情况下进行保密的侧面讨论或窃窃私语。 为了解决这一差距,我们开发了Hushhub,这是一个集成到流行的社交VR平台VRChat中的私人聊天系统。 我们的系统使共享VR空间内的用户能够有选择地启动私人音频对话,使他们能够保持意识和参与更广泛的小组讨论。 为了评估系统,我们进行了用户研究,以收集对实施系统的功效和用户体验的见解和反馈。 结果表明,在沉浸式社交VR环境中实现私人对话的价值和必要性,为更丰富,更细致入微的社交互动铺平了道路。
数字媒体的激增需要强大的版权保护和内容认证方法。 本文介绍了使用空间域(最小显著位 - LSB),频域(离散傅里叶变换 - DFT)和新型混合(LSB + DFT)方法实现的数字图像水印技术的综合比较研究。 核心目标是评估不可感知(以峰值信号到噪声比率 - PSNR)和稳健性(由标准化相关性测量 - NC和比特错误率 - BER)之间的权衡。 我们在统一的基于 MATLAB 的实验框架内实现了这三种技术。 水印图像受到一系列常见的图像处理攻击,包括JPEG压缩,高斯噪声和盐和胡椒噪声,强度不同。 从标准图像数据集(USC-SIPI)产生的实验结果表明,虽然LSB提供了卓越的易感性,但它极其脆弱。 DFT方法以视觉质量为代价提供显着的稳健性。 拟议的混合LSB + DFT技术利用冗余嵌入和回退提取机制,已被证明可以提供最佳平衡,保持高视觉保真度,同时对所有测试的攻击表现出卓越的弹性。
多模态情绪分析(MSA)旨在通过整合文本、音频和视频等多种模式的信息来推断人类情绪。 然而,在现实世界中,缺失模式和嘈杂信号的存在严重阻碍了现有模型的稳健性和准确性。 虽然以前的工作在这些问题上取得了进展,但通常孤立地处理它们,限制了实际环境中的整体有效性。 为了共同减轻缺失和嘈杂模式带来的挑战,我们提出了一个名为“两阶段模式去噪和互补”(TMDC)的框架。 TMDC包括两个连续训练阶段。 在模式内消声阶段,使用专用的去噪模块从完整数据中提取去噪特定和模式共享表示,减少了噪音的影响,增强了代表性的鲁棒性。 在模式间互补阶段,利用这些陈述来弥补缺失的模式,从而丰富现有信息,进一步提高稳健性。 对MOSI,MOSEI和IEMOCAP的广泛评估表明,与现有方法相比,TMDC始终如一地实现卓越的性能,从而建立了新的最先进的结果。
以自我为中心的AI代理的性能从根本上受到多模态意图模糊性的限制。 这一挑战源于语言不足、视觉数据不完美和神智手势的组合,这经常导致任务失败。 现有的单体视觉语言模型(VLM)难以解决这些多模态模棱两可的输入,这些输入往往无声无息或产生幻觉。 为了解决这些模糊性,我们引入了即插即用澄清器(Plug-and-Play Clarifier),这是一个零镜头和模块化框架,可将问题分解为离散的、可解决的子任务。 具体来说,我们的框架由三个协同模块组成:(1)使用对话驱动的推理来交互地消歧义语言意图的文本澄清器,(2)提供实时指导反馈的视觉澄清器,指导用户调整其定位以提高捕获质量;(3)具有接地机制的跨模态澄清器,可以强健地解释3D指向手势并识别用户指向的特定对象。 广泛的实验表明,我们的框架将小语言模型(4-8B)的意图澄清性能提高了约30%,使其与规模较大的模型竞争。 在将框架应用于这些较大的模型时,我们也观察到一致的收益。 此外,我们的视觉澄清器将校正指导精度提高了20%以上,我们的跨模态澄清器提高了5%的参考接地的语义答案精度。 总体而言,我们的方法提供了一个即插即用框架,可以有效地解决多模态模糊,并显著增强以自我为中心的交互中的用户体验。
继续滚动加载更多