42digest首页

计算机图形学研究快报

用 AI 跟踪日新月异的计算机图形学领域进展

PS-GS: Gaussian Splatting for Multi-View Photometric Stereo

PS-GS:用于多视图光度立体的高斯电镀

将逆渲染与多视图光刻板(MVPS)集成,比依赖固定环境照明的逆渲染方法产生更精确的3D重建。 然而,使用MVPS的高效反向渲染仍然具有挑战性。 为了填补这一空白,我们引入了高斯多视图光度立体声(PS-GS),它高效并共同估计了由不同方向灯(多光)照明的物体的几何形状,材料和照明。 我们的方法首先将标准的2D高斯溅射模型重建为初始几何形状。 基于初始化模型,它然后通过包含照明计算多层感知器的完整渲染方程进行递延反向渲染。 在整个优化过程中,我们通过未校准的光度立体声估计正常值来规范渲染正常地图。 我们还提出了用于单向光的2D高斯射线追踪,以完善事件照明。 多视图和多光图像的正则化和使用减轻了逆渲染的不良问题。 经过优化后,重建的对象可用于新颖的视图合成,重新点亮以及材料和形状编辑。 合成和真实数据集的实验表明,我们的方法在重建精度和计算效率方面优于先前的工作。

计算机图形学 计算机视觉与模式识别
ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting

ObjectGS:通过高斯溅射实现对象感知场景重建和场景理解

3D Gaussian Splatting以其高保真重建和实时新颖的观点合成而闻名,但其缺乏语义理解限制了对象级感知。 在这项工作中,我们提出了ObjectGS,一个对象感知框架,将3D场景重建与语义理解统一。 ObjectGS没有将场景视为一个统一的整体,而是将单个对象建模为生成神经高斯并共享对象ID的本地锚,从而实现精确的对象级重建。 在训练过程中,我们动态地生长或修剪这些锚并优化它们的特征,而带有分类损失的一次性ID编码可以强制执行明确的语义约束。 我们通过广泛的实验表明,ObjectGS不仅在开放词汇和泛光分割任务方面优于最先进的方法,而且还与网格提取和场景编辑等应用程序无缝集成。 项目页面:https://ruijiezhu94.github.io/ObjectGS_page

计算机图形学 人工智能 计算机视觉与模式识别
Real-Time Scene Reconstruction using Light Field Probes

使用光场探测器进行实时场景重建

从图像中重建逼真的大规模场景,例如在城市规模上,是计算机图形学中长期存在的问题。 神经渲染是一种新兴技术,可以从以前未观察到的观点中实现逼真的图像合成;然而,最先进的神经渲染方法很难有效地渲染高复杂的大规模场景,因为这些方法通常以场景大小,保真度和渲染速度为质量。 其他技术利用场景几何形状进行重建。 但是,构建和维护大量几何数据的成本随着场景大小的增长而增加。 我们的工作探索了新颖的视图合成方法,无需明确使用场景几何形状即可有效地重建复杂的场景。 具体来说,给定场景的稀疏图像(从现实世界捕获),我们重建了场景几何形状的中间,多尺度,隐式表示。 通过这种方式,我们的方法避免了明确依赖于场景几何,大大降低了维护大型3D数据的计算成本。 与当前方法不同,我们使用探针数据结构重建场景。 探头数据保存高度精确的密集数据点的深度信息,从而实现高度复杂的场景的重建。 通过使用探针数据重建场景,渲染成本独立于场景的复杂性。 因此,我们的方法结合了几何重建和新颖的视图合成。 此外,在渲染大规模场景时,压缩和流式探头数据比使用显式场景几何图形更有效。 因此,我们的神经表示方法可以潜在地应用于虚拟现实(VR)和增强现实(AR)应用。

计算机图形学 计算机视觉与模式识别
Neural Shell Texture Splatting: More Details and Fewer Primitives

神经壳纹理溅射:更多细节和更少的原始生物

高斯溅射技术在新颖的视图合成中显示出有希望的结果,实现了高保真度和效率。 然而,它们的高重建质量是以需要大量的原语为代价的。 我们确定这个问题源于几何学的纠缠和外观在高斯溅射。 为了解决这个问题,我们引入了一个神经壳纹理,一个全局表示,它编码表面周围的纹理信息。 我们使用高斯原语作为几何表示和纹理字段采样器,有效地将纹理特征溅入图像空间。 我们的评估表明,这种解纠缠可以实现高参数效率,精细纹理细节重建和易于纹理网格提取,同时使用更少的原语。

计算机图形学 计算机视觉与模式识别
ChoreoMuse: Robust Music-to-Dance Video Generation with Style Transfer and Beat-Adherent Motion

ChoreoMuse:具有风格传输和节拍动作的稳健音乐到舞蹈视频生成

现代艺术作品越来越需要自动化的舞蹈编排,以适应不同的音乐风格和个人舞者的特点。 现有方法通常无法制作与音乐节奏和用户定义的编舞风格相协调的高质量舞蹈视频,限制了它们在现实世界中的适应性。 为了解决这一差距,我们引入了ChoreoMuse,这是一个基于扩散的框架,它使用SMPL格式参数及其变体版本作为音乐和视频生成之间的中介,从而克服了视频分辨率带来的通常限制。 至关重要的是,ChoreoMuse支持风格可控,高保真舞蹈视频生成,跨越不同的音乐类型和个人舞者特征,包括以任何分辨率处理任何参考个人的灵活性。 我们的方法采用新颖的音乐编码器MotionTune来捕捉音频中的动作线索,确保生成的编舞密切遵循输入音乐的节拍和表现力。 为了定量评估生成的舞蹈与音乐和舞蹈风格相匹配的程度,我们引入了两个新的指标,以衡量与预期风格线索的对齐。 广泛的实验证实,ChoreoMuse在多个维度上实现了最先进的性能,包括视频质量,节拍对齐,舞蹈多样性和风格依从性,展示了其作为广泛创意应用的稳健解决方案的潜力。 视频结果可以在我们的项目页面找到:https : / /choreomuse.github.io。

计算机图形学 人工智能 计算机视觉与模式识别

最新研究

PS-GS:用于多视图光度立体的高斯电镀

将逆渲染与多视图光刻板(MVPS)集成,比依赖固定环境照明的逆渲染方法产生更精确的3D重建。 然而,使用MVPS的高效反向渲染仍然具有挑战性。 为了填补这一空白,我们引入了高斯多视图光度立体声(PS-GS),它高效并共同估计了由不同方向灯(多光)照明的物体的几何形状,材料和照明。 我们的方法首先将标准的2D高斯溅射模型重建为初始几何形状。 基于初始化模型,它然后通过包含照明计算多层感知器的完整渲染方程进行递延反向渲染。 在整个优化过程中,我们通过未校准的光度立体声估计正常值来规范渲染正常地图。 我们还提出了用于单向光的2D高斯射线追踪,以完善事件照明。 多视图和多光图像的正则化和使用减轻了逆渲染的不良问题。 经过优化后,重建的对象可用于新颖的视图合成,重新点亮以及材料和形状编辑。 合成和真实数据集的实验表明,我们的方法在重建精度和计算效率方面优于先前的工作。

计算机图形学计算机视觉与模式识别
arXiv

神经壳纹理溅射:更多细节和更少的原始生物

高斯溅射技术在新颖的视图合成中显示出有希望的结果,实现了高保真度和效率。 然而,它们的高重建质量是以需要大量的原语为代价的。 我们确定这个问题源于几何学的纠缠和外观在高斯溅射。 为了解决这个问题,我们引入了一个神经壳纹理,一个全局表示,它编码表面周围的纹理信息。 我们使用高斯原语作为几何表示和纹理字段采样器,有效地将纹理特征溅入图像空间。 我们的评估表明,这种解纠缠可以实现高参数效率,精细纹理细节重建和易于纹理网格提取,同时使用更少的原语。

计算机图形学计算机视觉与模式识别
arXiv

ChoreoMuse:具有风格传输和节拍动作的稳健音乐到舞蹈视频生成

现代艺术作品越来越需要自动化的舞蹈编排,以适应不同的音乐风格和个人舞者的特点。 现有方法通常无法制作与音乐节奏和用户定义的编舞风格相协调的高质量舞蹈视频,限制了它们在现实世界中的适应性。 为了解决这一差距,我们引入了ChoreoMuse,这是一个基于扩散的框架,它使用SMPL格式参数及其变体版本作为音乐和视频生成之间的中介,从而克服了视频分辨率带来的通常限制。 至关重要的是,ChoreoMuse支持风格可控,高保真舞蹈视频生成,跨越不同的音乐类型和个人舞者特征,包括以任何分辨率处理任何参考个人的灵活性。 我们的方法采用新颖的音乐编码器MotionTune来捕捉音频中的动作线索,确保生成的编舞密切遵循输入音乐的节拍和表现力。 为了定量评估生成的舞蹈与音乐和舞蹈风格相匹配的程度,我们引入了两个新的指标,以衡量与预期风格线索的对齐。 广泛的实验证实,ChoreoMuse在多个维度上实现了最先进的性能,包括视频质量,节拍对齐,舞蹈多样性和风格依从性,展示了其作为广泛创意应用的稳健解决方案的潜力。 视频结果可以在我们的项目页面找到:https : / /choreomuse.github.io。

计算机图形学人工智能计算机视觉与模式识别多媒体
arXiv

小小不够小:通过混合知识蒸馏,高质量、低资源的面部动画模型

面向语音驱动的3D面部动画的高质量、稳健的机器学习模型的训练需要大量、多样化的高质量音频动画对数据集。 为了克服缺乏这样的数据集,最近的工作引入了大型预训练语音编码器,这些编码器对输入音频的变化非常可靠,因此,使面部动画模型能够泛化扬声器,音频质量和语言。 然而,由此产生的面部动画模型非常大,只能在专用机器上离线推理。 在这项工作中,我们探索游戏开发背景下的设备实时面部动画模型。 我们通过使用混合知识蒸馏与伪标签来克服大型数据集的缺乏。 给定一个大型音频数据集,我们使用高性能的教师模型来训练非常小的学生模型。 与预先训练的语音编码器相反,我们的学生模型仅由卷积和完全连接的层组成,消除了对注意力上下文或经常性更新的需求。 在我们的实验中,我们证明我们可以将内存占用量减少到3.4 MB,并且需要未来的音频上下文高达81毫秒,同时保持高质量的动画。 这为设备内推理铺平了道路,这是迈向现实、模型驱动的数字字符的重要一步。

计算机图形学机器学习多媒体声音处理
arXiv

量子 机器 学习 游乐场

本文介绍了一种创新的交互式可视化工具,旨在揭开量子机器学习(QML)算法的神秘面纱。 我们的工作受到经典机器学习可视化工具(如TensorFlow Playground)的成功的启发,旨在弥合专门用于QML领域的可视化资源差距。 文章全面概述了量子计算和经典机器学习的相关可视化隐喻,算法可视化概念的开发,以及作为交互式Web应用程序的具体实现设计。 通过将所谓的数据重新上传通用量子分类器作为代表性的QML模型的共同可视化隐喻相结合,本文旨在降低量子计算的进入障碍,并鼓励该领域的进一步创新。 附带的交互式应用程序是用于学习和探索QML模型的量子机器学习游乐场的第一个版本的提案。

量子物理学计算机图形学机器学习
arXiv

可控视频生成:调查

随着AI生成内容(AIGC)的快速发展,视频生成已成为其最具活力和影响力的子领域之一。 特别是,视频生成基础模型的进步导致对可控制的视频生成方法的需求不断增长,这些方法可以更准确地反映用户的意图。 大多数现有的基础模型都是为文本到视频生成的,其中文本提示本身往往不足以表达复杂、多模式和细粒度的用户需求。 这种限制使用户难以使用当前模型进行精确控制的视频。 为了解决这个问题,最近的研究已经探索了其他非文本条件的整合,如相机运动,深度图和人姿势,以扩展预训练的视频生成模型,并实现更可控的视频合成。 这些方法旨在提高AIGC驱动的视频生成系统的灵活性和实用性。 在这项调查中,我们提供了可控视频生成的系统综述,涵盖了理论基础和该领域的最新进展。 我们首先介绍关键概念和常用的开源视频生成模型。 然后,我们专注于视频扩散模型中的控制机制,分析如何将不同类型的条件纳入去噪过程以指导生成。 最后,我们根据它们利用的控制信号类型对现有方法进行分类,包括单条件生成、多条件生成和通用可控生成。 有关所审查的可控制视频生成文献的完整列表,请访问我们的精选存储库https : / /github.com/mayuelala/Awesome-Controllable-Video-Generation。

计算机图形学计算机视觉与模式识别
arXiv

社交媒体平台的缓解对用户的影响

社交媒体平台提供了许多好处,让人们为了各种原因走到一起。 许多社区、学术界、政府机构、机构、医疗保健、娱乐和企业都在社交媒体平台上。 它们直观,对用户免费。 没有社交媒体的生活已经变得难以想象。 他们的架构和数据处理面向可扩展性、不间断可用性以及个人和协作创收。 人工智能算法主要应用于存储的用户数据,用于优化和馈送。 这有可能影响用户的安全、隐私和安全,即使使用元数据。 提出了基于分形树和L-Systems算法的新分散数据安排框架,以减轻社交媒体平台的一些影响。 未来的工作将侧重于展示新的分散框架的有效性,将其成果与目前数据库中使用的最先进的安全方法进行比较。 也可以为框架实现加密算法,为每个分支采用新的密钥生成。 这将加强数据库安全性;例如,如果用户密钥被泄露,则通过在拟议的基于L-System的树框架中应用防御机制,为每个分支重新生成密钥将保持数据安全。

密码学与安全计算机与社会计算机图形学
arXiv

GSCache:使用3D高斯电镀的实时辐射缓存用于体积路径跟踪

实时路径跟踪正迅速成为娱乐和专业应用中渲染的标准。 在科学可视化中,体积渲染在帮助研究人员分析和解释复杂的3D数据方面起着至关重要的作用。 最近,逼真的渲染技术在科学可视化中越来越受欢迎,但它们面临着重大挑战。 最突出的问题之一是蒙特卡洛集成导致的渲染性能缓慢和高像素方差。 在这项工作中,我们引入了一种新的辐射缓存方法,用于路径跟踪的体积渲染。 我们的方法利用了体积场景表示的进步,并将3D Gaussian溅射调整为多级路径空间辐射缓存。 该缓存旨在随行可训练,动态适应场景参数的变化,如照明配置和传输功能。 通过结合我们的缓存,我们实现了更少的噪音,更高质量的图像,而不会增加渲染成本。 为了评估我们的方法,我们将它与支持统一采样和次事件估计的基线路径跟踪器以及神经辐射缓存的最先进的方法进行比较。 通过定量和定性分析,我们证明了我们的路径空间辐射缓存是一种强大的解决方案,易于集成,并显着提高了体积可视化应用程序的渲染质量,同时保持了可比的计算效率。

计算机图形学机器学习
arXiv

GeoAvatar:用于3D头像的自适应几何高斯电镀

尽管最近在3D头像生成方面取得了进展,但平衡身份保存,即重建,以及新颖的姿势和表情,即动画,仍然是一个挑战。 现有方法难以使高斯人适应面部区域不同的几何偏差,导致质量不理想。 为了解决这个问题,我们提出了GeoAvatar,一个自适应几何高斯溅射的框架。 GeoAvatar利用自适应预分配阶段(APS),这是一种无监督方法,将高斯分为刚性和灵活的集合,以实现自适应抵消正则化。 然后,根据口腔解剖学和动力学,我们引入了新颖的口腔结构和部分变形策略,以增强口腔的动画保真度。 最后,我们提出了高斯人和3DMM人脸之间精确操纵的正则化损失。 此外,我们还发布了DynamicFace,一个具有高度表现力的面部动作的视频数据集。 广泛的实验显示了GeoAvatar在重建和新颖动画场景中与最先进的方法相比的优越性。

计算机图形学计算机视觉与模式识别机器学习
arXiv

聚合感知MLP:图形消息传递的无监督方法

图形神经网络(GNN)已经成为学习图形表示的主要方法,主要是因为它们的消息传递机制。 然而,GNN通常采用固定的聚合器函数,如Mean,Max或Sum,而没有选择背后的原则推理。 这种僵化,特别是在异性的存在下,往往导致不良,问题依赖性的表现。 虽然有些尝试通过设计更复杂的聚合函数来解决这个问题,但这些方法往往严重依赖标记数据,这在现实世界的任务中往往很少。 在这项工作中,我们提出了一个新的无监督框架,“聚合感知多层感知器”(AMLP),它将范式从直接制作聚合函数转变为使MLP适应聚合。 我们的轻量级方法包括两个关键步骤:第一,我们使用图形重建方法,促进高阶分组效应,第二,我们采用单层网络对不同程度的杂性进行编码,从而提高模型的容量和适用性。 关于节点聚类和分类的广泛实验证明了AMLP的卓越性能,突出了其用于各种图形学习场景的潜力。

机器学习人工智能计算机图形学
arXiv

采用基于网格的 LoRA 实现零射击动态概念个性化

文本到视频生成的最新进展使文本和图像提示的高质量合成成为可能。 虽然动态概念的个性化,从单个视频中捕获特定主题的外观和运动,现在可行,但大多数现有方法都需要实例微调,限制可扩展性。 我们引入了一个完全零拍摄框架,用于文本到视频模型中的动态概念个性化。 我们的方法利用结构化的 2x2 视频网格,在空间上组织输入和输出对,从而能够训练轻量级的 Grid-LoRA 适配器,以便在这些网格中进行编辑和构图。 在推理中,专用的Grid Fill模块完成部分观察到的布局,产生时间连贯和身份保存输出。 一旦经过训练,整个系统只需向前通,在没有任何测试时间优化的情况下推广到以前看不见的动态概念。 广泛的实验在训练概念和编辑场景之外的广泛主题中展示了高质量和一致的结果。

计算机图形学计算机视觉与模式识别机器学习
arXiv

StreamME:在直播中简化3D高斯阿凡达

我们提出StreamME,一种专注于快速3D头像重建的方法。 StreamME 同步记录并重建来自实时视频流的头部头像,而无需任何预先处理的数据,从而实现将重建的外观无缝集成到下游应用程序中。 这种非常快速的培训策略,我们称之为实时训练,是我们方法的核心。 我们的方法建立在3D高斯溅射(3DGS)的基础上,消除了在可变形的3DGS中对MLP的依赖,并且完全依赖于几何形状,从而显着提高了对面部表情的适应速度。 为了进一步确保实时训练的高效率,我们引入了基于主要点的简化策略,该策略将点云分布在面部表面更稀疏,优化点数,同时保持渲染质量。 利用即时训练功能,我们的方法保护面部隐私,减少VR系统或在线会议中的通信带宽。 此外,它可以直接应用于下游应用程序,如动画,toonify和重开。 详情请参阅我们的项目页面:https : / /songluchuan.github.io/StreamME / 。

计算机图形学人工智能计算机视觉与模式识别
arXiv

GhostUMAP2:测量和分析(r,d)-UMAP的可稳定性

尽管广泛使用了统一歧管近似和投影(UMAP),但其随机优化过程对结果的影响仍然未被充分开发。 我们观察到,它经常产生不稳定的结果,其中数据点的预测主要是偶然决定的,而不是反映邻近的结构。 为了解决这个限制,我们向UMAP介绍了(r,d)-稳定:一个分析投影空间中数据点随机定位的框架。 为了评估随机元素,特别是初始投影位置和负采样,影响UMAP结果,我们引入了“幽灵”,或代表因随机性而导致潜在位置变化的数据点的重复。 我们将数据点的投影定义为(r,d)稳定,如果它的幽灵在初始投影中半径r的圆圈内仍然被限制在半径d的圆圈内,以进行最终位置。 为了有效地计算幽灵投影,我们开发了一个自适应下降方案,将运行时减少到60个。

计算机图形学人机交互机器学习
arXiv

现实代理:通过抽象表示在MR中与真实世界对象的流体相互作用

与混合现实(MR)中的现实对象互动往往证明是困难的,当它们拥挤,遥远或部分遮挡时,阻碍了直接的选择和操纵。 我们观察到,这些困难源于直接在物理对象上进行交互,其中输入与其物理约束紧密耦合。 我们的关键见解是通过引入现实世界对象的代理-抽象表示,将这些约束与这些约束的交互解耦。 我们在Reality Proxy中体现了这个概念,该系统在选择过程中将交互目标从物理对象无缝地转移到其代理。 除了促进基本选择之外,Reality Proxy还使用AI来丰富具有语义属性的代理和相应的物理对象的分层空间关系,在MR中实现新颖和以前繁琐的交互 - 例如浏览,基于属性的过滤,导航嵌套组和复杂的多对象选择 - 所有这些都不需要新的手势或菜单系统。 我们展示了Reality Proxy在不同场景的通用性,包括办公室信息检索、大规模空间导航和多无人机控制。 专家评估表明该系统的实用性和可用性,表明基于代理的抽象为未来MR系统提供了一种强大且可推广的交互范式。

人机交互人工智能计算机图形学
arXiv

使用 Tensor 统一线性比较分析的可视化分析

比较张量和识别其(不同的)相似结构是理解复杂数据的潜在现象的基础。 减压方法帮助分析师提取张量的基本特征,并帮助进行张量分析。 与仅用于分析矩阵(即二阶张量)的降维(DR)方法相比,现有的张量分解方法不支持灵活的比较分析。 为了解决这一分析限制,我们引入了一种新的张量分解方法,称为张量统一线性比较分析(TULCA),通过扩展其DR对应物ULCA进行张量分析。 TULCA集成了用于张量分解的判别分析和对比式学习方案,实现了张量的复杂比较。 我们还引入了一种有效的方法,将从TULCA中提取的核心张量可视化到一组2D可视化中。 我们将TULCA的功能集成到可视化分析界面中,以支持分析师解释和完善TULCA结果。 我们展示了TULCA和视觉分析界面与计算评估和两个案例研究的功效,包括对从超级计算机收集的日志数据的分析。

人机交互计算机图形学机器学习
arXiv

从稀疏的航空点云中生成实时详细地面可视化

构建逼真的大面积户外3D内容,具有足够的视觉质量,以观察行走的眼睛水平或驾驶车辆,通常由擅长建模,纹理,材料着色和照明的大型艺术家团队进行,这通常会导致令人望而却步的成本和降低的准确性,以尊重各种现实世界的地面真相景观。 在我们提出的方法中,我们定义了一个过程,以自动放大真实世界的扫描数据,并在动画3D中实时呈现,以高质量探索训练,模拟,视频游戏和可视化应用。

计算机图形学计算机视觉与模式识别
arXiv

密度图的可视化驱动照明

我们为密度图提出了一种新的可视化驱动的照明模型,这是一种通过有效揭示高密度区域和低密度区域异常的详细结构来增强密度图的新技术,同时避免密度场的颜色中的工件。 当可视化大和致密的离散点样本时,散点图和点密度图经常受到过度绘制的影响,密度图通常用于提供聚合视图,同时揭示底层结构。 然而,在这样的密度图中,现有的照明模型可能会产生颜色失真,并在低密度区域隐藏细节,因此很难查找密度值,比较它们并找到异常值。 这项工作的关键新颖性包括(i)可视化驱动的照明模型,该模型本质上支持密度图特异性分析任务和(ii)一种新的图像组成技术,以减少图像着色和颜色编码密度值之间的干扰。 为了证明我们技术的有效性,我们进行了一项定量研究,在对照研究中对我们的技术进行了实证评估,以及两个案例研究,探索了12个数据集,其中包含多达200万个数据点样本。

计算机图形学人机交互
arXiv

科学家问题:关于超结构化四边形网对有限元分析趋同和准确性的影响的研究

在工业界和学术界的现行实践中,有限元计算的收敛和准确性与网状生成的方法和质量密切相关。 多年来,国内学术领域对高质量网状生成的研究主要是指四边形和六面体的局部质量近似于正方形和立方体的局部质量。 本文的主要贡献是提出一个全新的研究方向和内容:有必要探索和研究超结构化四边形网格的整体全局排列结构和模式对有限元计算收敛和计算精度的影响。 通过这一新领域的研究,它可以帮助解决当前行业和学术界模拟期间在网状生成阶段严重依赖“经验”的非严格状态,并明确判断网状生成哪些全球安排可以确保有限元计算趋同。 为了生成和设计具有可控整体排列结构的超结构四边形网格,需要大量现代二维和三维几何拓扑理论,如模数空间、Teichmüller空间、谐波叶波、动力学系统、表面映射、表层映射、混音二次差分、表面映射等。

计算机图形学数值分析
arXiv

TiVy:用于可扩展可视化的时间序列可视化摘要

可视化多个时间序列提供了可扩展性和可视清晰度之间的基本权衡。 时间序列捕捉了许多大型现实世界过程的行为,从股市趋势到城市活动。 用户通常通过将它们可视化为行图,并列或叠加多个时间序列来获取见解,以比较它们并确定趋势和模式。 然而,现有的表示与可扩展性相匪:当覆盖长时间跨度时,导致视觉混乱来自太多小倍数或重叠线。 我们提出了TiVy,这是一种使用顺序模式总结时间序列的新算法。 它使用动态时间翘曲(DTW)将序列转换为一组基于子序列视觉相似性的符号序列,然后根据频繁的顺序模式构建类似子序列的不连接分组。 分组结果,时间序列的视觉摘要,提供不杂乱的叠加,小倍数较少。 与常见的聚类技术不同,TiVy提取类似的子序列(长度不同)的时间对齐。 我们还介绍了交互式时间序列可视化,实时呈现大规模时间序列。 我们的实验评估表明,我们的算法(1)在可视化时间序列数据时提取清晰准确的模式,(2)与直接的DTW聚类相比,实现了显着的提速(1000X)。 我们还展示了在两个使用场景中探索大规模时间序列数据中隐藏结构的方法的效率。

计算机图形学机器学习
arXiv

采取语言嵌入式3D高斯飞向野外

利用大型互联网照片收藏进行3D重建的最新进展使全球地标和历史遗迹的沉浸式虚拟探索成为可能。 然而,对建筑风格和结构知识的沉浸式理解几乎没有受到关注,这在很大程度上仍然局限于浏览静态文本图像对。 因此,我们是否可以从3D内野生重建技术中汲取灵感,并使用无约束的照片集合来创建理解建筑组件的3D结构的沉浸式方法? 为此,我们扩展了语言嵌入式3D高斯拼接(3DGS),并提出了从无约束的照片集合中开放词汇场景理解的新框架。 具体来说,我们首先从与未受约束的图像相同的视角与重建的辐射场渲染多个外观图像,然后提取多外观CLIP特征和两种类型的语言特征不确定性map-transient和外观不确定性衍生的多外观特征,以指导后续优化过程。 接下来,我们提出了一个瞬态感知自动解码器,一个多外观语言字段3DGS表示,以及一个后集成策略,从多个外观中有效地压缩,学习和融合语言特征。 最后,为了定量评估我们的方法,我们引入了PT-OVS,这是一个新的基准数据集,用于评估无约束照片集合的开放词汇分割性能。 实验结果表明,我们的方法优于现有方法,提供准确的开放词汇分割,并启用具有开放词汇查询的交互式漫游,架构风格模式识别和3D场景编辑等应用程序。

计算机图形学计算机视觉与模式识别
arXiv