代数拓扑学研究快报
相关分类
最新研究
拓扑满足机器学习:使用欧拉特征转换的介绍
本文介绍了拓扑概念如何丰富机器学习研究。 使用欧拉特征变换(ECT),几何拓扑不变性,作为运行示例,我提出了不同的用例,从而产生更有效的模型,用于分析点云,图形和网格。 此外,我概述了未来如何使用拓扑概念的愿景,包括:(1)在拓扑空间上学习函数,(2)构建混合模型,使神经网络了解数据中的拓扑信息,(3)分析神经网络的定性特性。 由于目前的研究已经解决了其中的一些方面,本文因此成为这个新生研究领域的介绍和邀请。
探索RL游戏的分层空间结构与体积增长变换
在这项工作中,我们探索了为玩特定强化学习(RL)游戏而训练的变压器模型的嵌入空间的结构。 具体来说,我们研究基于变压器的近端策略优化(PPO)模型如何在一个简单的环境中嵌入视觉输入,在这个环境中,代理必须收集“硬币”,同时避免由“聚光灯”组成的动态障碍。 通过将Robinson等人对LLM的体积增长变换的研究改编为RL设置,我们发现我们的视觉硬币收集游戏的令牌嵌入空间也不是一个多方面,并且更好地建模为分层空间,局部维度可能因点而异。 我们通过证明相当普遍的体积增长曲线可以通过分层空间来实现,从而进一步加强了鲁滨逊的方法。 最后,我们进行一项分析,表明作为RL代理的行为,其潜在表示在低局部维度的时期之间交替,同时遵循固定的子策略,以及高局部维度的爆发,其中代理实现子目标(例如,收集对象)或环境复杂性增加的地方(例如,出现更多的障碍)。 因此,我们的工作表明,分层潜在空间中尺寸的分布可能为RL游戏提供一个新的几何复杂性指标。
拓扑社会选择:为持久性图设计噪声强光极距离
拓扑数据分析(TDA)已成为从嘈杂的高维数据中提取强大和可解释特征的强大框架。 在社会选择理论的背景下,偏好简介和集体决定是几何丰富的,但对扰动很敏感,TDA在很大程度上仍未被探索。 这项工作引入了这些领域之间的新概念桥梁,为针对嘈杂的偏好数据量身定制的持久性图提出了新的度量框架。 我们定义了一个基于极坐标的距离,以平滑和可区分的方式捕获拓扑特征的大小和方向。 我们的度量标准解决了经典距离的关键限制,例如瓶颈和Wasserstein,包括扰动下的不稳定,缺乏连续性以及与梯度学习的不相容。 由此产生的公式在理论和应用设置中提供了改进的行为。 据我们所知,这是首次系统地将持久性同源应用于社会选择系统的研究,为比较投票结构和偏好动力学的拓扑摘要提供了数学基础的方法。 我们通过广泛的实验(包括鲁棒性测试和监督学习任务)证明了我们方法的优越性,我们提出了一个模块化管道,用于从在线偏好数据构建预测模型。 这项工作为拓扑学和决策理论的新兴界面提供了概念上新颖和计算有效的工具,为政治和经济系统的可解释机器学习开辟了新的方向。
Peterson hit问题的矩阵准则与算法方法:第一部分
代数拓扑中的Peterson hit问题旨在显式确定正次数下商空间Q𝒫_k = 𝔽_2⊗_𝒜𝒫_k的维数,其中𝒫_k表示域𝔽_2上k个变量的多项式代数,被视为Steenrod代数𝒜上的不稳定模。目前解决该问题的方法仍严重依赖手工计算,由于底层计算的复杂性,这些方法极易出错。迄今为止,尚未有任何计算机代数系统中实现的高效算法能系统地解决这个问题。受此启发,在本工作(作为我们项目的第一部分)中,我们首先建立了一个完全基于线性代数的准则,用于判断给定齐次多项式是否为"hit"。据此,我们描述了hit空间的维数。这导致了一种实用可靠的计算方法,在计算机代数系统的支持下,可以确定任意k和正次数下Q𝒫_k的维数。然后我们在SageMath中将所得结果具体实现为新颖算法。作为应用,我们的算法表明Sum和Tai近期工作[15]中关于Q𝒫_5在2^6次数下维数的手工计算结果是不正确的。此外,我们的算法确定(Q𝒫_5)_2^7 = 1985,这落在[15]中估计的1984 ≤(Q𝒫_5)_2^7≤ 1990范围内。
通过持久路径同源分析离散平面矢量场中的奇点模式
分析矢量场中的奇异模式是理论和实践领域中的一个基本问题,因为这些模式能够检测矢量场的内在特征。 在这项研究中,我们提出了一种分析离散平面向量场的奇异模式的方法。 我们的方法涉及将平面离散向量字段转换为专门的digraph并计算其一维持久路径同源。 通过分析持久性图,我们可以确定奇点的位置,也可以分析奇异模式的变化。 实验结果证明了我们的方法在分析嘈杂现实世界矢量场的奇异模式和测量不同矢量场之间的变化方面的有效性。
计算合成同源理论同源类型理论
本文讨论了同源类型理论(HoTT)中合成同源学的发展,以及其计算机形式化。 本文的目标是(1)将当前作者和Brunerie(2022)在HoTT中关于整体共等学的工作推广到具有任意系数的共等学,(2)提供当前作者和Lamiaux(2023)对共同词组学环计算机形式化的结果的数学细节和扩展。 关于目标(1),我们提供了新的直接定义共青团操作和杯子产品,正如在(Brunerie等人,2022年)一样,使许多早期证明在合成共青素学理论中显着简化。 特别是,杯子产品的新定义使我们能够首次完全正式化将同源组变成分级交换环所需的公理。 我们还确定,这种同源理论满足了Eilenberg-Steenrod共源学的HoTT公式,并研究了经典的Mayer-Vietoris和Gysin序列。 关于目标(2),我们描述了各种空间的同源群和环,包括球体,环,克莱因瓶,真实/复杂的投影平面和无限真实的投影空间。 所有结果都在Cubical Agda中正式化,我们获得了多个新数字,类似于着名的“Brunerie数字”,可以作为HoTT计算实现的基准。 其中一些数字在Cubical Agda中无法计算,因此提供了新的计算挑战和开放问题,这些问题比原始Brunerie数字更容易定义。
拓扑机器学习与未减少的持久性图
被实验观察到基于持久同源性特征训练的受监督机器学习管道,以忽略持久性图中包含的大部分信息。 然而,计算持久性图通常是这种管道中计算要求最高的一步。 为了探索这一点,我们引入了几种方法,从未减少的边界矩阵中生成拓扑特征向量。 我们将未减少的PD的矢量化训练的管道的性能与几种数据和任务类型的完全减少PD的矢量化进行了比较。 我们的结果表明,在未减少的图表构建的PD上训练的模型可以按标准执行,甚至可以优于在某些任务中完全减少的图表上训练的模型。 该观察表明,包含基于拓扑特征的机器学习管道可以通过利用未减少的边界矩阵中包含的信息在计算成本和性能方面受益。
使用欧拉特征变换的分子机器学习
分子的形状决定了其物理化学和生物性质。 然而,它在标准分子表示学习方法中的代表性往往不足。 在这里,我们建议使用欧拉特征变换(ECT)作为几何拓扑描述符。 ECT直接基于由手工制作的原子特征衍生的分子图,可以提取多尺度结构特征,提供在特征空间中表示和编码分子形状的新方法。 我们评估9个基准回归数据集中这种表示的预测性能,所有这些都围绕预测抑制常数K_i。 此外,我们将我们提出的基于ECT的表示与传统分子表征和方法(如分子指纹/描述符和图形神经网络(GNN))进行比较。 我们的结果表明,我们基于ECT的表示实现了竞争表现,在几个数据集上排名最佳的方法。 更重要的是,它与传统的表示,特别是与AVALON指纹的结合,显着提高了预测性能,在大多数数据集上优于其他方法。 这些发现强调了多尺度拓扑信息的补充价值及其与既定技术相结合的潜力。 我们的研究表明,结合显式形状信息的混合方法可以带来更丰富和强大的分子表征,增强和打开分子机器学习任务的新途径。 为了支持可重复性并促进开放生物医学研究,我们提供对这项工作中使用的所有实验和代码的开放访问。
从拓扑中学习:基于大尺度结构的宇宙学参数估计
宇宙大尺度结构的拓扑包含有关基础宇宙学参数的宝贵信息。虽然persistent homology可以提取这种拓扑信息,但从该工具进行参数估计的最佳方法仍是一个悬而未决的问题。为此,我们提出了一种神经网络模型,将persistence图像映射到宇宙学参数。通过参数恢复测试,我们证明我们的模型能做出准确而精确的估计,显著优于传统的贝叶斯推断方法。
加权定向图谱上持续同源的行走长缰砰
定向图形出现在许多应用中,其中计算持久同源有助于编码输入信息的形状和结构。 然而,只有几种方法可以将定向图形信息转换为标准持久同源框架所需的无定向简单复杂过滤。 在本文中,我们提出了一种新的过滤,由定向图形构建,称为行走长度过滤。 这种过滤反映了小步行者在定向图中访问某些顶点的行为。 我们表明,虽然在通常的L_∞式网络距离下,持久性不稳定,但广义的L_1式距离确实稳定。 我们进一步为其计算提供了一种算法,并在示例中研究这种过滤的行为,包括循环网络和合成海马网络,重点是与经常使用的Dowker过滤进行比较。
Kühnel猜想对嵌入的二次估计
经典的Heawood不等式表示,如果n顶点上的完整图K_n用g手柄嵌入到球体中,那么g ≥(n-3)(n-4)12。 希伍德不等式的一个更高维度的类似物是库内尔猜想。 在简化的形式中,它指出每个整数 k>0 都有 c_k>0,如果 n-simplex 的 k-faces 的联盟嵌入到两个 k 维球体的笛卡尔产品 S^k× S^k 的 g 拷贝的连接总和中,那么 g≥ c_k n^k+1。 对于 k>1 已知只有线性估计。 我们提出了二次估计g≥c_k n^2。 证明是基于几何拓扑,组合学和线性代数之间的美丽和富有成效的相互作用。
运动型理论中的高压歧管
同源类型理论是一种逻辑环境,可以以合成方式执行几何构造和证明。 也就是说,类型可以解释为高达homotopy的空间,并且证明为同源不变结构。 在这种情况下,我们引入了一种与超立面相对应的类型,这是庞加莱在1895年首次引入的空间。 它的重要性源于这样一个事实,即它提供了四分位单位Q组的近似值,即是Q细胞解析的第一步。 为了确保我们定义的有效性,我们表明它满足了预期的属性:它是3个球体的同源引物由Q的预期动作。 这是非平凡的,需要根据扁平化的Lemma进行微妙的组合计算,从而说明同源型理论的有效性质。 最后,根据以前的构造,我们引入了这个流形的新更高维的泛化,对应于Q的更好的细胞近似值,向Q的去循环。
拓扑学保护数据增强中的扩展
我们提出了一个用于数据增强管道中数据集归一化算法框架,该框架在非均匀缩放转换下保持拓扑稳定性。 给定一个有限的度量空间 X ⊂R^n 与欧几里得距离 d_X,我们考虑缩放因子 s_1, s_2, ..., s_n > 0 定义的缩放变换。 具体来说,我们定义了一个缩放函数 S,该缩放函数 S 映射每个点 x = (x_1, x_2, ..., x_n) ∈ X 到 S(x) = (s_1 x_1, s_2 x_2, ..., s_n x_n)。 我们的主要结果确定,X的X和D_S的持久化图D之间的瓶颈距离d_B(D,D_S)满足:d_B(D,D_S)≤(s_max - s_min) ·diam(X),其中s_min = min_1 ≤ i≤ n s_i,s_max = max_1 ≤ i。 基于这个理论保证,我们制定了一个优化问题,以最小化约束 d_B(D, D_S) ≤ε下的缩放可变性 Δ_ssmax - s_min,其中 ε > 0 是用户定义的公差。 我们为此开发了一个算法解决方案,确保通过缩放转换进行数据增强保留基本的拓扑特征。 我们进一步将分析扩展到更高维度的同源特征,替代指标,如Wasserstein距离,以及迭代或概率缩放场景。 我们的贡献为数据增强管道中的数据集归一化提供了一个严格的数学框架,确保尽管扩展转换,仍能保持基本的拓扑特征。
拓扑相关性
我们介绍了两个新颖的概念,拓扑差异和拓扑相关性,为多参数持久性的判光力提供了新的视角。 前者量化了多参数和单参数持久性之间的差异,而另一个则利用这一差距来衡量过滤函数的相互依存关系。 我们的框架揭示了多参数比单参数持久性的表现优势,并提出了潜在的应用。
计算Betti表和零维持久同源的最小演示
多分级模块的Betti表对模块中发生代数变化的等级进行编码。 多等级模块出现在许多纯数学和应用数学领域,特别是在拓扑数据分析中,它们被称为持久性模块,并且它们的Betti表描述了过滤简单复合物同源性发生变化的地方。 虽然单层和大调模块的Betti表已经在拓扑数据分析的应用中使用,但它们在重层情况下的计算(依赖于过滤简单复合体大小的立方的算法)是处理大型数据集时的瓶颈。 我们表明,在零维同源(与聚类和图形分类相关)的特殊情况下,可以在日志线性时间计算大层模块的Betti表。 我们还考虑了计算最小演示文稿的问题,并表明零维持久同源的最小演示可以在二次时间计算,无论分级姿势如何。
拓扑学-感知3D高斯电镀:利用持续性同源性优化结构完整性
高斯溅射(GS)已成为表示离散容积辐射场的关键技术。 它利用独特的参数化来降低场景优化中的计算需求。 这项工作引入了拓扑-感知3D高斯溅射(拓扑-GS),它解决了当前方法中的两个关键限制:由于初始几何覆盖不完整而受损的像素级结构完整性,以及优化过程中拓扑约束不足导致的特征级完整性不足。 为了克服这些限制,Topology-GS采用了一种新的插值策略,局部持续Voranoi插值(LPVI),以及基于持久条形码的拓扑导向规范化术语,名为PersLoss。 LPVI利用持续性同源性来引导适应性插值,在保持拓扑结构的同时,提高低曲率区域的点覆盖。 PersLoss通过限制其拓扑特征之间的距离,将渲染图像的视觉感知相似性与地面真理对齐。 对三个新颖视图合成基准的综合实验表明,Topology-GS在PSNR,SSIM和LPIPS指标方面优于现有方法,同时保持高效的内存使用。 这项研究开创了拓扑与3D-GS的整合,为该领域未来的研究奠定了基础。
复杂网络的分形维度:倡导拓扑方法
拓扑数据分析(TDA)使用拓扑学的见解来创建能够捕获全局和局部几何和拓扑属性的数据表示。 其方法已成功用于开发对公制空间的分形尺寸的估计,这些空间已被证明优于现有技术。 在并行的工作线上,网络无处不在地用于对各种复杂系统进行建模。 高阶相互作用,即两个以上节点之间的同时相互作用,在社会和生物系统中广泛传播,TDA中使用的简单复合物可以通过模拟这种高阶相互作用来捕获网络的重要结构和拓扑特性。 在这篇立场文件中,我们主张使用TDA的方法来估计复杂网络的分形维度,我们讨论了这种方法的可能优势,并概述了需要解决的一些挑战。
线性尺寸的稀疏多盖双渗透
半径 r 的 R^d 点云 X 的 k 层盖是至少 k 个点 x 的距离 r 内所有点的集。 通过不同的r和k,我们获得了一个双参数过滤,称为多盖双过滤。 这种双过滤最近受到关注,因为它对异常值是无选择的和健壮的。 然而,很难计算:最小的已知等效的双过滤有 O(|X|^d+1) 简单化。 我们引入了线性尺寸 O(|X|) 的多盖双渗透(1+ε)近似,用于固定 d 和 ε。 这些方法也适用于在极限倍增尺寸的度量空间上的细分Rips双选,产生类似的结果。
使用分立方同源的数据分析
我们提出了一种新的数据分析工具:持久性离散同源性,非常适合分析图形的过滤。 特别是,我们提供了一种使用成对相关性将高维数据表示为图形过滤的新方法。 我们讨论了这些工具的几个应用,例如天气和财务数据,将它们与各自领域使用的标准方法进行比较。
不要害怕细胞复合物! 应用视角的介绍
细胞复合体(CCs)是一种更高阶的网络模型,深深植根于代数拓扑结构,最近对信号处理和网络科学产生了兴趣。 然而,虽然CC上支持的信号的处理可以用易于获得的代数或组合概念来描述,但通常提出的CC的定义是基于拓扑的抽象概念,并且仍然与为CC开发的信号处理方法断开。 在本文中,我们的目标是通过提供CC的简化定义来弥合这一差距,该定义可供更广泛的受众使用,并可用于实际应用。 具体来说,我们首先引入了抽象的正则细胞复合物(ARCC)的简化概念。 这些ARCC仅依赖于代数的概念,并且可以证明相当于大多数实际应用的常规细胞复合物。 其次,利用这个新定义,我们从网络科学和信号处理的角度为(抽象)细胞复合体提供了一个可访问的介绍。 此外,由于许多实际应用与尺寸2及以下的CC一起工作,我们为此提供了更简单的定义,大大简化了在实践中对CC的理解和工作。