A Primer on Topological Data Analysis to Support Image Analysis Tasks in Environmental Science
Lander Ver Hoef and Henry Adams and Emily J. King and Imme Ebert-Uphoff
拓扑数据分析(TDA)是数据科学和数学领域的一种工具,正开始在环境科学领域产生影响。在这项工作中,我们试图对TDA中一个特别适用于图像分析的工具——persistent homology——提供一个直观易懂的介绍。我们简要讨论了理论背景,但主要侧重于理解该工具的输出并讨论它能获取哪些信息。为此,我们围绕一个指导性案例展开讨论,该案例使用Rasp等人2020年为研究中尺度云组织而创建的Sugar、Fish、Flower和Gravel数据集(arXiv:1906:01906)中的卫星图像分类。我们展示了persistent homology及其向量化形式persistence landscapes如何与简单的机器学习算法结合使用以获得良好结果,并详细探讨了如何从图像层面特征解释这种行为。persistent homology的核心优势之一是其可解释性,因此我们在本文中不仅讨论发现的模式,还解释为什么根据persistent homology理论可以预期这些结果。我们的目标是让读者在阅读本文后能更好地理解TDA和persistent homology,能够识别persistent homology可能有帮助的问题和数据集,并理解通过应用GitHub示例代码获得的结果。
Topological data analysis (TDA) is a tool from data science and mathematics that is beginning to make waves in environmental science. In this work, we seek to provide an intuitive and understandable introduction to a tool from TDA that is particularly useful for the analysis of imagery, namely persistent homology. We briefly discuss the theoretical background but focus primarily on understanding the output of this tool and discussing what information it can glean. To this end, we frame our discu...