Fast, memory-efficient genomic interval tokenizers for modern machine learning
Nathan J. LeRoy, Donald R. Campbell Jr, Seth Stadick, Oleksandr Khoroshevskyi, Sang-Hoon Park, Ziyang Hu, Nathan C. Sheffield
引言:来自高通量测序实验的表观基因组数据集通常被概括为基因组区间。 随着这些数据量的增长,通过深度学习分析它的兴趣也在增加。 然而,基因组区间数据的异质性,其中每个数据集定义自己的区域,为机器学习方法创造了障碍,需要一致的、离散的词汇。 方法:我们引入了gtars-tokenizers,这是一个高性能的库,将基因组间隔映射到预定义的宇宙或区域词汇,类似于自然语言处理中的文本标记化。 gtars-tokenizers 内置于 Rust 中,具有 Python、R、CLI 和 WebAssembly 的绑定,实现了两种重叠方法(BITS 和 AIList),并通过 Hugging Face 兼容 API 与现代 ML 框架无缝集成。 结果:gtars-tokenizers 包实现了大规模数据集的最高效率,同时使使用 PyTorch 和 TensorFlow 中的标准 ML 工作流程处理基因组间隔,无需临时预处理。 这种基于令牌的方法连接了基因组学和机器学习,支持跨不同计算环境的间隔数据的可扩展和标准化分析。 可用性:PyPI和GitHub:https://github.com/databio/gtars。
Introduction: Epigenomic datasets from high-throughput sequencing experiments are commonly summarized as genomic intervals. As the volume of this data grows, so does interest in analyzing it through deep learning. However, the heterogeneity of genomic interval data, where each dataset defines its own regions, creates barriers for machine learning methods that require consistent, discrete vocabularies. Methods: We introduce gtars-tokenizers, a high-performance library that maps genomic intervals ...