PanDelos-plus: A parallel algorithm for computing sequence homology in pangenomic analysis
Simone Colli, Emiliano Maresi and Vincenzo Bonnici
跨多个基因组对同源基因家族的鉴定是细菌泛基因组学的核心任务,传统上需要计算要求所有对抗的比较。 PanDelos采用基于k-mer配置文件的无对齐和无参数方法解决这一挑战,将高速,易用性和竞争准确性与最先进的方法相结合。 然而,基因组数据的日益可用性需要能够有效地扩展到更大的数据集的工具。 为了解决这一需求,我们介绍了PanDelos-plus,一个完全并行的,以基因为中心的PanDelos重新设计。 该算法通过数据分解和线程池策略并行化计算最密集的阶段(最佳命中检测和双向最佳点击提取),同时采用轻量级数据结构来减少内存使用。 合成数据集的基准显示,PanDelos-plus 的执行速度更快,内存使用量减少了高达 96%,同时保持了准确性。 这些改进使人口规模的比较基因组学能够在标准多核工作站上进行,使大规模的细菌泛基因组分析可用于日常研究。
The identification of homologous gene families across multiple genomes is a central task in bacterial pangenomics traditionally requiring computationally demanding all-against-all comparisons. PanDelos addresses this challenge with an alignment-free and parameter-free approach based on k-mer profiles, combining high speed, ease of use, and competitive accuracy with state-of-the-art methods. However, the increasing availability of genomic data requires tools that can scale efficiently to larger d...