Sentieon Arm版本:进一步降低基因组计算成本

前不久,Arm在其社区的HPC blog上发布了一篇Sentieon在低通量全基因组(LP-WGS)的应用案例。

图1

伴随着大规模基因组学的需求持续增长,基因测序成本的降低使得研究和分析更加广泛。而在基因组学的每一个应用背后,都有一系列计算密集型的数据准备和分析阶段。Sentieon的计算机科学家团队开发的关键基因组分析环节中屡获殊荣的算法得以实现,并成功优化了分析流程中这些计算密集型的部分,使时间和成本降低了5倍以上。迄今为止,Sentieon已被用来处理了近3艾字节的基因组数据。

而作为基因组数据生成、分析和管理领域的领军企业,Gencove的愿景是通过普及测序技术的应用,创造一个更加健康、更可持续发展的文明社会。为了给像 Gencove 这样的客户进一步降低成本,Sentieon的高级生物信息学科学家Don Freed指出:“我们看到利用云中更广泛可用的Arm CPU进一步降低计算成本的机会,并决定将我们的软件移植到Arm架构。”

 AWS Graviton 是 AWS 使用 Arm Neoverse 内核和系统 IP 开发的一系列 Arm 架构处理器。这些处理器在各种工作负载中提供最佳性价比,并针对通用、计算、内存或存储密集型工作负载优化了各种实例类型。Sentieon 和 Gencove 发现,使用 AWS Graviton3 将大大降低成本。

为了证明潜在的成本节约,Arm 对公开可用的 HG002 Illumina 短读长 30x WGS(全基因组测序)数据集进行了基准测试:使用Sentieon DNAscope流程比对至hg38参考基因组,并进行了短变异检测。

图2 跨基AWS EC2的实例进行全基因组测序的成本

测试覆盖了各式各样的AWS实例类型,通过测试结果发现,与所有其他可用的基于 x86 的 AWS 计算优化型 AWS EC2 实例类型相比,基于 AWS Graviton3 的 c7g 实例的成本至少降低了 35%。

Sentieon流程在国产Arm架构的CPU硬件上同样出彩。在阿里云计算环境中的相同性能测试也展现了相似的结果。测试覆盖了多种不同机型,包括了阿里基于ARMv9架构研发的倚天处理器。

图3

从测试结果来看,相同核心数下,Arm架构CPU的运算效率不逊于支持超线程的x86架构CPU,并且倚天CPU的运行时长最短。此外,在高核心数(128)的运算环境下,流程的运行效率也基本没有损失,这点也得到了证实。倚天CPU实例的另一个优势是功耗较低,因此云计算成本也相对较低。

Gencove 联合创始人兼首席技术官 Tomaz Berisa 亦表示,要实现全球这类分析中最低的计算成本,只有通过将 Sentieon 与 AWS 上的 Arm 服务器相结合才能实现这一目标。因为Sentieon软件能够运行在任何通用CPU运算环境,为用户带来最低的使用成本。