问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

生命科学行业高性能计算解决方案

创作时间:
作者:
@小白创作中心

生命科学行业高性能计算解决方案

引用
1
来源
1.
https://www.hikunpeng.com/developer/hpc/life_sciences

生命科学领域广泛运用脑科学、基因组学、表观遗传学、蛋白质组学等手段进行科学研究,再借助数学分析与模拟、生物信息学等对整个生命系统行为的精准理解和预测,其需要海量基因数据的分析与挖掘,需要高性能的计算集群才能满足需求。生物医药行业和脑科学领域中分子建模,数据管理,药物分子设计、基因测序、冷冻电镜等,基于华为鲲鹏HPC解决方案,全栈自主可控,极大地加速新药研发的效率和节约运算时间。

基因测序

基因测序技术是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性,已经广泛应用于医疗和非医疗等各个领域,如产前检查,遗传检测,癌症靶向治疗等,高通量低成本的测序技术让基因测序走进千家万户。

基因数据分析过程根据研究目的不同,会有I/O密集型、CPU密集型、内存密集型等各种计算实例需求,需要海量基因数据的分析与挖掘。目前已经有GATK、Ont-tombo 、HISAT2 等50+应用完成鲲鹏适配。


冷冻电镜

冷冻电镜(cryo-electron microscopy,cryo-EM)技术是将生物大分子在毫秒时间尺度内快速冷冻在玻璃态的冰中,应用低温透射电子显微镜收集生物大分子的二维投影,并利用三维重构的方法得到大分子三维精细结构的生物物理学技术。对计算密集度极高:包括图像数据校正、有效大分子颗粒识别、颗粒聚类、空间构造和数据转换,一次作业的数据处理时间往往需要数天。高速I/O:需要在很短的时间读入包含数百GB数据的大文件;relion、 eman2等已经完成鲲鹏适配迁移,性能更优。

典型案例

GATK应用优化案例

应用背景

GATK是Genome Analysis ToolKit的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的snp calling软件之一。

GKL( Genomics Kernel Library )是针对GATK和HTSJDK基因测序应用的计算内核优化库,支持64bit Linux及Mac OSX平台,基于x86 AVX、AVX2、AVX-512、 multicore、FPGA实现,在ARM平台使能需将x86 AVX指令集转化为Neon指令集实现。

当前GKL主要包含三大模块:PairHMM,Smith-Waterman和DEFLATE(compression/decompression),前两者为基于AVX指令的算法优化库,DEFLATE为Intel实现的压缩解压优化库。

使用软件

  • 应用软件: GATK4.0.0.0
  • 基础软件:鲲鹏Avx2Neon加速库
  • 测试算例:数据集ReadsPipeline

成果

基于鲲鹏Avx2Neon加速库的应用优化后,GATK应用在鲲鹏平台单节点运行的整体性能上提升达160%。主要优化措施如下:

  • 使用鲲鹏Avx2Neon加速库,对GKL进行ARM平台的迁移,提升GATK的性能。
  • 在鲲鹏平台上对Spark线程进行NUMA绑核可以大幅提升Spark多线程计算性能。
  • Spark内存分配优化策略,提升内存访问效率。

核心应用

HPC行业主流开源软件调优指导请参考《调优指南》

软件名
版本号
操作系统
源码包
移植指南

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号