问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

高性能计算应用优化实践之VASP

创作时间:

作者:

@小白创作中心

高性能计算应用优化实践之VASP

引用

CSDN

1.

https://m.blog.csdn.net/u013206206/article/details/142881996

VASP（Vienna Ab initio Simulation Package）是一种广泛应用于材料科学和凝聚态物理领域的第一性原理计算软件。本文将从编译优化、运行优化以及并行参数优化等多个维度，详细介绍如何在高性能计算环境中优化VASP的性能。

VASP简介

VASP是最常见的第一性原理计算软件之一。第一性原理计算是基于密度泛函理论，通过选择合适的交换关联赝势（GGA或LDA），然后基于迭代方法自洽求解Kohn-Sham方程，直到所求出的新的电荷密度与输入的电荷密度在收敛判据范围内，则认为迭代计算达到收敛，最后求得系统的总能量、能带、波函数、电荷密度、态密度等等。

VASP编译优化

VASP文件中arch目录中有针对不同编译器的配置文件。

其中-xHOST是Intel编译器针对Intel处理器增加的编译优化选项。Intel平台建议开启该选项。非Intel平台不能识别该参数。

VASP_TARGET_CPU ?= -xHOST
FFLAGS += $(VASP_TARGET_CPU)

VASP运行优化

VASP使用MKL库完成其中的数学运算，但该库会通过内部函数检测是否为Intel处理器，在Intel处理器上MKL库的加速效果更好。分析显示MKL使用函数mkl_serv_intel_cpu_true来检测它是否在处理真正的Intel CPU。

非Intel平台在intel mkl 2020版本之前可以通过使用环境变量MKL_DEBUG_CPU_TYPE=5可以强制使用AVX2内核，但后续版本移除了这个变量。我们可以用自己的函数来代替它：

int mkl_serv_intel_cpu_true() {
  return 1;
}

并向其编译为共享库：

gcc -shared -fPIC -o libisintel.so isintel.c

libisintel.so是识别cpu处理器型号的函数，非Intel平台上运行之前可以加载这个库，替换掉MKL中自带的函数，把非Intel平台识别为Intel，以更好发挥MKL数学库的计算能力。

export LD_PRELOAD=/PATH/libisintel.so

共享内存优化参数

export I_MPI_FABRICS=shm

Intelmpi默认是shm:ofi,通信过程在查询时会有一定的耗时，针对Intel平台通信做了相关优化，但在非Intel平台会有影响通信性能，导致计算性能降低。可以通过以上参数改善。

UCX优化参数

export UCX_TLS=sm,dc

调整MPI使用通信协议传输方式为共享内存和动态分配,但UCX参数在单节点测试时，影响不大。

VASP输入文件并行参数优化

VASP主要涉及到K点并行和能带并行两种方式，INCAR主要的并行参数：NCORE，NPAR，KPAR。总核心数=NCORENPARNKPAR。

KPAR表示同时计算多少个K点，默认为1，可用“grep irre OUTCAR ”查看不可约K点数，体系的K点设置为不可约K点数的除数，最大可设置为体系的不可约K点数。

根据计算体系的实际情况选择性设置，K点较少的体系，并行带来的通信消耗会大于计算的性能提升，对整体计算加速效果不佳。

NCORE决定轨道并行策略，单个轨道计算所使用的核数量。

NPAR决定能带并行策略，同时并行计算多少条能带。

Vaspwiki上建议优先设置NPAR，但实际情况下设置NCORE更为方便。结合实际测试，我们建议在HYGON平台运行时，NCORE设置为一个NUMA的核心数，从而减少跨NUMA的通信消耗。

算例实践

算例简介：对128个si原子构成的图中结构进行结构优化；选取PAW赝势，PBE交换关联泛函；截断能520eV,精度为1.0E-05eV；KPOINTS是Γ-centered网格，大小为333

NCORE优化

在使用同样128核心数时,KPAR默认为1，结果显示NCORE=16达到并行效果最好，其中NCORE是一个NUMA的核心数，减少了跨NUMA的通信消耗

KPAR优化

NCORE=16时性能最优，在此基础上进一步优化KPAR

该算例共有4个不可约K点：

测试可不同K点并行的结果：

从测试结果来看，KPAR=2时有10%左右的提升，但KPAR=4性能有所降低，是由于并行带来的通信消耗大于计算性能提升，对计算整体加速效果不佳。

热门推荐

建议春节假期延长为9天，促进家庭团聚，激发文化活力，提升社会和谐

建议春节假期延长为9天，促进家庭团聚，激发文化活力，提升社会和谐

人工智能研究生如何兼职

人工智能研究生如何兼职

山梨酸 (E200): 食品防腐剂的全面解析

山梨酸 (E200): 食品防腐剂的全面解析

北舞附中招生标准解读：身材比例与综合素质并重

北舞附中招生标准解读：身材比例与综合素质并重

疲软就业数据与全球风险叠加，下周美联储降息将如何影响黄金走势？

疲软就业数据与全球风险叠加，下周美联储降息将如何影响黄金走势？

如何正确理解黄金技术面的分析方法？这些分析方法在实际操作中有何作用？

如何正确理解黄金技术面的分析方法？这些分析方法在实际操作中有何作用？

这样睡觉的人，睡够8小时都没用！身体比别人衰老得更快

这样睡觉的人，睡够8小时都没用！身体比别人衰老得更快

2024年孝字辈宝宝名字大全：与孝有关的宝宝名字

2024年孝字辈宝宝名字大全：与孝有关的宝宝名字

INFJ 与 ENFP：灵魂伴侣及 ENFP 恋爱指南

INFJ 与 ENFP：灵魂伴侣及 ENFP 恋爱指南

美高必读丨什么是AP课程？选不选？如何选？

美高必读丨什么是AP课程？选不选？如何选？

这些世界顶尖游戏制作人你都认识吗？

这些世界顶尖游戏制作人你都认识吗？

欧盟统计局：2024年欧盟人口增长至4.492亿人

欧盟统计局：2024年欧盟人口增长至4.492亿人

如何捕捉猫咪的可爱瞬间，试试这几个技巧

如何捕捉猫咪的可爱瞬间，试试这几个技巧

【在家也能练胸肌】哑铃、弹力带、掌上压等多种训练方法详解

【在家也能练胸肌】哑铃、弹力带、掌上压等多种训练方法详解

新生儿有鼻涕和鼻屎怎么清理

新生儿有鼻涕和鼻屎怎么清理

211高校，成立新学院

211高校，成立新学院

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

四川外国语大学VS重庆文理学院：师资力量与院校属性全方位对比

四川外国语大学VS重庆文理学院：师资力量与院校属性全方位对比

重庆几所大学评价：谁在山城独领风骚？

重庆几所大学评价：谁在山城独领风骚？

隆庆一朝持续不足6年，为何有明朝中兴的说法

隆庆一朝持续不足6年，为何有明朝中兴的说法

意识是什么？物理学视角下的全新解读

意识是什么？物理学视角下的全新解读

北周统一中国的潜力与挑战

北周统一中国的潜力与挑战

单机内购,如何平衡游戏体验与盈利模式

单机内购,如何平衡游戏体验与盈利模式

鸭翼战斗机一定不适合上航母吗？

鸭翼战斗机一定不适合上航母吗？

品牌专家常亮：以“世界字都”刻画安阳历史与全球坐标

品牌专家常亮：以“世界字都”刻画安阳历史与全球坐标

四季度旅游“淡季不淡”！注意：捡漏低价票的方法变了

四季度旅游“淡季不淡”！注意：捡漏低价票的方法变了

春节假期延长十天的弊端：过度放松可能导致工作效率下降

春节假期延长十天的弊端：过度放松可能导致工作效率下降

期货中的对冲是什么？它在风险管理中的作用是什么？

期货中的对冲是什么？它在风险管理中的作用是什么？

美元对黄金的历史影响

美元对黄金的历史影响

如何理解黄金价格与通货膨胀的关系？这种关系在投资中如何加以利用？

如何理解黄金价格与通货膨胀的关系？这种关系在投资中如何加以利用？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号