问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

模型并行（Model Parallelism）原理详解

创作时间:

作者:

@小白创作中心

模型并行（Model Parallelism）原理详解

引用

CSDN

1.

https://blog.csdn.net/qq_36803941/article/details/142660747

模型并行（Model Parallelism）是一种将深度学习模型的不同部分分布到多个计算设备（如GPU）上的技术，以提高训练和推理的效率。模型并行特别适合于大型模型，因为这些模型的参数可能超出单个设备的内存容量。

1. 概览

数据并行（Data Parallelism）：在不同的GPU上运行同一批数据的不同子集；
流水并行（Pipeline Parallelism）：在不同的GPU上运行模型的不同层；
模型并行（Model Parallelism）：将单个数学运算（如矩阵乘法）拆分到不同的GPU上运行；

2. 张量并行

张量并行（Tensor Parallelism）最初在Megatron-LM论文中提出的，它是一种训练大规模 Transformer 模型的有效模型并行技术。张量并行是一种模型并行，其中特定模型权重、梯度和优化器状态在设备之间进行分割。

在张量并行中，每个 GPU 仅处理张量的一部分，并且仅为需要整个张量的操作聚合整个张量。

2.1 列划分

将 A 矩阵垂直化为 n 列，则 X 与 A 的矩阵的乘法可以转换为：

X A = X ∣ A 1 , A 2 , . . . , A n ∣ = ∣ X A 1 , X A 2 , . . . , X A n ∣ XA=X|A_1,A_2,...,A_n|=|XA_1,XA_2,...,XA_n|XA=X∣A1 ,A2 ,...,An ∣=∣XA1 ,XA2 ,...,XAn ∣

2.2 行划分

对 A 矩阵水平划分为 n 行，则矩阵 X 则需要垂直划分为 n 列，则 X 与 A 的矩阵的乘法可以转换为：

X A = ∣ X 1 , X 2 , . . . , X n ∣ ∣ A 1 , A 2 , . . . , A n ∣ T = X 1 A 1 + X 2 A 2 + . . . + X n A n XA=|X_1,X_2,...,X_n||A_1,A_2,...,A_n|^T=X_1A_1+X_2A_2+...+X_nA_nXA=∣X1 ,X2 ,...,Xn ∣∣A1 ,A2 ,...,An ∣T=X1 A1 +X2 A2 +...+Xn An

利用这一原理，我们可以更新任意深度的 MLP，而无需 GPU 之间进行任何同步：

并行化多头注意力层因为它们具有多个独立的头，本质上已经是并行的！

图中表示 Transformer 模型的 MLP 和 Self-Attention 层上 Tensor Parallel 样式的分片，其中 Self-Attention/MLP 中的矩阵乘法通过分片计算进行。

3. 总结

应用场景

超大规模模型：当模型的参数量非常大（例如，数十亿参数）时，单个设备无法承载，模型并行能够帮助解决这个问题。
复杂模型结构：某些模型的结构可能使得模型并行成为一种合理的选择，例如分层的卷积神经网络（CNN）或变压器（Transformer）模型。

优点

能够处理超大规模模型。
提高计算资源的利用率。

缺点

增加了实现的复杂性。
可能导致较高的通信延迟，影响性能。

模型并行是一种重要的技术，特别是在处理复杂和大型深度学习模型时。通过合理地划分模型并优化设备之间的通信，可以显著提高训练和推理的效率。

参考

[1] https://docs.aws.amazon.com/sagemaker/latest/dg/model-parallel-intro-v2.html
[2] https://siboehm.com/articles/22/pipeline-parallel-training
[3] https://pytorch.org/tutorials/intermediate/TP_tutorial.html
[4] https://huggingface.co/docs/transformers/v4.15.0/parallelism

热门推荐

宋之问《灵隐寺》：描绘杭州灵隐寺的壮丽风光

宋之问《灵隐寺》：描绘杭州灵隐寺的壮丽风光

如何轻松查看你的Windows版本？检查电脑Windows版本号五种方法

如何轻松查看你的Windows版本？检查电脑Windows版本号五种方法

你吃对小番茄了吗？多吃小番茄对身体有什么好处？

你吃对小番茄了吗？多吃小番茄对身体有什么好处？

9 个需要立即修改的基本 Windows 隐私设置

9 个需要立即修改的基本 Windows 隐私设置

浙江义乌旅游攻略：探秘全球小商品之都，这些景点必去！

浙江义乌旅游攻略：探秘全球小商品之都，这些景点必去！

鸟类沟通能力的研究为人类交流提供更新视角

鸟类沟通能力的研究为人类交流提供更新视角

熊猫币又来了？1982年开始发行至今，它到底有哪些投资价值？

熊猫币又来了？1982年开始发行至今，它到底有哪些投资价值？

胃粘膜低分化腺癌生存率的影响因素

胃粘膜低分化腺癌生存率的影响因素

6年来亏损上百亿，华映科技为何还能走出“十连板”行情？

6年来亏损上百亿，华映科技为何还能走出“十连板”行情？

为什么拉格朗日乘子法可以处理带约束最优化问题？

为什么拉格朗日乘子法可以处理带约束最优化问题？

绞肉机怎么选？买绞肉机需要注意什么？

绞肉机怎么选？买绞肉机需要注意什么？

小茶室有老干部老干部有“治理经”

小茶室有老干部老干部有“治理经”

游览胡志明市：您的越南心脏终极免费旅游指南

游览胡志明市：您的越南心脏终极免费旅游指南

详细解读什么是五险一金

详细解读什么是五险一金

如何激发孩子内在动力？

如何激发孩子内在动力？

咏赞荷花之美：诗韵流转，映照生命的清香

咏赞荷花之美：诗韵流转，映照生命的清香

【钓鱼技巧】掌握这些钓法原理，让你的钓鱼水平更上一层楼

【钓鱼技巧】掌握这些钓法原理，让你的钓鱼水平更上一层楼

精益“持续改善” | 如何在工作与生活中实践“持续改善”

精益“持续改善” | 如何在工作与生活中实践“持续改善”

阿司匹林是降压药吗

阿司匹林是降压药吗

如何查询银行卡余额？银行卡余额查询的方法和注意事项是什么？

如何查询银行卡余额？银行卡余额查询的方法和注意事项是什么？

脚上长的硬疙瘩，到底是什么啊？

脚上长的硬疙瘩，到底是什么啊？

《英雄无敌3》四大神龙中排行老三！能永久削弱敌人防御的毒龙

《英雄无敌3》四大神龙中排行老三！能永久削弱敌人防御的毒龙

重度偏头痛的止疼药有哪些

重度偏头痛的止疼药有哪些

香港高等教育巅峰对决：港大VS港中文，各有什么优势？

香港高等教育巅峰对决：港大VS港中文，各有什么优势？

用FPGA实现GPU：四个开源项目详解

用FPGA实现GPU：四个开源项目详解

维他命柠檬茶喝多了的危害

维他命柠檬茶喝多了的危害

房贷提前还不一定划算首套房贷能抵扣个税

房贷提前还不一定划算首套房贷能抵扣个税

安徽概况：从历史沿革到经济发展

安徽概况：从历史沿革到经济发展

3年亏损约50％，明星基金经理跌落神坛，基民该如何选择？

3年亏损约50％，明星基金经理跌落神坛，基民该如何选择？

从叙事形式方面比较张艺谋改编电影与小说原著的叙事

从叙事形式方面比较张艺谋改编电影与小说原著的叙事

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号