在Mac M2上安装PyTorch并启用MPS加速的详细教程与性能对比
创作时间:
作者:
@小白创作中心
在Mac M2上安装PyTorch并启用MPS加速的详细教程与性能对比
引用
CSDN
1.
https://blog.csdn.net/weixin_71894495/article/details/144629831
本文将详细介绍如何在Mac M2上安装PyTorch并启用MPS加速,同时通过实际测试对比CPU和MPS的性能差异。
1. 安装PyTorch
在官网上可以查看安装教程,Start Locally | PyTorch。需要提前安装Python 3.9及以上版本,推荐使用Python 3.11最新版本。
使用conda安装PyTorch,在终端进入要安装的环境,执行如下命令:
conda install pytorch torchvision -c pytorch
执行完如上命令后需要等待几分钟,直到安装完毕。
2. 安装MPS
使用conda安装MPS:
conda install torch torchvision torchaudio
3. 安装测试
可以通过以下代码测试PyTorch和MPS是否安装成功:
import torch
# 查看 torch安装是否成功 并查看其版本
print(torch.__version__)
# 查看 mps是否安装成功 是否可用
print(torch.backends.mps.is_available())
# 检查 GPU 是否可用
print(torch.cuda.is_available()) # 对于 MPS,返回 False 是正常的
print(torch.backends.mps.is_available()) # 应该返回 True
# 获取 MPS 设备
mps_device = torch.device("mps")
print(mps_device) # 输出 "mps"
如果能成功打印出PyTorch版本,并且torch.backends.mps.is_available()返回True,说明MPS可用。
4. 性能对比测试
一般来说,模型越复杂,MPS加速效果越明显。如果模型太简单,只需要几秒钟就能跑完的话,MPS加速反而不如CPU,因为MPS需要一些准备工作,把数据放入图显核心里去,如果算法太简单或者数据量太少,结果运行加速节约的时间还不如数据准备的时间长。
以下是具体的测试代码:
import torch
import torch.nn as nn
import torch.optim as optim
import time
# 设置训练参数
input_size = 4096 # 输入特征数
hidden_size = 1024 # 隐藏层神经元数
output_size = 10 # 输出类别数(例如 10 类)
num_epochs = 50 # 训练轮数
batch_size = 64 # 批量大小
learning_rate = 0.01 # 学习率
# 定义一个简单的全连接神经网络
class SimpleNN(nn.Module):
def __init__(self, input_size, hidden_size, output_size):
super(SimpleNN, self).__init__()
self.fc1 = nn.Linear(input_size, hidden_size)
self.relu = nn.ReLU()
self.fc2 = nn.Linear(hidden_size, output_size)
def forward(self, x):
x = self.fc1(x)
x = self.relu(x)
x = self.fc2(x)
return x
# 函数:训练模型并记录训练时间
def train_model(device, num_epochs):
# 创建数据集
num_samples = 100000 # 数据集样本数量
x_train = torch.randn(num_samples, input_size).to(device)
y_train = torch.randint(0, output_size, (num_samples,)).to(device)
# 模型、损失函数和优化器
model = SimpleNN(input_size, hidden_size, output_size).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=learning_rate)
# 开始计时
start_time = time.time()
# 训练循环
for epoch in range(num_epochs):
for i in range(0, num_samples, batch_size):
# 获取当前批量数据
inputs = x_train[i:i+batch_size]
labels = y_train[i:i+batch_size]
# 前向传播
outputs = model(inputs)
loss = criterion(outputs, labels)
# 反向传播和优化
optimizer.zero_grad()
loss.backward()
optimizer.step()
# 结束计时
end_time = time.time()
# 返回训练时间
return end_time - start_time
# 主程序
if __name__ == "__main__":
# 设备列表
devices = {
"CPU": torch.device("cpu"),
"MPS": torch.device("mps") if torch.backends.mps.is_available() else None,
}
# 分别测试 CPU 和 MPS
results = {}
for device_name, device in devices.items():
if device is None:
print(f"\nSkipping {device_name} as it is not available.")
continue
print(f"\nTraining on {device_name}...")
training_time = train_model(device, num_epochs)
results[device_name] = training_time
print(f"Training time on {device_name}: {training_time:.2f} seconds")
# 打印对比结果
print("\n--- Training Time Comparison ---")
for device_name, time_taken in results.items():
print(f"{device_name}: {time_taken:.2f} seconds")
测试环境为Mac Mini M2(8+10)16G+1T。
3.1 CPU和GPU占用
在使用CPU运行时,8核心的CPU几乎占用了4核心的一半,GPU没有使用。
在使用MPS运行时,CPU占比下降到较低水平,开始启用GPU运行,10核心的图显也仅仅使用了1颗,感觉加速不是特别明显。
3.2 温度对比
使用CPU运行时,常年保持40度以下的CPU温度也飙升到了65度左右,及时如此也仅是window电脑静默状态的温度了。
使用MPS运行时,温度稍有回落,在50度左右。
3.3 运行时间
如图所示,MPS加速仅仅比CPU花费时间减少一半左右,说实话不是特别满意,和cuda的加速还是有一定差距。
热门推荐
每天吃一片维生素C的人,最后有啥变化?提醒:安全服用,记住3点
黄金发白的原因及其纯度影响如何?
“我思故我在”:笛卡尔哲学命题的深意与影响
软组织损伤主要表现有哪些
寿喜烧,竟是日本人走向文明开化的第一步
飞机机龄多久最安全?10年的飞机机龄安全吗
金铲铲之战监察小炮阵容攻略:S13赛季最强阵容搭配
电瓶三轮车使用与保养指南
电动三轮车常见故障及电瓶维护指南
高铁能带洗发水和沐浴露吗
嗳气如何中医辨证论治
“无为而治,顺其自然”的道家思想,其实并不推崇自由
正确的泡茶8个步骤 正确的泡茶方法
赶黄草进京“摘牌” 古蔺打造医药健康百亿产业集群
2024中西部地区GDP15强排名:郑州追赶长沙,宜昌排名第12
中国医学科学院/青海大学联合研究:三阴性乳腺癌治疗迎来曙光
《中国晚期三阴性乳腺癌患者生存质量白皮书》正式发布
《火影忍者》中佐助的家庭关系图:揭开宇智波一族的神秘面纱
防弹防盗玻璃:结构、性能与应用全解析
防弹玻璃的原理、应用与价格
C++中RAII的神奇力量:资源管理的终极解决方案
免疫力下降、脱发、食欲减退,你的身体可能缺乏一种重要营养元素
陕西地区唯一的一座藏传格鲁派寺院 西安广仁寺的美深入骨髓
旅行的照片如何分类管理
出差旅行必备!行李箱打不开怎么办?
魔兽世界乌龟服172防战天赋加点推荐
美民众不满白宫加征关税威胁:消费者信心普遍下降 通胀预期大幅上升
光子为什么以光速飞行而且必须以光速飞行?背后到底有什么动力?
怀疑是骨髓瘤,要看血常规哪一项?
提升白酒品质需适当借助科技力量