如何配置一台深度学习工作站?
如何配置一台深度学习工作站?
本文详细介绍了家用深度学习工作站的硬件配置方案,包括CPU、主板、显卡、硬盘、内存、电源、网卡和机箱等关键组件的选择要点。文章适合对深度学习感兴趣的读者,尤其是想要搭建个人深度学习工作站的读者参考。
家用的深度学习工作站主要有两种典型配置:一种是单GPU机器,另一种是四GPU机器。如果需要更多的GPU,可以考虑配置两台四GPU机器。如果希望一台机器同时具备6~8个GPU,则需要联系专门的供应商进行配置,并且需要专业的机房存放,因为这种配置在家庭环境中会产生较大的噪音并且容易导致跳闸。
CPU
由于AMD和Intel频繁更新CPU,建议选择新款CPU。CPU与GPU的关系主要体现在核数上,一般以一个GPU对应2~4个CPU核为宜,例如单卡机器可以选择四核CPU,四卡机器则选择十核CPU。
除了核数,还需要注意PCI-E支持情况。例如,i9-9820X的PCI-E通道数是44,配置四卡时只能支持1x16+3x8+1x4,即单卡全速,三卡半速,一个NVMe固态硬盘。这种情况下可以考虑选择带有PLX桥接芯片的主板。AMD的2990WX有64条PCI-E,但只支持x16/x8/x16/x8的四卡配置。
英特尔CPU
双卡机器可以选择i9-9900K,四卡机器则根据预算选择X系列的CPU。
主板
主板需要考虑以下几点:
- CPU接口是否匹配,如LGA2066和SocketTR4
- PCI-E插槽的高度是否够插显卡,至少要满足双槽宽显卡的高度
- PCI-E同时可以支持几张卡以什么样的速度运行,如1x16 + 3x8是常见的配置
GIGABYTE X299 AORUS MASTER (rev. 1.0)使用了4组2槽间距显卡插槽设计,支持1x16、2x16、2x16 + 1x8、1x16 + 3x8四种配置(需要十核以上的CPU)。带有PLX桥接芯片的主板如WS X299 SAGE可以在CPU没有足够PCI-E的情况下达到四卡x16的速度。
GIGABYTE X299 AORUS MASTER (rev. 1.0)
WS X299 SAGE
在多卡并行训练时,PCI-E的传输速度决定了梯度同步的速度,建议选择支持四路PCI-E x16的主板。
显卡
训练需要FP32和FP16的性能,推断需要INT8的性能。训练大模型时需要注意显存大小。考虑成本可以买RTX 2080Ti,想要高性能并且高性价比可以买TITAN RTX,土豪可以选Tesla V100。RTX 2080显存较小,不推荐。GTX1080Ti已经出了太久了,网上都是二手卡,也不推荐。
采购显卡时一定要注意买涡轮版的,不要买两个或者三个风扇的版本,除非只打算买一张卡。涡轮风扇的热是往外机箱外部吹的,散热比较好。风扇显卡可能会超过双槽宽,影响第二张卡的安装。
涡轮散热
风扇散热
服务器推断卡全部都是不带风扇的,需要借助服务器强大的风扇被动散热,只能在专门设计的服务器上运行。性价比之选应该是Tesla T4,但发挥全部性能需要使用TensorRT深度优化。
硬盘
常用硬盘接口有三种:
- SATA3.0,速度600MB/s
- SAS,速度1200MB/s
- PCIE 3.0 x4(NVMe),速度3.94GB/s
下面是根据代表产品查询的参数:
硬盘参数对比
注:
- 4K随机读写的队列深度为32
- SATA3机械硬盘没有太好的数据来源,所以数据是经验值
- SATA3固态硬盘数据来源:三星(SAMSUNG)1TB SSD固态硬盘 SATA3.0接口 860 EVO
- NVMe固态硬盘数据来源:英特尔(Intel)1TB SSD固态硬盘 M.2接口(NVMe协议) 760P系
在面对大量小文件的时候,使用NVMe硬盘可以一分钟扫完1000万文件,如果使用普通硬盘,那么就需要一天时间。为了节省生命,简化代码,硬盘建议选择NVMe协议的固态硬盘。如果主板不够新,没有NVMe插槽,可以使用M.2转接卡将M.2接口转为PCI-E接口。
M.2转接卡
内存
内存容量的选择通常大于显存,比如单卡配16GB内存,四卡配64GB内存。由于有数据生成器(DataLoader),数据不必全部加载到内存里,通常不会成为瓶颈。
电源
先计算功率总和,如单卡CPU 100W,显卡250W,加上其他的大概400W,那么就买650W的电源。双卡最好买1000W以上的电源,四卡最好买1600W的电源。实测四卡机用1500W的电源来带,跑起来所有的卡以后会因为电源不足而自动关机。
一般墙上的插座只支持220V 10A,也就是2200W的交流电,由于电源要把交流电转直流电,所以会有一些损耗,最高只有1600W,因此如果想要支持八卡,最好不要在家尝试。八卡一般是双电源,并且需要使用专用的PDU插座,并且使用的是16A插口,如果在家使用,会插不上墙上的插座。
网卡
一般主板自带千兆网卡。如果需要组建多机多卡集群,请联系供应商咨询专业的解决方案。
机箱
如果配单卡,可以直接买个普通机箱,注意显卡长度能放下就行。如果配四卡机器,建议买一个Air 540机箱,因为正在用这一款。
Air 540
显示器和键盘鼠标
深度学习工作站装好系统以后就不需要显示器了,装系统的时候使用手边的显示器就行。深度学习工作站装好系统以后就不需要键盘鼠标了,装系统的时候使用手边的键盘鼠标就行。
参考链接
- Turing架构白皮书
- Volta架构白皮书
- RTX 2080 Ti Deep Learning Benchmarks with TensorFlow - 2019
- https://developer.nvidia.com/deep-learning-performance-training-inference
- https://www.nvidia.cn/object/where-to-buy-tesla-catalog-cn.html
- https://www.supermicro.org.cn/support/resources/gpu/
- https://www.geforce.com/drivers/license/geforce