问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

EPYC服务器选购实战与经验分享

创作时间:
作者:
@小白创作中心

EPYC服务器选购实战与经验分享

引用
1
来源
1.
https://blog.ihomura.cn/2024/01/14/EPYC-%E5%B7%A5%E4%BD%9C%E7%AB%99%E9%80%89%E8%B4%AD%E5%AE%9E%E6%88%98%E4%B8%8E%E7%BB%8F%E9%AA%8C%E5%88%86%E4%BA%AB/

随着科研工作对算力需求的不断增加,作者分享了自己在有限预算下成功购入两台EPYC 7B13工作站的实战经验。从预算规划到具体配件选购,从渠道选择到使用心得,本文详细记录了整个过程中的关键决策和注意事项,为有类似需求的读者提供了宝贵的参考。

选购之前的功课

预算和渠道

购买工作站大概有三条渠道:

  • 向正规服务器提供商购买整机:拥有完整的保修(甚至上门服务),硬件兼容性还有软件问题基本无需操心,但是费用是最贵的,典型的提供商包括戴尔,联想等。由于此类渠道一般只有toB,个人消费者很难接触到。

  • 在零售渠道购买含保修的散件:一般服务器硬件尤其是CPU是对消费级市场开放的,然而AMD的HEDT平台,也就是线程撕裂者打破了僵局,最新一代线程撕裂者比如7980X提供了相当可观的算力。一般可选的平台包括京东和亚马逊等,可以提供完整的保修,但是性价比相当感人。

  • 在淘宝购买店保的二手散件(或者整机):由于CPU一般不会损坏,因此有大量淘汰下来的服务器配件流通于淘宝上,一般这些散件基本接近成本价,相对应的也只有比较少的技术支持和保修。

举个例子来说,目前京东在售的64C128T的线程撕裂者5995WX价格为49599元,在淘宝一颗64C128T的7763大概只需要10000元左右,然而他们的多核性能相差大概在10%以内,由此可见淘宝散件的价格优势。

考虑到我贫瘠的预算,因此我只能选择在淘宝上购买散件。

计算任务

确定了购买渠道和预算后,更重要的事情就是确定自己预期的工作负载,因为不同的负载对整个系统的设计完全不一样。以我自己为例,我不需要任何GPU算力,因此我可以考虑更小一些的机箱,也不用担心显卡挡住内存插槽等,但是相应的我需要大量的核心数量和内存数量,因此我需要考虑内存通道数量和频率等。具体的事项会在后文中说明。

除了是否需要GPU,还有就是要确认自己的程序是否存在以下瓶颈:

  • 并行度:决定了是否需要更多的核心
  • 内存速度:决定了是否需要高频率低延迟内存
  • 计算速度:决定了是否需要单核心性能

淘宝店铺选择

淘宝有非常多的店铺提供二手服务器散件,本文不作任何推荐,但是我个人的标准是:

  • 回复足够及时,一般首次咨询半个小时内没有回复我就会直接pass不再考虑
  • 店龄、店铺等级、店铺资质等
  • 接受发货前测试
  • 没有明显的差评

这一点每个人都可以有不同的标准,个人建议是大部分配件在一家买齐测试好再发货节省来回的运费和时间,我选择的店铺甚至很贴心的提供了远程桌面随意测试,大大节省了中间的时间(不过仍然出现了意外,下文会提到)。

配件选择

CPU

CPU几乎是最重要的配件,他决定了可以选择的主板还有PCIE通道数量和可选的内存。

首先简单介绍一下EPYC的命名规则,以7503为例,其中的3代表第三代EPYC,5代表了核心数量,0代表了单核心的性能。但是有一些EPYC的CPU第二位是字母,这代表OEM定制版本,一般是特定公开版本的EPYC型号的特挑版本。

我的需求是越多核心越好,单核性能并不是太需要,考虑到性价比最后选择了EPYC 7B13,这是阿里和Google的定制版,但是Google版本是60核心60线程,阿里版是64核心128线程,基本确认是EPYC 7763的马甲但是多核性能要差一些,主要体现在频率上。

另外需要留意的是,EPYC双路存在严重的CCD延迟问题。和消费级不一样的是,他是第二个socket上全部都慢的离谱。

主板

下一步就是选择主板,对于我来说可以买到的只有:

  • 技嘉MZ32-AR0
  • 技嘉MZ72-HB0(双路)
  • 超微H12SSL-i
  • 超微H12DSI-NT6(双路)
  • 永擎ROME2D16-2L(双路)

其中超微H12DSI支持双路CPU,本来我是打算选择这个,因为可以直接256T+2T,但是很快我注意到了双路主板在塔式机箱内上两个280W CPU时存在大量的VRM过热死机的汇报。因此我只能把原来的单台计划变为两台单路减少散热压力,然而超微的主板E-ATX孔位和标准孔位不兼容,需要自己改机箱,所以最后选择的是技嘉MZ32-AR0(甚至还有全新存货)。

一旦选择好主板,就可以前往相应的页面插具体的参数,包括并不限于:

  • 内存通道数量
  • 内存最大频率
  • PCIE数量
  • M2接口数量,SATA数量

内存

首先内存有几大类:

  • UDIMM:无缓冲内存,常见于消费级,由于没有缓冲,对信号完整度要求高因此容量相对较小频率较高。目前市面上最大的一般是32G。
  • RDIMM:有寄存器的内存,简单来说就是等信号全部到了再去读写,对信号完整度要求稍微低一些,因此可以支持更大容量,但是延迟和发热会有显著增高。目前市面上我见到最大的有256G的内存条。
  • LRDIMM:进一步增加了缓冲来提升单条容量。

目前三代的EPYC只能插DDR4,而且根据主板的说明书当插满RDIMM的时候最高频率仅支持到2933 MHz,因此可以节省一点买更高频率内存的钱。总的来说,高频率、高容量和低延迟几乎是不可兼得的事情。

这里还有一条需要注意的就是ECC,目前市面上所有RDIMM和LRDIMM内存都是有ECC纠错的,但是这不意味着出现ECC错误是正常的!我在收到货测试时才发现有几根内存条会固定出现ECC错误,虽然不影响数据的正确性,但是一般这意味着内存颗粒已经出现了问题,应该尽快找商家更换。

此外由于RDIMM多了一个控制芯片,高温时也会出现ECC错误,因此需要查阅相应的内存条文档确认工作温度。

为了测试内存条的稳定性,推荐烤机软件为:

  • AIDA64(注意烤机时关闭页面文件!不然系统会卡死)
  • prime95(Linux下有等价实现)

这里反而不推荐memtest86+,在我测试的时候他甚至没有触发ECC错误,而且耗时极长,难怪archwiki把他归类为压力不大的测试项目。

电源

电源几乎没有什么好说的,我选择的是LEADEX的HG850W,趁着活动的时候低价入了两个。我个人计算习惯是:

  • CPU:TDP瓦数,这里是280W
  • 内存:10W每根
  • 机械硬盘:25W每个
  • SSD:10W每个
  • 主板:50W

基本上我都往多了算,850W是绰绰有余的,一般留个10%左右的余量就可以。唯一比较坑的就是,技嘉这个主板的主板供电居然是在正上方,电源的主板线很容易够不到,完全没法走背线。

存储

存储这一块我遇到了三星SSD和部分SATA Controller的兼容性问题以及国产SSD普遍采用的MAP1602主控的Linux兼容性问题。目前两个问题在最新的Ubuntu 2204中应该都得到了修复,反而是Ubuntu 2304因为不是LTS有一些fixes没有backport。

另外值得注意的是技嘉这个主板的m2只有pcie3.0。

机箱和散热

以往装机,这两项并不太重要,但是上面很多地方都提到了温度对系统稳定性的影响,因此在选购工作站的时候务必要对散热上心。

首先是机箱,我在选购的时候出于便携和空间限制选择了塔式,如果有机房的话可以选择正常服务器尺寸获得更好的散热,以下经验都是基于塔式机箱展开。

机箱型号我选择的是追风者614pc,看中的是存储扩展性和自带俩风扇。其实机箱型号不重要,重要的是机箱风道。具体来说,我在开放式环境仅安装CPU散热器时,内存条温度可以达到97度(标准工作温度上限为95度)触发ECC错误,但是只要稍微加一个平行于内存条风向的风扇,温度瞬间降低到60度左右,这个效果对于机箱内大部分需要散热的配件都是一样的。

另外和平时的装机不同,CPU的散热一般是不需要太多担心的,我购买的是Coolserver P42也就是金钱豹散热器压住CPU基本上没有任何压力。相反,需要注意的是VRM也就是供电模块的散热,比如我购买的CPU有整整280W的TDP,而CPU电压一般才1.2V左右,也就是说通过VRM的电流非常大会迅速产热。一般来说VRM 100度时变会主动降低供电来减少发热,在AMD的定义里这个属于硬件降频无法控制,当VRM温度超过110左右时基本会直接报警关机。因此一个良好的机箱风道至关重要,这里推荐在B站搜索相关视频了解,比如硬件茶谈这一篇。

最后我选择的散热方式是一共7个风扇,前面板3个进气,后面版1个出气,上面板2个出气,下面板1个进气,在极限烤机状态下,整个系统可以稳定运转,美中不足的就是仍然会有少部分时间触发VRM过热降频,目前根据我了解的信息,只能定制配件散热,所以留给之后的自己吧。

网卡

技嘉这个主板有OCP接口,正好之前有海外过来的万兆网卡CX341a是OCP接口只要15块钱一张,配合DAC线完美的实现了两台机器间的10gb网络。

总结

这次购买服务器从有想法到最终实操一共花了一个半月,要感谢的就是另一半的大力支持和TUNA群友们的耐心,学习到了很多也玩的很开心,希望这两台服务器能在未来的时间里发光发热吧。

数框框!

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号