ESXI 8.0显卡直通配置完全指南:从问题排查到最终解决方案
ESXI 8.0显卡直通配置完全指南:从问题排查到最终解决方案
在使用ESXI 8.0进行显卡直通配置时,可能会遇到驱动安装失败、
nvidia-smi
命令无法识别显卡等问题。本文详细记录了一个从问题排查到最终解决的全过程,希望能为遇到类似问题的技术人员提供参考。
前言
最近把之前的N5105工程机处理掉,准备了一台新设备用于显卡直通解码和万兆内网传输。新设备配置了Intel X710-DA4网卡和GTX1060显卡。选择台式机而非服务器,主要是考虑到噪音问题,个人使用更倾向于安静的环境。
关于直通
对于ESXI 8.0来说,显卡直通的配置其实非常简单,只需要在设备管理页面切换直通状态即可,而且无需重启系统。
问题排查过程
在实际配置过程中,遇到了驱动反复安装不上、nvidia-smi
命令报错等问题。以下是详细的排查过程:
Part.1
尝试直接在Ubuntu Server上安装驱动,按照常规步骤配置虚拟机配置文件、屏蔽nouveau驱动、更新内核并重启,但始终无法通过nvidia-smi
查看显卡信息,提示"No Device Found"或"couldn't communicate with the NVIDIA driver"。
Part.2
尝试了各种解决方案,包括使用dkms
、匹配内核版本等,但问题依旧。在不同系统(如Debian、Ubuntu Desktop)上测试,虽然图形界面可以看到驱动安装成功,但nvidia-smi
命令始终报错。
Part.3
怀疑是驱动版本问题,尝试了多个不同版本的Nvidia驱动(555、550、535、470等),但问题依旧。
Part.4
在Windows虚拟机中测试,虽然设备管理器可以识别显卡,但任务管理器中没有GPU栏目,重启后显卡设备出现错误代码43。
Part.5
怀疑是PCIE插槽和NVME插槽共享带宽导致的问题,尝试卸载M.2硬盘,但问题依旧。
Part.6
最后在一篇文章中发现关键信息:直通独显需要在BIOS中屏蔽核显。这个信息最终解决了问题。
Part.7
重新连接显示器进入BIOS,屏蔽iGPU后,问题终于得到解决。
最终解决方案
- 进入BIOS屏蔽iGPU
- 显卡直通配置
- ESXI主机界面-管理-硬件-PCI设备,选择需要直通的设备,切换直通。
- 创建虚拟机
- 正常创建虚拟机,在编辑设置界面添加需要直通的PCIE设备,内存选项勾选【预留所有客户机内存(全部锁定)】。
- 编辑虚拟机配置,添加以下参数:
hypervisor.cpuid.v0 = FALSE pciPassthru.use64bitMMIO = True pciPassthru.64bitMMIOSizeGB = 32
- 安装驱动
- 屏蔽nouveau驱动
- 更新内核并重启
- 安装依赖包:
build-essential pkg-config xorg-dev xorg libvulkan1 libglvnd-dev
- 下载并安装Nvidia驱动
- 安装NVIDIA Container Toolkit(可选)
- 配置生产存储库
- 安装NVIDIA Container Toolkit软件包
- 配置Docker
- 重启Docker
通过以上步骤,可以顺利完成ESXI 8.0的显卡直通配置。希望这篇文章能帮助遇到类似问题的技术人员少走弯路。