问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

ESXI 8.0显卡直通配置完全指南:从问题排查到最终解决方案

创作时间:
作者:
@小白创作中心

ESXI 8.0显卡直通配置完全指南:从问题排查到最终解决方案

引用
1
来源
1.
https://www.yydnas.cn/2024/06/28/2024.06.28-ESXI%E6%98%BE%E5%8D%A1%E7%9B%B4%E9%80%9A%E8%99%9A%E6%8B%9F%E6%9C%BA%E7%BF%BB%E8%BD%A6%E4%BA%8B%E6%95%85%E5%8F%8A%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88/

在使用ESXI 8.0进行显卡直通配置时,可能会遇到驱动安装失败、nvidia-smi命令无法识别显卡等问题。本文详细记录了一个从问题排查到最终解决的全过程,希望能为遇到类似问题的技术人员提供参考。

前言

最近把之前的N5105工程机处理掉,准备了一台新设备用于显卡直通解码和万兆内网传输。新设备配置了Intel X710-DA4网卡和GTX1060显卡。选择台式机而非服务器,主要是考虑到噪音问题,个人使用更倾向于安静的环境。

关于直通

对于ESXI 8.0来说,显卡直通的配置其实非常简单,只需要在设备管理页面切换直通状态即可,而且无需重启系统。

问题排查过程

在实际配置过程中,遇到了驱动反复安装不上、nvidia-smi命令报错等问题。以下是详细的排查过程:

Part.1

尝试直接在Ubuntu Server上安装驱动,按照常规步骤配置虚拟机配置文件、屏蔽nouveau驱动、更新内核并重启,但始终无法通过nvidia-smi查看显卡信息,提示"No Device Found"或"couldn't communicate with the NVIDIA driver"。

Part.2

尝试了各种解决方案,包括使用dkms、匹配内核版本等,但问题依旧。在不同系统(如Debian、Ubuntu Desktop)上测试,虽然图形界面可以看到驱动安装成功,但nvidia-smi命令始终报错。

Part.3

怀疑是驱动版本问题,尝试了多个不同版本的Nvidia驱动(555、550、535、470等),但问题依旧。

Part.4

在Windows虚拟机中测试,虽然设备管理器可以识别显卡,但任务管理器中没有GPU栏目,重启后显卡设备出现错误代码43。

Part.5

怀疑是PCIE插槽和NVME插槽共享带宽导致的问题,尝试卸载M.2硬盘,但问题依旧。

Part.6

最后在一篇文章中发现关键信息:直通独显需要在BIOS中屏蔽核显。这个信息最终解决了问题。

Part.7

重新连接显示器进入BIOS,屏蔽iGPU后,问题终于得到解决。

最终解决方案

  1. 进入BIOS屏蔽iGPU
  2. 显卡直通配置
  • ESXI主机界面-管理-硬件-PCI设备,选择需要直通的设备,切换直通。
  1. 创建虚拟机
  • 正常创建虚拟机,在编辑设置界面添加需要直通的PCIE设备,内存选项勾选【预留所有客户机内存(全部锁定)】。
  • 编辑虚拟机配置,添加以下参数:
    hypervisor.cpuid.v0 = FALSE
    pciPassthru.use64bitMMIO = True
    pciPassthru.64bitMMIOSizeGB = 32
    
  1. 安装驱动
  • 屏蔽nouveau驱动
  • 更新内核并重启
  • 安装依赖包:build-essential pkg-config xorg-dev xorg libvulkan1 libglvnd-dev
  • 下载并安装Nvidia驱动
  1. 安装NVIDIA Container Toolkit(可选)
  • 配置生产存储库
  • 安装NVIDIA Container Toolkit软件包
  • 配置Docker
  • 重启Docker

通过以上步骤,可以顺利完成ESXI 8.0的显卡直通配置。希望这篇文章能帮助遇到类似问题的技术人员少走弯路。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号