问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

nvidia-smi 命令详解:GPU监控与管理工具使用指南

创作时间:
作者:
@小白创作中心

nvidia-smi 命令详解:GPU监控与管理工具使用指南

引用
CSDN
1.
https://blog.csdn.net/quicmous/article/details/138116827

nvidia-smi是NVIDIA官方提供的一个命令行工具,用于监控和管理GPU的状态和性能。它能够显示GPU的使用情况、温度、内存占用等信息,并支持进行一些基本的管理操作。本文将详细介绍nvidia-smi的使用方法及其输出内容的含义。

一、nvidia-smi 介绍

nvidia-smi(NVIDIA System Management Interface)是一种命令行实用程序,主要用于监控和管理NVIDIA GPU(图形处理器)的状态和性能。它提供了一个简单而强大的方式来获取有关GPU的实时信息,这些信息包括GPU的使用情况、温度、内存占用等,同时也支持进行一些基本的管理操作。

在大多数情况下,nvidia-smi是与NVIDIA GPU驱动程序一起安装的。当安装NVIDIA GPU驱动程序时,nvidia-smi工具通常会自动包含在驱动程序软件包中,并在安装过程中将其放置在适当的位置。

nvidia-smi的基本用法如下:

  1. 查看所有GPU的当前信息状态:直接在命令行中输入nvidia-smi,即可显示当前系统上所有可用的NVIDIA GPU的相关信息,包括每个GPU的索引、温度、使用率等。

  2. 显示指定GPU设备的详细信息:使用nvidia-smi -d [GPU_ID]命令,其中的[GPU_ID]是你想要查看的GPU的ID号。例如,nvidia-smi -d 0会显示第0个GPU设备的详细信息。

  3. 以CSV格式显示GPU设备的摘要信息:使用nvidia-smi --format=csv命令,这样可以将信息以更易于处理和分析的CSV格式输出。

  4. 定期更新显示GPU设备的信息:nvidia-smi还支持定期更新显示GPU设备的信息,使用nvidia-smi -l [SECONDS]命令,其中的[SECONDS]是每隔多少秒更新一次。例如,nvidia-smi -l 5会每5秒显示一次GPU设备的摘要信息。

此外,nvidia-smi还提供了更多高级功能,如设备监控命令nvidia-smi dmon,可以以滚动条形式显示GPU设备统计信息,包括电源消耗、流处理器利用率、显存利用率等。

总的来说,nvidia-smi是一个功能强大的工具,可以帮助用户更好地了解和管理NVIDIA GPU的性能和状态。如需更多信息,建议查阅NVIDIA官方网站或相关文档。

二、nvidia-smi 输出内容详解

输入 nvidia-smi 后,屏幕显示内容如下:

这是一个NVIDIA显卡状态信息的输出。我将为您逐条解释:

Tue Apr 23 09:09:44 2024

  • 这是时间戳,表示输出信息是在2024年4月23日的上午9点09分44秒获取的。

NVIDIA-SMI 551.86 Driver Version: 551.86 CUDA Version: 12.4

  • 这表示当前使用的NVIDIA系统管理接口(SMI)的版本是551.86。

  • NVIDIA显卡驱动的版本也是551.86。

  • CUDA的版本是12.4。CUDA是NVIDIA推出的用于通用计算的并行计算平台和API模型。

GPU Name: NVIDIA GeForce RTX 3060

  • 这表示显卡的型号是NVIDIA GeForce RTX 3060。

TCC/WDDM: WDDM

  • 这表示当前显卡的工作模式是WDDM(Windows Display Driver Model),这是Windows系统下的显示驱动模型。

Bus-Id: 00000000:01:00.0

  • 这是显卡在PCI总线上的ID。

Disp.A: On

  • 表示显卡的显示功能已经开启。

Volatile Uncorr. ECC: N/A

  • ECC(Error-Correcting Code)是错误检查和纠正的技术,但在这里是N/A(不可用),可能是因为这款显卡不支持ECC功能。

Fan: 42%

  • 显卡风扇的转速是42%。

Temp: 30C

  • 显卡的温度是30摄氏度。

Perf: P8

  • 这表示显卡的性能状态是P8。NVIDIA显卡有多种性能状态,从P0(最高性能)到P8(最低性能或空闲状态)。
  1. Pwr:Usage/Cap: 18W / 170W
  • 显卡当前的功耗是18瓦,而最大功耗能力是170瓦。
  1. Memory-Usage: 893MiB / 12288MiB
  • 显卡当前使用的显存是893兆字节,而总显存是12288兆字节。
  1. GPU-Util: 4%
  • 显卡的利用率是4%,表示当前显卡的负载较低。
  1. Compute M.: Default
  • 这表示显卡的计算模式是默认模式。
  1. Processes: No running processes found
  • 这表示当前没有检测到任何正在使用显卡的进程。

总的来说,这个输出提供了显卡的型号、驱动版本、CUDA版本、当前的工作状态、功耗、温度、显存使用情况以及是否有进程正在使用显卡等信息。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号