产品动态
产品公告
[root@localhost ~]# lsmod | grep -i nouveau
[root@localhost ~]# lsmod | grep -i nouveau nouveau 1662531 0 mxm_wmi 13021 1 nouveau wmi 19086 2 mxm_wmi,nouveau i2c_algo_bit 13413 1 nouveau video 24538 1 nouveau drm_kms_helper 176920 2 nouveau,vmwgfx ttm 99555 2 nouveau,vmwgfx drm 397988 6 ttm,drm_kms_helper,nouveau,vmwgfx i2c_core 63151 5 drm,i2c_piix4,drm_kms_helper,i2c_algo_bit,nouveau
# CentOS 7# 编辑或新建 blacklist-nouveau.conf 文件[root@localhost ~]# vim /usr/lib/blacklist-nouveau.confblacklist nouveauoptions nouveau modeset=0# 执行如下命令并重启系统使内核生效[root@localhost ~]# dracut -f[root@localhost ~]# shutdown -ry 0

GPU 00000000:08:00.0Product Name : Tesla V100Product Brand : TeslaDisplay Mode : EnabledDisplay Active : DisabledPersistence Mode : Enabled
[root@localhost ~]# nvidia-smi -pm 1
# 以下命令对较新版本的GPU驱动有效 [root@localhost ~]# nvidia-persistenced --persistence-mode
# vim /etc/rc.d/rc.local # 在文件中添加一行 # nvidia-smi -pm 1 # 赋予/etc/rc.d/rc.local文件可执行权限 # chmod +x /etc/rc.d/rc.local # 重启系统进行验证
# nvidia-smi -q | grep -i serial Serial Number : 0324018045603 Serial Number : 0324018044864 Serial Number : 0324018027716 Serial Number : 0323918059881
# nvidia-smi -q -i 0 | grep -i serial Serial Number : 0324018045603
lspci | grep -i nvidia
#如下命令表示识别到4个GPU,且末尾标识为(rev a1)的GPU状态正常;41:00.0 GPU末尾标识为(rev ff),表示该GPU状态异常。~]# lspci | grep -i nvidia3e:00.0 3D controller: NVIDIA Corporation Device 1db8 (rev a1)3f:00.0 3D controller: NVIDIA Corporation Device 1db8 (rev a1)40:00.0 3D controller: NVIDIA Corporation Device 1db8 (rev a1)41:00.0 3D controller: NVIDIA Corporation Device 1db8 (rev ff)
nvidia-smi

lspci -vvd 10de: | grep -i Lnkcap:
lspci -vvd 10de: | grep -i Lnksta:
nvidia-smi -q | grep -i -A 2 'Link width'#输出示例:[root@localhost ~]# nvidia-smi -q | grep -i -A 2 'Link width'Link WidthMax : 16xCurrent : 16x--Link WidthMax : 16xCurrent : 16x--
nvidia-smi --format=csv --query-gpu=index,name,serial,gpu_bus_id,pcie.link.width.current#输出示例:[root@localhost ~]# nvidia-smi --format=csv --query-gpu=index,name,serial,gpu_bus_id,pcie.link.width.currentindex, name, serial, pci.bus_id, pcie.link.width.current0, Tesla P40, 1321020022261, 00000000:04:00.0, 161, Tesla P40, 1320220073456, 00000000:05:00.0, 162, Tesla P40, 1320220073723, 00000000:08:00.0, 163, Tesla P40, 1320220073383, 00000000:09:00.0, 164, Tesla P40, 1320220073482, 00000000:85:00.0, 165, Tesla P40, 1320220073313, 00000000:86:00.0, 166, Tesla P40, 1320220073379, 00000000:89:00.0, 167, Tesla P40, 1320220073579, 00000000:8A:00.0, 16
# 指定GPU id查询某一块GPU的ECC计数:[root@localhost ~]# nvidia-smi -i <target gpu> -q -d PAGE_RETIREMENT ... Retired pages Single Bit ECC : 2 Double Bit ECC : 0 Pending : No# 查询所有GPU的ECC计数:[root@localhost ~]# nvidia-smi -q -d PAGE_RETIREMENT# 如输出Pending 的标志为No表示所有ECC报错地址空间已经被屏蔽,报错地址空间后续不会再被软件程序调用,不会再影响程序运行;# Yes 表示有需要被屏蔽的ECC报错地址,需要重启系统或重置GPU使其变为No。
# 该方法只能查看retired pages计数,无法查看retired pages是否已经被屏蔽# 查询某一块GPU的ECC计数:[root@localhost ~]# nvidia-smi -q -i 0 | grep -i 'bit ecc' Single Bit ECC : 0 Double Bit ECC : 0# 查看所有GPU的retired pages计数:[root@inspur ~]# nvidia-smi -q | grep -i 'bit ecc' Single Bit ECC : 0 Double Bit ECC : 0 Single Bit ECC : 1 Double Bit ECC : 0
# 该方法可以查看所有retired pages的产生时间,便于判断是否满足nvidia RMA标准。# 该方法需要较新的GPU驱动版本支持,否则无法查看retired pages产生时间。[root@localhost ~]# nvidia-smi -i <target gpu> --query-retired-pages=gpu_name,gpu_bus_id,gpu_serial,retired_pages.cause,retired_pages.timestamp --format=csv


文档反馈