哪里有网站制作技术,西安网站建设招聘,重庆网站建设模板服务,济南网站建设哪家专业我们在使用多GPU系统时遇到了CUDA设备不可用的问题#xff0c;详细情况如下#xff1a;
问题描述#xff1a; 我们在一台配备有8块NVIDIA GeForce RTX 3090显卡的服务器上运行CUDA程序时#xff0c;遇到了如下错误#xff1a;
cudaErrorDevicesUnavailable: CUDA-capabl…我们在使用多GPU系统时遇到了CUDA设备不可用的问题详细情况如下
问题描述 我们在一台配备有8块NVIDIA GeForce RTX 3090显卡的服务器上运行CUDA程序时遇到了如下错误
cudaErrorDevicesUnavailable: CUDA-capable device(s) is/are busy or unavailable 使用 nvidia-smi 命令检查时发现所有GPU的利用率为0。 系统配置
操作系统Windows 11
GPU型号NVIDIA GeForce RTX 3090 x 8
驱动程序版本556.12
CUDA工具包版本12.5
我已尝试的解决方案
检查GPU状态 使用 nvidia-smi 查看当前GPU的使用情况所有GPU的利用率为0。
重启系统 多次重启服务器但问题依旧存在。
确认管理员权限 以管理员身份运行命令提示符和相关程序。
检查并更新驱动程序 确保安装了最新的NVIDIA驱动程序并重新安装了CUDA工具包版本匹配且为最新。
限制使用特定GPU 修改环境变量 CUDA_VISIBLE_DEVICES 限制CUDA程序只使用特定的GPU进行测试问题依旧。
终止不必要的进程 使用 nvidia-smi 查看并终止了所有可能占用GPU资源的进程仍未解决问题。
检查和调整BIOS设置没有尝试但是在CUDA版本修改之前就是禁用集成显卡的任然出现该问题 进入BIOS/UEFI确保所有PCIe插槽设置为“Auto”或“Gen3”并禁用了所有不必要的集成显卡。
测试其他CUDA示例程序 使用CuPy和PyTorch编写并运行其他简单的CUDA程序均出现相同错误。
以下是我们使用的测试代码和错误信息
import osimport cupy as cpos.environ[CUDA_VISIBLE_DEVICES] 0nbsp; # 只使用第一个GPUtry:nbsp; nbsp; start cp.cuda.Event()nbsp; nbsp; end cp.cuda.Event()nbsp; nbsp; print(CUDA event created successfully.)nbsp; nbsp; del startnbsp; nbsp; del endnbsp; nbsp; print(CUDA event destroyed successfully.)except cp.cuda.runtime.CUDARuntimeError as e:nbsp; nbsp; print(fCUDA error: {e})device cp.cuda.Device(0)nbsp; # 使用第一个GPUtry:nbsp; nbsp; free_memory, total_memory device.mem_infonbsp; nbsp; print(fDevice 0: Free Memory: {free_memory / (1024 ** 2):.2f} MB)nbsp; nbsp; print(fDevice 0: Total Memory: {total_memory / (1024 ** 2):.2f} MB)except cp.cuda.runtime.CUDARuntimeError as e:nbsp; nbsp; print(fCUDA error: {e})
错误信息
cudaErrorDevicesUnavailable: CUDA-capable device(s) is/are busy or unavailable
我们已尝试了多种解决方法但问题仍未解决。