GCP Compute Cloud 인스턴스를 사용하다보면, 가끔 nvidia-smi 명령어를 실행했을 때 NVIDIA GPU가 인식되지 않는 문제가 발생할 때가 있다.
보통 nvidia driver에서 버전 문제가 발생한 경우이기 때문에 Nvidia 드라이버와 CUDA를 제거하고 다시 설치해주는 과정을 거쳐야한다.
현재 사용하고 있는 Debian 11 기반의 GCP Deep Learning VM에서 NVIDIA Driver 인식 불가 문제가 발생했을 때 해결방법에 대해서 작성해보고자 한다.
문제 해결방법
1.
현재 인스턴스 확인
•
사용 중인 인스턴스가 GPU를 포함하고 있는지 확인
nvidia-smi
Bash
복사
2.
NVIDIA 드라이버 및 CUDA 제거
•
기존의 NVIDIA 드라이버 및 CUDA 설치 제거
sudo apt-get --purge remove 'nvidia-*'
sudo apt-get --purge remove 'cuda-*'
sudo apt-get autoremove
sudo apt-get clean
Bash
복사
3.
NVIDIA 패키지 저장소 추가
•
NVIDIA 패키지 저장소를 추가
sudo apt-get update
sudo apt-get install -y gnupg2 curl
curl -s -L <https://nvidia.github.io/nvidia-docker/gpgkey> | sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L <https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list> | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
Bash
복사
4.
Backports 저장소 추가
•
Backports 저장소를 추가 (Debian 기반 시스템인 경우)
echo "deb <http://deb.debian.org/debian> bullseye-backports main contrib non-free" | sudo tee /etc/apt/sources.list.d/bullseye-backports.list
sudo apt update
Bash
복사
5.
NVIDIA 드라이버 설치
•
최신 NVIDIA 드라이버를 설치
sudo apt-get update
sudo apt-get install -t bullseye-backports nvidia-driver
sudo reboot
Bash
복사
6.
nvidia-smi 명령어로 드라이버 확인:
•
시스템이 재부팅된 후, nvidia-smi 명령어를 실행하여 드라이버가 올바르게 설치되었는지 확인
nvidia-smi
Bash
복사
추가적인 문제 해결을 위한 로그 디버깅
1.
드라이버 상태 확인
•
NVIDIA 드라이버 서비스 상태를 확인
sudo systemctl status nvidia-persistenced
Bash
복사
2.
로그 확인
•
NVIDIA 드라이버 관련 로그 확인
dmesg | grep -i nvidia
cat /var/log/nvidia-installer.log
Bash
복사
3.
드라이버 및 CUDA 버전 확인
•
설치된 NVIDIA 드라이버 및 CUDA 버전을 확인
nvidia-smi
nvcc --version
Bash
복사