Search

GCP Compute Cloud Nvidia Driver 오류 문제 해결

카테고리
Cloud
Index
Cloud Computing
GCP
Compute Cloud
날짜
2024/06/25
GCP Compute Cloud 인스턴스를 사용하다보면, 가끔 nvidia-smi 명령어를 실행했을 때 NVIDIA GPU가 인식되지 않는 문제가 발생할 때가 있다.
보통 nvidia driver에서 버전 문제가 발생한 경우이기 때문에 Nvidia 드라이버와 CUDA를 제거하고 다시 설치해주는 과정을 거쳐야한다.
현재 사용하고 있는 Debian 11 기반의 GCP Deep Learning VM에서 NVIDIA Driver 인식 불가 문제가 발생했을 때 해결방법에 대해서 작성해보고자 한다.

문제 해결방법

1.
현재 인스턴스 확인
사용 중인 인스턴스가 GPU를 포함하고 있는지 확인
nvidia-smi
Bash
복사
2.
NVIDIA 드라이버 및 CUDA 제거
기존의 NVIDIA 드라이버 및 CUDA 설치 제거
sudo apt-get --purge remove 'nvidia-*' sudo apt-get --purge remove 'cuda-*' sudo apt-get autoremove sudo apt-get clean
Bash
복사
3.
NVIDIA 패키지 저장소 추가
NVIDIA 패키지 저장소를 추가
sudo apt-get update sudo apt-get install -y gnupg2 curl curl -s -L <https://nvidia.github.io/nvidia-docker/gpgkey> | sudo apt-key add - distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L <https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list> | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update
Bash
복사
4.
Backports 저장소 추가
Backports 저장소를 추가 (Debian 기반 시스템인 경우)
echo "deb <http://deb.debian.org/debian> bullseye-backports main contrib non-free" | sudo tee /etc/apt/sources.list.d/bullseye-backports.list sudo apt update
Bash
복사
5.
NVIDIA 드라이버 설치
최신 NVIDIA 드라이버를 설치
sudo apt-get update sudo apt-get install -t bullseye-backports nvidia-driver sudo reboot
Bash
복사
6.
nvidia-smi 명령어로 드라이버 확인:
시스템이 재부팅된 후, nvidia-smi 명령어를 실행하여 드라이버가 올바르게 설치되었는지 확인
nvidia-smi
Bash
복사

추가적인 문제 해결을 위한 로그 디버깅

1.
드라이버 상태 확인
NVIDIA 드라이버 서비스 상태를 확인
sudo systemctl status nvidia-persistenced
Bash
복사
2.
로그 확인
NVIDIA 드라이버 관련 로그 확인
dmesg | grep -i nvidia cat /var/log/nvidia-installer.log
Bash
복사
3.
드라이버 및 CUDA 버전 확인
설치된 NVIDIA 드라이버 및 CUDA 버전을 확인
nvidia-smi nvcc --version
Bash
복사