인프런 커뮤니티 질문&답변

SPAGGY님의 프로필 이미지

작성한 질문수

실전도커: 도커로 나만의 딥러닝 클라우드 컴퓨터 만들기

클라우드 GPU 기반 가상머신 Software 환경 설정

nvidia driver 설치 문의

해결된 질문

작성

·

307

1

안녕하세요, 선생님.

vm 접속해서 nvidia driver 설치 여부를 확인 했는데요.
nvidia driver 설치가 되지 않은 것 같습니다. 어떻게 조치를 할 수 있을까요?

아래 내용 참고 부탁 드려요.
1) 아래는 명령어 답변 메시지 입니다.
kaggle-linux-gpu-vm:~$ nvidia-smi

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.


2) vm 환경 사양 입니다.
vm_spec.jpg

답변 2

1

SPAGGY님의 프로필 이미지
SPAGGY
질문자

구글링해서 https://www.civo.com/docs/compute/gpu-instance-drivers-ubuntu
가이드 따라서 드라이버 재설치를 시도 해봤는데요. 다음과 같이 오류가 발생합니다.


spaggy@kaggle-linux-gpu-vm:~$ ubuntu-drivers devices

ERROR:root:could not open aplay -l

Traceback (most recent call last):

File "/usr/share/ubuntu-drivers-common/detect/sl-modem.py", line 35, in detect

aplay = subprocess.Popen(

File "/usr/lib/python3.8/subprocess.py", line 858, in init

self._execute_child(args, executable, preexec_fn, close_fds,

File "/usr/lib/python3.8/subprocess.py", line 1704, in executechild

raise child_exception_type(errno_num, err_msg, err_filename)

FileNotFoundError: [Errno 2] No such file or directory: 'aplay'

azure vm이 가지는 특성이 있는 것 같은데요. 어렵네요. 선생님, 도와주세요~~

다니엘님의 프로필 이미지
다니엘
지식공유자

SPAGGY님, 질문을 주셔서 감사합니다.

사용하신 Hardware (Standard NV4 as v4)는 nvidia gpu가 설치가 안 된 모델로 보여집니다.

수업 자료에 공유된 링크 (https://learn.microsoft.com/en-us/azure/virtual-machines/sizes-gpu)를 확인해 보시면 NVv4-series는 AMD 계열의 gpu를 사용합니다.

 

아래와 같이 NC4as T4 모델 (테슬라 Nvidia 모델) 을 사용해 보시겠어요?

image

그럼에도 불구하고 안 되는 부분이 있으면 언제든지 다시 질문해 주세요. 엔비디아도 드라이버나 이미지 들을 계속해서 업데이트하고 있기 때문에 과거 (강의 촬영 당시)에는 설정에 문제가 없었으나 현재에는 설정이 바뀌는 상황들이 분명히 발생할 수 있습니다.

 

감사합니다.

다니엘 드림

 

SPAGGY님의 프로필 이미지
SPAGGY
질문자

@다니엘 선생님, 감사합니다! 제가 VM 모델을 잘못 선택 했네요.

NC4as T4 v3 모델로 다시 VM 빌드하고 Nvidia 드라이브 확인 했습니다. 👍

image

0

안녕하세요, 인프런 AI 인턴입니다. SPAGGY님.

질문하신 내용에 대해 유사한 케이스를 찾아보았습니다. 아래에 제공된 링크는 도커 환경에서 NVIDIA 드라이버 설치와 관련된 문제를 다루고 있으며, 여기서 언급된 해결 방법이 SPAGGY님의 상황에 또한 적용될 수 있을 것 같습니다.

  • Dev-Container에서 GPU 활용하기: 이 질문에서 한 수강생은 dev container에서 GPU가 인식되지 않는 문제를 겪고 있었습니다. Docker 환경에 올바른 GPU 설정을 추가하는 것이 해결 방법의 일부분으로 언급되었습니다. 비록 정확하게 동일한 문제를 다루지는 않지만, Docker 환경에서 GPU 관련 문제를 해결하는데 참조가 될 수 있습니다.

질문자의 경우에는 NVIDIA 드라이버 자체가 설치되지 않았을 가능성이 있습니다. 이 경우, 다음과 같은 단계를 시도해 볼 수 있습니다:

  1. 드라이버를 수동으로 설치하기 위한 NVIDIA 드라이버 다운로드 페이지에 방문합니다.
  2. 사용 중인 Linux 배포판과 GPU에 맞는 드라이버를 선택하여 다운로드합니다.
  3. 다운로드 받은 드라이버 패키지의 지시에 따라 설치를 진행합니다.
  4. 드라이버 설치가 완료된 후 시스템을 재부팅합니다.
  5. 재부팅 후 nvidia-smi 명렁어를 사용하여 드라이버가 정상적으로 설치되었는지 확인합니다.

강의를 통해 제공되는 가상 환경이나 특정 VM 이미지에 이미 드라이버가 포함되어 있을 수도 있습니다. 만약 그렇다면, 해당 환경이나 이미지의 설치 지침을 확인해 보시면 유용할 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

SPAGGY님의 프로필 이미지

작성한 질문수

질문하기