해결된 질문
작성
·
412
0
안녕하세요 강사님.
저는 GPU서버에서 docker 환경에서 학습을 진행하고 있습니다.
편리함과 안정성을 위하여 nvidia-docker 이미지를 받았고, 학습을 진행하고있습니다.
하지만 Tensorflow를 import하는 중에 에러를 만나 질문을 드립니다.
해당 오류가 CUDA 10.2 / cuDNN 7.6.0 버전과 맞지 않아 일어나는 오류인지 궁금합니다.
혹시 CUDA와 cuDNN버전의 문제라면 최적화된 버전을 알려주시면 해당 버전으로 다시 시도해보겠습니다.
그리고 저는 nvidia-docker에서 tensorflow1.13.1가 설치된 이미지를 받아서 사용하는데, tf115 가상환경에서 "pip install tensorflow-gpu==1.15.1"를 통해 한번더 pip install을 진행 하는데 이 부분이 괜찮은지 또한 궁금합니다.
제가 pull받은 도커의 버전은 아래와 같습니다.
버전 : Ubuntu16.04 / tensorflow1.13.1 / CUDA 10.2 / cuDNN 7.6.0
답변 5
0
0
결국 해당 에러를 못잡고 다른 방법으로 하였습니다.
현재 docker root 계정으로 들어가 있어 'start_jn_sh '파일을 강의 내용인 'nohup jupyter notebook &'이 아니라 'nohup jupyter notebook --allow-root &'로 작성하여 사용 했었습니다.
하지만 해당 문제에 부딪히고 그냥 docker shell에서 ipython shell에서 확인하여 보니 import tensorflow가 에러 없이 작동하여
'./start_jn.sh'가아닌 $ jupyter notebook --allow-root &으로 접속하여 진행하였습니다.
추가로 작성하자면 해당 방법으로 진행하니 다른 쪽(import cv2)에서 문제가 생겨 아래 명령어로 install하고 진행하였더니 잘 작동하였습니다.
$ apt-get install libgl1-mesa-glx
$ apt-get install libglib2.0-0
강사님 빠른 피드백 너무 감사드립니다.
잘 보고 공부하도록 하겠습니다.
0
0
강사님 답변 감사드립니다.
CUDA 10.0 cuDNN 7.6.2로 Downgrade하여도 같은 현상이 발생하고 있습니다..
libcublas.so.10.0 파일이 있는데 경로는 못잡고 있는것인가 의문이 듭니다.
경로를 수정해 보도록 하겠습니다.
0
안녕하십니까,
tensorflow 1.13이 최신버전 Cuda와 호환되지 않습니다. CUDA 10.0으로 Downgrade 해주셔야 합니다. 현재 tensorflow import 시 libcublas.so.10.0 shared object를 찾는데, CUDA 10.2에는 존재하지 않아서 발생하고 있습니다.
그리고 docker를 제가 써보진 않아서 정확하지 않을 순 있지만 tensorflow 1.13 이미지에서 pip로 tensorflow 1.15를 하셔도 별 문제없이 잘 설치가 될 것 같습니다.
감사합니다.