서버 재시작 문제.

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드

작성

766

안녕하세요 선생님,

`The zone ‘projects/custom-helix-276114/zones/us-west1-b’ does not have enough resources available to fulfill the request. Try a different zone, or try again later.`

한번 서버를 중지 시키고 난 뒤로 부터 약 4일간 재시작 오류가 나타나고 있습니다..; 아무래도 west1서버에 몰리면서 나타나는 문제가 아닐까 생각이 되는데요, 혹시 다른 zone 추천하시는 리스트 없을까요?

분산해서 생성하면 나아지지 않을까 해서요

좋은 강의 잘 듣고있습니다~

python 컴퓨터 비전 keras 머신러닝 배워볼래요? tensorflow 딥러닝

답변 25

권 철민

지식공유자

안녕하십니까,

위 사항과 관련하여 별도의 동영상을 제작하고 강의에 추가하였습니다. '섹션9:실습 환경관련 이슈 사항이 있을 때마다 내용을 공유하는 섹션입니다'라는 추가 섹션을 생성하였고, 해당 섹션의 수업1:Resource 부족 관련 해결 방안에 보다 상세하게 해당 내역을 설명 드리고 있사오니 참조 부탁드립니다.

감사합니다.

권 철민

지식공유자

안녕하십니까, 비비빅님.

위 스레드에서 언급드린대로 GPU 서버가 아닌 일반 서버를 일단 새롭게 생성하고 환경 생성후 1~2일 후에 GPU 기동 시도후에 가능한지 확인 부탁드려도 될까요?

감사합니다.

권 철민

지식공유자

아이고 잘 되었네요.

휴대폰으로 하는것도 제가 검증해 보겠습니다. 한번 생성이 안되면 GCP 콘솔 브라우저에서 캐쉬 정보를 활용할 수도 있을것 같습니다.

비용 감안하여 잘 사용하시고, 이슈 있으시면 또 업데이트 부탁드립니다.

한번해보쟈

질문자

안녕하세요 선생님~

`아래는 비슷한 현상을 겪으신 고구넥님이 도움 주신 사항입니다. 내용을 요약하자면 GPU 서버를 사용하려면 기본적으로 다른 VM(GPU가 아닌)을 일정 기간 사용하면 GPU 서버 생성 권한을 얻는데 도움이 된다고 합니다.`

로 말씀 해주신대로 GPU없는 새로운 vm을 코어 4개, east1에 만들어서 conda 설치하고 여러가지 만지고있었습니다.

휴대폰 앱에 'Google Cloud Console'있길래 요걸로 켜고 끄는 시도 중에 p100가 켜지는 ... --;;; 일이 발생했습니다.

일시적인건지 VM을 새로만들어서 좀 쓰다보니 이렇게 된건지 확실치 않지만 소식 전달 드립니다.

비비빅

1. 오류 발생 시작 일자

- 2020.05.07에서 현재까지

2. 가능하시다면, 구글 클라우드에서 GPU 서버 설치 후 한동안 사용하지 않다가 강의를 위해 기동하는데 안되는 지 여부를 기재 부탁드립니다.

- 현재까지 서버 중지 3회 정도 실시

- 2회는 정상적으로 재시작 되었으나 마지막 3회 째부터 같은 오류로 서버 스타트가 안되네요.

권 철민

지식공유자

추가적으로 위 방법 외에 구글 클라우드에 직접 문의하는 방법도 같이 추진해 주시면 좋을 것 같습니다.

아래는 GCP의 결재 지원을 이용하여 문제를 문의하는 방법입니다.

1. GCP 메뉴의 지원->채팅지원->결재지원->이메일 지원을 선택합니다.

2. 이메일 지원 메뉴를 선택 후 필요한 계정 정보를 입력합니다.

3. 결재 계정 ID등 추가적인 정보를 입력

4. 아래와 같이 '자세히 알아보기' 에 내용을 입력하고 제출 버튼을 누릅니다. GCP 에 등록된 Email로 1시간안에 답변이 갑니다. 두분 다 내용은 아래 내용을 가지고 개별적으로 수정해서 보내주십시요.

안녕하십니까,

며칠동안 제 GPU 서버(VM)이 기동을 하지 못하고 있습니다. not have enough resource 로 오류 메시지를 계속 내면서 정상적으로 동작하던 서버가 아예 기동을 못합니다. 여러 군데 다른 Region으로 접속해서 서버를 생성하려 해도 동일한 오류 메시지를 내면서 서버를 생성할 수 없습니다.

작업을 못하면서 어려움이 많습니다. 해결 방안이 없을까요?

감사합니다.

권 철민

지식공유자

한번 해보쟈님, 김상화님.

아래는 비슷한 현상을 겪으신 고구넥님이 도움 주신 사항입니다. 내용을 요약하자면 GPU 서버를 사용하려면 기본적으로 다른 VM(GPU가 아닌)을 일정 기간 사용하면 GPU 서버 생성 권한을 얻는데 도움이 된다고 합니다.

아래는 GCP로 부터 해당 문제에 대한 답변을 받은 내용입니다.

===================================================================>

우선 GPU의 경우는 사용 이력이 많이 없으신 상태에서 설치 하여 사용이 어렵습니다. 고객님 현재 저희 구글 클라우드 플랫폼 인스턴스 사용 이력이 많이 없으신 상태인데 사용 하시다 보니 사용 정지가 발생 한 것으로 사료 됩니다. 제가 처음부터 GPU 관련 사용은 결제에 상관 없이 가입 후 이력이 없는 상태에서는 사용이 어렵다고 안내 도와 드렸어야 했는데 도움 드리지 못한점에 대해서 사과의 말씀 전합니다.

즉, 현재로서는 GPU 사용에 계속해서 제약이 갈 것으로 사료됩니다. 제가 추천 드리는 방법은 GPU 스펙이 아닌 다른 사양의 인스턴스를 설치해서 사용을 하시고 먼저 사용 이력을 쌓으시는 것을 권장 드립니다.

======================================================================================

고구넥님이 받은 답변 내용으로 보면 지금 당장 적용이 필요한 해결책으로 보입니다.

먼저 동영상 강의 대로 테스트 서버 환경을 설치해 주시되 GPU가 아닌 서버로 설정해 주십시요.

1. anaconda 설치 후 tf113, tf115 환경을 설치해 주십시요. tf115는 나중에 설치하셔도 무방합니다. 강의의 전반부는 tf113 환경 입니다. 강의에서 언급된 설치 파일인 DLCV/data/util/install_tf113.sh 에서 pip install tensorflow-gpu==1.13.1 을 gpu 버전이 아닌 pip install tensorflow==1.13.1 로 변경해 주십시요. tf115 환경도 설치하시려면 마찬가지로 tensorflow를 gpu 버전이 아닌 환경으로 변경해 주십시요.

2. SSD 까지는 CPU 환경에서 학습을 하셔도 큰 문제는 없습니다. 다만 CPU에서 Tensorflow inference 시에는 강의에 나오는 만큼 inference 속도가 1/10 수준으로 느려지는것만 참고해 주시면 됩니다.(아마 동영상 inference 가 많이 느릴 것입니다)

3. 적어도 Faster RCNN 실습을 수행하셨다면 CPU VM을 일정 수준 사용하였으니, GPU 서버를 생성 가능 할지 않을까 예상해봅니다. CPU VM을 사용하시면서 GPU 서버 생성을 주기적으로 시도해 주시면서 저에게 상황 업데이트 부탁드립니다.

감사합니다.

김상화

west1 CPU1개 GPU TYPE T4

로 했습니다.

동일합니다.

VM 인스턴스 'p100' 및 부팅 디스크 'p100' 생성

방금

My First Project

The zone 'projects/fleet-parsec-274303/zones/us-west1-b' does not have enough resources available to fulfill the request. '(resource type:compute)'.

권 철민

지식공유자

한번 해보쟈님, 밤늦게 수고 많으셨습니다.

오늘 저녁쯤에 us-west1 에서 GPU TYPE을 T4 로 변경해서 한번 시도해 주실 수 있나요?

김상화님, 아직도 서버가 'not have enough resources' 로 기동이 안된다면, 역시 us-west1 에서 GPU TYPE을 T4로 변경해서 시도해 보시고 상황 업데이트 부탁드립니다.

고우주님, 아직 접속 오류가 계속 발생하면 오류 메시지 부탁드립니다.

감사합니다.

한번해보쟈

질문자

여러 시도를 했봤는데 아직까지 실행은 안되는 상황입니다. 시도한 내용은 아래와 같습니다.

* 기존의 VM의 CPU 갯수를 4->1로 변경 시도

* 새로운 west1, east1 VM을 생성 시도 (이때 생성은 GPU 테슬라 p100 + CPU 코어 1개)

* 영역을 바꿔가며 P100 그래픽이 있는 곳을 east, west에서 찾아서 생성 시도.

위의 내용이 모두 'not have enough resources' 오류를 출력 합니다.

권 철민

지식공유자

현재까지 구글 문의 결과는 계정의 문제가 아니라, 구글 클라우드에 GPU 자원이 없어서 할당이 어렵다는 답변을 듣고 있습니다. 이 문제는 제가 계속 구글쪽에 문의해 볼것입니다.

그리고 GPU 서버를 생성할 때 한번 '리소스 부족' 오류가 나오면 연이어서 여러 Region을 바꾸면서 GPU 생성 시도를 하더라도 거의 자동적으로(?) GCP에서 '리소스 부족' 오류를 내면서 GPU 서버 생성을 막는것 같습니다. 짜증 나시더라도 이런 경우 몇시간 Cool down한 뒤에 다시 만드는 시도를 해봐야 할 것 같습니다.

저도 이문제에 계속 테스트 중이니, 새로운 결과 나올때 업데이트 드리겠습니다.

그리고 아직까지 기동이 안되시는 분은 계속 이 스레드에 답변 부탁드립니다.

감사합니다.