인프런 커뮤니티 질문&답변

한번해보쟈님의 프로필 이미지

작성한 질문수

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드

서버 재시작 문제.

20.05.11 08:21 작성

·

758

1

안녕하세요 선생님,

`The zone ‘projects/custom-helix-276114/zones/us-west1-b’ does not have enough resources available to fulfill the request. Try a different zone, or try again later.`

한번 서버를 중지 시키고 난 뒤로 부터 약 4일간 재시작 오류가 나타나고 있습니다..; 아무래도 west1서버에 몰리면서 나타나는 문제가 아닐까 생각이 되는데요, 혹시 다른 zone 추천하시는 리스트 없을까요?

분산해서 생성하면 나아지지 않을까 해서요

좋은 강의 잘 듣고있습니다~

답변 25

2

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 15. 14:25

안녕하십니까,

위 사항과 관련하여 별도의 동영상을 제작하고 강의에 추가하였습니다. '섹션9:실습 환경관련 이슈 사항이 있을 때마다 내용을 공유하는 섹션입니다'라는 추가 섹션을 생성하였고, 해당 섹션의 수업1:Resource 부족 관련 해결 방안에 보다 상세하게 해당 내역을 설명 드리고 있사오니 참조 부탁드립니다.

감사합니다.

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 14. 18:54

안녕하십니까, 비비빅님.

위 스레드에서 언급드린대로 GPU 서버가 아닌 일반 서버를 일단 새롭게 생성하고 환경 생성후 1~2일 후에 GPU 기동 시도후에 가능한지 확인 부탁드려도 될까요?

감사합니다.

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 14. 18:52

아이고 잘 되었네요.

휴대폰으로 하는것도 제가 검증해 보겠습니다. 한번 생성이 안되면 GCP 콘솔 브라우저에서 캐쉬 정보를 활용할 수도 있을것 같습니다.

비용 감안하여 잘 사용하시고, 이슈 있으시면 또 업데이트 부탁드립니다.

0

한번해보쟈님의 프로필 이미지

2020. 05. 14. 18:29

안녕하세요 선생님~ 

`아래는 비슷한 현상을 겪으신 고구넥님이 도움 주신 사항입니다. 내용을 요약하자면 GPU 서버를 사용하려면 기본적으로 다른 VM(GPU가 아닌)을 일정 기간 사용하면 GPU 서버 생성 권한을 얻는데 도움이 된다고 합니다.`

로 말씀 해주신대로 GPU없는 새로운 vm을 코어 4개, east1에 만들어서 conda 설치하고 여러가지 만지고있었습니다.

휴대폰 앱에 'Google Cloud Console'있길래 요걸로 켜고 끄는 시도 중에 p100가 켜지는 ... --;;; 일이 발생했습니다.

일시적인건지 VM을 새로만들어서 좀 쓰다보니 이렇게 된건지 확실치 않지만 소식 전달 드립니다.

0

비비빅님의 프로필 이미지

2020. 05. 14. 17:55

1. 오류 발생 시작 일자

- 2020.05.07에서 현재까지

2. 가능하시다면, 구글 클라우드에서 GPU 서버 설치 후 한동안 사용하지 않다가 강의를 위해 기동하는데 안되는 지 여부를 기재 부탁드립니다.

- 현재까지 서버 중지 3회 정도 실시 

- 2회는 정상적으로 재시작 되었으나 마지막 3회 째부터 같은 오류로 서버 스타트가 안되네요.

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 14. 14:24

추가적으로 위 방법 외에 구글 클라우드에 직접 문의하는 방법도 같이 추진해 주시면 좋을 것 같습니다.

아래는 GCP의 결재 지원을 이용하여 문제를 문의하는 방법입니다.

1. GCP 메뉴의 지원->채팅지원->결재지원->이메일 지원을 선택합니다.

2.  이메일 지원 메뉴를 선택 후 필요한 계정 정보를 입력합니다.

3. 결재 계정 ID등 추가적인 정보를 입력

4. 아래와 같이 '자세히 알아보기' 에 내용을 입력하고 제출 버튼을 누릅니다. GCP 에 등록된 Email로 1시간안에 답변이 갑니다.  두분 다 내용은 아래 내용을 가지고 개별적으로 수정해서 보내주십시요.

안녕하십니까,

며칠동안 제 GPU 서버(VM)이 기동을 하지 못하고 있습니다.  not have enough resource 로 오류 메시지를 계속 내면서 정상적으로 동작하던 서버가 아예 기동을 못합니다. 여러 군데 다른 Region으로 접속해서 서버를 생성하려 해도 동일한 오류 메시지를 내면서 서버를 생성할 수 없습니다.

작업을 못하면서 어려움이 많습니다. 해결 방안이 없을까요?

감사합니다.

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 14. 14:13

한번 해보쟈님, 김상화님.

아래는 비슷한 현상을 겪으신 고구넥님이 도움 주신 사항입니다. 내용을 요약하자면 GPU 서버를 사용하려면 기본적으로 다른 VM(GPU가 아닌)을 일정 기간 사용하면 GPU 서버 생성 권한을 얻는데 도움이 된다고 합니다.

아래는 GCP로 부터 해당 문제에 대한 답변을 받은 내용입니다.

===================================================================>

우선 GPU의 경우는 사용 이력이 많이 없으신 상태에서 설치 하여 사용이 어렵습니다. 고객님 현재 저희 구글 클라우드 플랫폼 인스턴스 사용 이력이 많이 없으신 상태인데 사용 하시다 보니 사용 정지가 발생 한 것으로 사료 됩니다. 제가 처음부터 GPU 관련 사용은 결제에 상관 없이 가입 후 이력이 없는 상태에서는 사용이 어렵다고 안내 도와 드렸어야 했는데 도움 드리지 못한점에 대해서 사과의 말씀 전합니다.

즉, 현재로서는 GPU 사용에 계속해서 제약이 갈 것으로 사료됩니다. 제가 추천 드리는 방법은 GPU 스펙이 아닌 다른 사양의 인스턴스를 설치해서 사용을 하시고 먼저 사용 이력을 쌓으시는 것을 권장 드립니다.

======================================================================================

고구넥님이 받은 답변 내용으로 보면 지금 당장 적용이 필요한 해결책으로 보입니다.

먼저 동영상 강의 대로 테스트 서버 환경을 설치해 주시되 GPU가 아닌 서버로 설정해 주십시요.

1. anaconda 설치 후 tf113, tf115 환경을 설치해 주십시요. tf115는 나중에 설치하셔도 무방합니다. 강의의 전반부는 tf113 환경 입니다.  강의에서 언급된 설치 파일인 DLCV/data/util/install_tf113.sh 에서 pip install tensorflow-gpu==1.13.1 을 gpu 버전이 아닌 pip install tensorflow==1.13.1 로 변경해 주십시요.  tf115 환경도 설치하시려면 마찬가지로 tensorflow를 gpu 버전이 아닌 환경으로 변경해 주십시요.

2. SSD 까지는 CPU 환경에서 학습을 하셔도 큰 문제는 없습니다. 다만 CPU에서 Tensorflow inference 시에는 강의에 나오는 만큼 inference 속도가 1/10 수준으로 느려지는것만 참고해 주시면 됩니다.(아마 동영상 inference 가 많이 느릴 것입니다)

3. 적어도 Faster RCNN 실습을 수행하셨다면 CPU VM을 일정 수준 사용하였으니, GPU 서버를 생성 가능 할지 않을까 예상해봅니다. CPU VM을 사용하시면서 GPU 서버 생성을 주기적으로 시도해 주시면서 저에게 상황 업데이트 부탁드립니다.

감사합니다.

0

김상화님의 프로필 이미지

2020. 05. 14. 13:12

west1 CPU1개 GPU TYPE T4
로 했습니다.
동일합니다.
VM 인스턴스 'p100' 및 부팅 디스크 'p100' 생성
방금
My First Project
The zone 'projects/fleet-parsec-274303/zones/us-west1-b' does not have enough resources available to fulfill the request. '(resource type:compute)'.

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 14. 11:53

한번 해보쟈님, 밤늦게 수고 많으셨습니다.

오늘 저녁쯤에 us-west1 에서 GPU TYPE을 T4 로 변경해서 한번 시도해 주실 수 있나요?

김상화님, 아직도 서버가 'not have enough resources' 로 기동이 안된다면, 역시 us-west1 에서 GPU TYPE을 T4로 변경해서 시도해 보시고 상황 업데이트 부탁드립니다.

고우주님, 아직 접속 오류가 계속 발생하면 오류 메시지 부탁드립니다.

감사합니다.

0

한번해보쟈님의 프로필 이미지

2020. 05. 14. 00:18

여러 시도를 했봤는데 아직까지 실행은 안되는 상황입니다. 시도한 내용은 아래와 같습니다.

* 기존의 VM의 CPU 갯수를 4->1로 변경 시도

* 새로운 west1, east1 VM을 생성 시도 (이때 생성은 GPU 테슬라 p100 + CPU 코어 1개)

* 영역을 바꿔가며 P100 그래픽이 있는 곳을 east, west에서 찾아서 생성 시도.

위의 내용이 모두 'not have enough resources' 오류를 출력 합니다.

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 13. 18:54

현재까지 구글 문의 결과는 계정의 문제가 아니라, 구글 클라우드에 GPU 자원이 없어서 할당이 어렵다는 답변을 듣고 있습니다. 이 문제는 제가 계속 구글쪽에 문의해 볼것입니다.

그리고 GPU 서버를 생성할 때 한번 '리소스 부족' 오류가 나오면 연이어서 여러 Region을 바꾸면서 GPU 생성 시도를 하더라도 거의 자동적으로(?) GCP에서 '리소스 부족' 오류를 내면서 GPU 서버 생성을 막는것 같습니다. 짜증 나시더라도 이런 경우  몇시간 Cool down한 뒤에 다시 만드는 시도를 해봐야 할 것 같습니다.

저도 이문제에 계속 테스트 중이니, 새로운 결과 나올때 업데이트 드리겠습니다. 

그리고 아직까지 기동이 안되시는 분은 계속 이 스레드에 답변 부탁드립니다.

감사합니다.

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 13. 14:58

확인 감사합니다.

0

김상화님의 프로필 이미지

2020. 05. 13. 14:58

GPU All regions 는 1개 할당 받았습니다.

귀찮아서 기존 p100에서 CPU 만 4->1개로 수정했는데 안되서

그냥 p100 완전히 삭제하고 다시 만들려고 했는데 CPU 1개로 만드는것도 경고 뜹니다.

혹시 잘못했나 해서 다시 해봤는데 똑같습니다.

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 13. 14:37

감사합니다, 김상화님,

만약에 GPU ALL Regions 가 2개 이상이시면 US-west1 에 GPU 서버를 신규로 한번 생성하되, CPU 개수를 1개(4개가 아님)로 설정해서 생성을 부탁 드려도 될까요?

만일 GPU All regions가 1개라면 기존 GPU를 삭제하시고 새로운 GPU를 CPU 개수 1개로 해서 생성을 부탁 드려도 될지요?

미리 감사드립니다.

0

김상화님의 프로필 이미지

2020. 05. 13. 14:22

7일전까진 잘 되다가 6일전부터 안되길래 기다리는데 지금까지도 안됩니다.

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 13. 14:13

고우주님, 접속 불가 오류 메시지가 위와 다른 내용인지요? 

자세한 오류 메시지를 UPDATE 부탁드립니다.

감사합니다.

0

고우주님의 프로필 이미지

2020. 05. 13. 13:46

지난주부터 인스턴스 접속 오류 나더니, 이번주부터는 아예 접속 불가네요.

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 13. 13:36

CPU 갯수 문제라니 어이가 없군요. 찾으시느라고 고생 많으셨습니다.

일단 이게 전체적으로 이슈가 있는지 한번 확인해 볼 필요가 있겠습니다. 조만간 전체 공지 올리겠습니다.

감사합니다.

0

노승희님의 프로필 이미지

2020. 05. 13. 13:21

gpu 0->1로 변경 메일 받았은 상태입니다!

오리건에서 설정을 바꿔가면서 하나하나 테스트 해봤습니다.

위와 같이 설정 했을때는 들어가집니다. .

강의와 동일한 설정에서 cpu를 1개로 맞추니까 되고, 2개 이상부터는 안됐습니다.

그리고 cpu를 4개로 맞추고 gpu를 설정 하지 않아도 안됐었습니다. cpu의 갯수 문제인거 같습니다ㅜ

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 13. 11:36

안녕하십니까 

한번해보자님 노승희님 모두 현재 서버가 기동 불가능인지 상황 공유 부탁드려도 될까요?

0

노승희님의 프로필 이미지

2020. 05. 13. 01:10

저도 미국 뿐만이 아니라 네덜란드도 해봤는데 동일한 오류가 뜹니다 ㅜㅜ

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 11. 16:19

일단 US East1 를 테스트 해보시고, 만약 west1, east1 다 안되면, 기존에 생성된 vm을 모두 삭제하시고, 새롭게 west1에 생성해 보시기 바랍니다. update 부탁드릴께요.

0

한번해보쟈님의 프로필 이미지

2020. 05. 11. 15:46

네 현재도 동일한 오류가 발생하고 있습니다. 다른 지역은 vm을 아직 생성해 보지 않아서 테스트 해보고 말씀 드리겠습니다~

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2020. 05. 11. 10:06

안녕하십니까,

요새 west1에서 이런 문제가 나타난다는 질문이 눈이 띄는 군요.  혹시 두분 다 아직도 동일한 오류가 나시나요?  그리고 다른 지역으로 설정을 다시 해보아도 여전히 동일한 오류가 나는지 update 부탁드립니다.

감사합니다.

0

Young Lee님의 프로필 이미지

2020. 05. 11. 09:35

저도 동일한 오류가 나타납니다. 오리건말고 South Carolina, 그리고 그 외에  p100이 있는 지역으로 다 설정을 해서 다시 해보아도 동일한 현상이 일어나네요.