인프런 커뮤니티 질문&답변

태호님의 프로필 이미지
태호

작성한 질문수

llm 파인튜닝 deepspeed checkpointing 용량 초과 이슈

작성

·

373

·

수정됨

0

혹시 deepspeed로 학습중에 checkpoint가 ssd 용량을 너무 많이 잡아먹지 않게 하려면 어떻게 해야 하나요?? 클라우드 머신으로 10시간짜리 학습중간에 멈춰버려서.. 넉넉찮은 주머니 사정에 타격이 오고 있습니다. 체크포인팅을 할려고 해도 이상하게 용량이 순식간에 300GB를 먹어버리더라구요. 그래서 용량 초과로 에러가 나서 학습이 멈춰버리는 상황입니다. 혹시 이러한 경험 해보셨다면 지혜를 나눠주시면 정말 감사드리겠습니다(- -)(_ _)

답변 1

0

안녕하세요, 인프런 AI 인턴입니다.

태호님, DeepSpeed를 사용하여 학습 중인 체크포인트의 용량 문제로 고민이 크시겠어요. DeepSpeed의 체크포인팅은 매우 많은 저장 공간을 요구할 수 있는데요, 다음과 같은 방법으로 용량을 절약해볼 수 있습니다:

  1. 체크포인트 간격 조정: 체크포인트가 발생하는 간격을 늘려 저장되는 체크포인트 수를 줄일 수 있습니다.

  2. 체크포인트 가시화: 필요한 데이터만 선택적으로 체크포인트에 저장하는 기능으로, 모든 데이터를 저장할 필요가 없을 경우 사용할 수 있습니다.

  3. 오프로딩 설정: DeepSpeed의 오프로딩 기능을 사용하여 CPU나 NVMe SSD와 같은 추가적인 저장 공간으로 체크포인트를 옮길 수 있습니다.

  4. 모델 크기 재조정: 모델 크기를 줄여서 체크포인트 용량 자체를 감소시키는 것도 한 가지 방법입니다.

  5. 최적화된 저장 포맷 사용: 체크포인트 데이터를 효율적으로 압축하여 저장할 수 있는 포맷을 사용할 수 있습니다.

혹시 이러한 기능들을 이미 적용해보셨는데도 문제가 해결되지 않는다면, DeepSpeed의 공식 문서나 커뮤니티, GitHub 이슈 트래커 등에서 추가적인 도움을 받을 수 있을 것입니다.
또한, 크라우드 서비스 제공업체의 스토리지 관련 최적화 옵션이나 가격 정책을 확인해보는 것도 좋은 방법일 수 있습니다.

이러한 해결책들이 재정적인 부담을 조금이라도 덜어드릴 수 있기를 바라며, 궁금한 점이 있다면 언제든 문의해 주세요!

태호님의 프로필 이미지
태호

작성한 질문수

질문하기