Mini-batch Gradient Descent computat... - 인프런

딥러닝 이론 + PyTorch 실무 완전 정복

[이론] Mini-batch Gradient Descent (미니 배치 경사 하강)

Mini-batch Gradient Descent computation time 질문

해결된 질문

작성

안녕하세요 선생님

시간과 체력이 더 많았으면 좋겠다는 생각이 들 정도로 강의를 너무 재밌게 보고 있습니다

Mini batch Gradient Descent 이론 편에서 Mini batch Size에 비례하지 않는다는 설명을 보았는데요.

물론 병렬처리를 하기 때문에 정비례하지 않겠지만 GPU에 올릴 수 있는 최대 데이터양이 100개라고 가정한다면 미니배치를 200, 300, .. 이런 식으로 키운다면 미니 배치크기에 따라 비례하는 것은 맞지 않나요?

혹시 제가 잘못 생각하고 있다면 말씀해주세요

감사합니다!

딥러닝 pytorch NLP 컴퓨터-비전 cnn rnn transformer llm

답변 2

변정현

지식공유자

안녕하세요!

좋은 질문해주셔서 또 한번 감사드립니다!

네 정확합니다!

만약에 GPU에 올릴 수 있는 최대 데이터양이 100개라면 최대로 한번에 병렬 처리할 수 있는 데이터양도 100개가 한계입니다. 따라서 500개의 데이터 샘플들을 처리하기 위해서는 100개로 구성된 미니배치 5개를 차례대로 순회해야합니다.

반면에 GPU에 올릴 수 있는 데이터양 (즉 100개) 에 한해서는 샘플 하나하나씩 차례대로 계산하지 않아도 되기 때문에 Mini-batch을 구성하는 데이터 수에 대해서는 연산 소요 시간이 비례하지 않습니다!

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

HELLO님, 질문 주셔서 감사합니다. 미니배치 크기에 따른 계산 시간에 관해 질문을 주셨군요!

관련된 설명을 제공한 게시물들이 있습니다. 이를 참고하시면 더 명확하게 이해할 수 있을 것입니다:

Batch size 가 극단적으로 작은 경우 (예를들어 batch_size =1) Normalization 적용 방안
- 여기서 Batch size와 이를 조정할 때의 고려사항에 대해 다룬 내용입니다. 비록 Normalization이 주된 주제지만, Mini-batch 크기를 조절하는 것의 영향 및 이유를 간접적으로 이해하는 데 도움이 될 것입니다.
Normalization 질문
- Batch Normalization과 관련된 부분에서 Batch size의 변동이 학습에 미치는 영향을 설명하는 내용이 포함되어 있습니다.
Normalization의 불안정성과 Group Normalization
- 이 게시물에서도 작은 Batch size와 큰 Batch size의 효과에 대해 다루고 있습니다. 이를 통해 Batch size가 계산 시간 및 학습 안정성에 미치는 영향을 더 잘 이해할 수 있을 것입니다.

풍부한 설명 추가:
미니배치 크기가 계산 시간에 영향을 미치는 이유는, GPU의 병렬 처리 능력과 관련이 있습니다. 미니배치 크기가 너무 작을 경우, GPU 리소스가 충분히 활용되지 않아 연산 시간이 비효율적으로 길어질 수 있습니다. 반대로 미니배치 크기가 너무 크다면, GPU 메모리 용량을 초과하여 연산이 불가능해지거나, 이 역시 비효율성을 초래할 수 있습니다. GPU의 최적 활용을 위해서는 적절한 미니배치 크기를 찾는 것이 중요합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

Mini-batch Gradient Descent computation time 질문