작성
·
255
답변 2
0
안녕하세요~. 반갑습니다.
먼저 수업을 잘 듣고 계시다니 기쁘네요^^.
수업에서 다루는 Llama 3-8B 모델 같은 경우는 80억개의 상당히 큰 파라미터를 가진 LLM이기 때문에 실습에서 사용하는 무료 colab GPU인 T4 GPU를 사용할 경우 추론 시간이 꽤 걸리게 됩니다.
추론 속도를 높이고자 할때 시도해볼 수 있는 선택지는 다음과 같습니다.
양자화(Quantization)을 진행한 파라미터가 더 작은 모델을 사용 (하지만 이 경우에는 파라미터가 줄어듬에 따라서 성능저하가 있을 수 있습니다.)
더 고성능 GPU를 사용 - T4 GPU보다 더 고성능의 GPU를 이용해서 추론 속도를 높일 수 있습니다.
Groq ( https://groq.com/ )과 같은 추론 속도에 최적화된 API 서비스를 이용해서 사용 - 빠른 AI 추론 서비스를 제공하는 API를 사용해서 추론속도를 높일 수 있습니다.
좋은 하루되세요.
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
해당 질문에 대한 정보는 제공된 자료에 없어 정확한 답변을 드리기 어렵습니다.
하지만 일반적으로 모델의 반응 시간이 느린 경우, 몇 가지 가능한 이유와 해결 방법을 살펴볼 수 있습니다.
상황과 필요에 따라 적절한 방법을 선택하여 적용해보시길 권장합니다.
더 자세한 내용이나 구체적인 해결책을 원하신다면 해당 강의 제공자에게 직접 문의하시거나 관련 전문 커뮤니티에 질문을 올려 보시는 것도 좋은 방법입니다.