autotrain advanced와 KorQuad 실습 관련 질문

모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기

해결된 질문

작성

236

안녕하세요~ 강의 잘 듣고 있습니다! autotrain advanced와 KorQuad 실습에 관련해 궁금한 점이 생겨 질문드립니다. 적다보니 질문이 조금 많아졌습니다... 감사합니다.

autotrain advanced 사용시 LoRA를 사용하게 된다고 하셨는데 그렇다면 바로 LoRA를 사용하지 않고 autotrain advanced를 거치는 이유는 무엇인가요?
autotrain advanced도 pre-training 된 모델을 학습시키는 기법의 일종이라고 보아야 하나요?
KorQuad 데이터에서 prompt를 작성할 때 'Below is an instruction that describes a task. Write a response that appropriately completes the request.'라는 문장을 모든 질문의 앞에 넣어주셨는데 이유가 무엇인가요? 뒷 강의에서 말씀하신 것처럼 chat봇의 특성을 정의 해주는 것인가요? inference
inference 시에 prompt에 넣을 수 있는 token에 limit이 있는 것으로 아는데 그 부분은 어디에서 확인해볼 수 있나요?

llm llama

답변 1

AISchool

지식공유자

안녕하세요~. 반갑습니다.

강의를 잘 듣고 계시다니 기쁘네요^^.

1. autotrain advanced 사용시 LoRA를 사용하게 된다고 하셨는데 그렇다면 바로 LoRA를 사용하지 않고 autotrain advanced를 거치는 이유는 무엇인가요?

-> autotrain-advanced를 사용하는 이유는 손쉬운 구현을 위해서입니다. 모든 부분을 직접 구현하려면 몇백줄의 코드 작성이 필요한 내용을 HuggingFace에서 잘 추상화해놓은 autotrain-advanced 라이브러리를 사용하면 몇십줄의 코드로 구현할 수 있습니다.

2. autotrain advanced도 pre-training 된 모델을 학습시키는 기법의 일종이라고 보아야 하나요?

-> pre-training된 모델을 몇 줄의 코드로 손쉽게 학습시킬 수 있도록 도와주는 도구라고 생각하시면 됩니다.

3. KorQuad 데이터에서 prompt를 작성할 때 'Below is an instruction that describes a task. Write a response that appropriately completes the request.'라는 문장을 모든 질문의 앞에 넣어주셨는데 이유가 무엇인가요? 뒷 강의에서 말씀하신 것처럼 chat봇의 특성을 정의 해주는 것인가요?

-> 맞습니다.

4. inference 시에 prompt에 넣을 수 있는 token에 limit이 있는 것으로 아는데 그 부분은 어디에서 확인해볼 수 있나요?

-> inference시에 prompt에 넣을 수 있는 token limit은 어떤 모델을 사용하느냐에 따라 다르며 Llama 2 같은 경우 max token limit이 4096 토큰입니다.

좋은 하루되세요~.

감사합니다.

ihj

질문자

안녕하세요 답변 너무 감사합니다. 궁금한 점이 조금 더 생겨 질문드립니다.. 예전 예제들을 보다 보면 prompt와 completion 형태로 구성된 jsonl형태의 파일을 openai의 base model로 학습시키는 경우가 많던데 혹시 지금은 잘 사용되지 않는 방식인가요? 그리고 학습을 위해선 system, user, assistant 가 고정된 데이터 세트 형태인지 궁금합니다.

AISchool

지식공유자

안녕하세요~.
1. jsonl 형태의 파일을 openai의 base model로 학습시키는 방법은 지금도 많이 사용되는 방법입니다.
2. 학습을 위해선 system, user, assistant 가 고정된 데이터 세트 형태입니다.
좋은 하루되세요.

감사합니다.

ihj

질문자

감사합니다. 그렇다면 혹시 prompt와 completion 형태, system, user, assistant 형태 두 개 중에 하나를 선택해서 데이터를 이 형태로 정제해주면 되는 것인지 궁금합니다.

AISchool

지식공유자

안녕하세요.

최신 버전의 OpenAI API에서는 prompt와 completion 형태는 deprecated 되었기때문에 system, user, assistant 형태로 데이터를 정제해주어야만 합니다.

좋은 하루되세요.