채팅 모델이 아닌 자동완성 모델 파인튜닝

모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기

Llama 2 Fine-Tuning 프로젝트 개요 - KorQuad 데이터셋

작성

522

수정됨

LLama2 모델을 이용하여 특정 분야의 리포트를 작성해주는 모델로 파인튜닝 하고 싶습니다.(Chat GPT 의 complete 모델 처럼)

너무 막연한 질문이긴 하지만..

이때 필요한 데이터 셋의 형태는 어떤 형태이며, 어떤 모델을 어떤식으로 파인튜닝을 진행해야하는지 가이드를 주실 수 있을까요?

예를들어 제가 원하는 모델은 input 으로 "안녕하세요. 이번 보고서" 라는 텍스트를 넣으면 output 으로 "에서는 다음과 같은 내용을 다룰예정입니다." 의 텍스트가 나오는 것 입니다.

input 텍스트를 넣으면 input 텍스트 이후에 올 수 있는 특정 분야에 관련된 텍스트를 자동으로 완성해주는 모델을 만들기 위해서 어떤식으로 접근해야 할까요?

딥러닝 pytorch chatgpt llm llama

답변 2

AISchool

지식공유자

안녕하세요~. 반갑습니다.

말씀해주신대로 보고서의 뒷부분을 완성하는 모델을 만들고 싶으실 경우 input 문장에 어떤 주제의 보고서로 분기할 것인지에 대한 최소한의 정보를 포함한 형태로 input을 구성한뒤 뒤에 output 부분에 해당 주제의 내용이 들어가 있는 보고서 형태로 데이터셋을 구성한뒤 학습시키셔야 할 것 같습니다.

기존 예제를 토대로 예시를 들면 아래와 같은 형태가 될 것입니다.

'Below is an instruction that describes a task. Write a response that appropriately completes the request. ### Instruction: {question} ### Response: {answer}'

[데이터1]

question : "안녕하세요. 이번 보고서는 한국의 저출산에 관련된 보고서입니다. 한국의 저출산은 여러 원인이 있으며"

answer : "{한국의 저출산에 관련된 보고서 뒤에 내용}"

[데이터2]

question : "안녕하세요. 이번 보고서는 지구온난화에 관련된 보고서입니다. 지구온난화는 여러 원인이 있으며"

answer : "{지구온난화에 관련된 보고서 뒤에 내용}"

좋은 하루되세요.

감사합니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.
sdt님의 질문에 답변드리겠습니다.

자동완성 모델을 파인튜닝하는 경우, 일반적으로 다음과 같은 절차를 따를 수 있습니다.

데이터셋 구축:
- 특정 분야의 리포트를 집대성한 데이터셋을 준비합니다. 데이터는 “입력 텍스트(input)“와 “해당 텍스트에 이어지는 내용(output)“의 쌍으로 구성되어야 합니다.
- 예를 들어, “안녕하세요. 이번 보고서”가 입력 데이터라면, “에서는 다음과 같은 내용을 다룰예정입니다.“를 출력 데이터로 매치해야 합니다.
모델 선정:
- LLama2 모델과 같은 대규모 언어 모델을 선택하여 사용합니다.
- 대규모 언어 모델은 이미 방대한 양의 텍스트 데이터로 사전 훈련되어 있으므로 특정 분야에서 사용할 때 더욱 빨리 학습이 가능합니다.
파인튜닝 절차:
- 준비된 데이터셋을 모델에 입력하여 파인튜닝합니다.
- 이 과정에서 모델은 주어진 입력 텍스트(input)에 대해 적합한 출력 텍스트(output)를 생성하는 방법을 학습합니다.
- 파인튜닝을 할 때에는 적절한 학습률(Learning Rate)과 에포크(Epochs)를 설정하여 모델이 과적합(Overfitting)되지 않게 주의합니다.
모델 평가:
- 파인튜닝된 모델을 사용해서 입력 텍스트에 대한 예측을 수행하고, 실제로 기대하는 출력과 비슷한지 평가합니다.
- 평가 지표로는 BLEU, ROUGE 등의 자동평가 메트릭스를 사용할 수 있으며, 필요에 따라 인간 평가자가 직접 평가하는 방법도 추가할 수 있습니다.

이 과정을 거쳐서 sdt님의 요구사항에 맞는 자동완성 모델을 개발하실 수 있습니다.
코딩 및 모델 파인튜닝에 대한 보다 구체적인 가이드를 원하시면 인프런에 있는 인공지능 카테고리의 강의를 참고하시면 도움이 될 것 같습니다.

강의 결정에 어려움이 있으시면, 인프런 지니의 입문강의 추천이나 로드맵, 베스트셀러 강의, 스킬태그 검색 기능 등을 이용해보시기 바랍니다.

도움이 필요하시면 언제든지 ‘문의하기’를 통해 질문하시면 빠르게 답변 드리겠습니다.

인프런 커뮤니티 질문&답변

채팅 모델이 아닌 자동완성 모델 파인튜닝