작성
·
1.2K
답변 1
1
안녕하세요~. 반갑습니다.
말씀해주신대로 기본 Llama 모델(TinyPixel/Llama-2-7B-bf16-sharded)은 한국어 정보를 많이 포함하고 있지않기 때문에, Fine-Tuning을 하지 않은 한국어 정보를 물어볼 경우 Pre-Training 과정에 한국어 정보가 많이 포함되어 있지 않기 때문에 답변할 수 없습니다.
Fine-Tuning을 하지않거나 최소한의 Fine-Tuning으로 범용적인 상황의 한국어 답변을 얻고 싶으실 경우 OpenAI API를 이용해서 GPT를 그대로 사용하거나 GPT를 Fine-Tuning해서 사용하는 방법이 있을 수 있습니다.
오픈소스 진영에서 GPT 대용품을 찾으신다면 현재까지 공개된 오픈소스 한국어 채팅 모델 중에 가장 유명한 모델은
이준범 ( https://github.com/Beomi ) 님이 공개하신 KoAlpaca ( https://huggingface.co/beomi/KoAlpaca-Polyglot-12.8B ) 입니다. 아래 GitHub 저장소를 참조하세요.
https://github.com/Beomi/KoAlpaca
다만 KoAlpaca 역시 제한된 한국어 데이터셋으로 학습되었기때문에 GPT처럼 모든 한국어 질문에 대해 대답할 수는 없다는 점 참고바랍니다.
좋은 하루되세요.
감사합니다.