해결된 질문
작성
·
157
1
안녕하세요!
강의를 듣고 docx를 가지고 RAG 설정하는 걸 배우고나서
JSON파일을 가지고 RAG을 설정해보려고 하는데요,
이렇게 json을 로드하면 한글이 잘 출력이 됩니다.
하지만, langchain의 JSONLoader를 이용해서 load and split을 하려고 하면
해당 부분이 인코딩 되어 출력됩니다.
공식문서에서 해결방법을 찾지 못했는데,
혹시 강사님께서 해당 문제를 해결하는 방법에 대해서 알고 있으실까요?
답변 2
1
1
안녕하세요! JSONLoader
는 사용해본 적 없습니다. 문서를 보니 JSONLoader
가 jq
를 사용하는데 jq 문서를 보니 jq
가 디폴트로 저렇게 동작하는 것 같네요 ( --ascii-output 섹션을 보시면 됩니다)
LLM이 답변을 생성할 때는 유니코드로 넘겨줘도 정상적으로 답변을 생성해서, 저대로 그냥 LLM에 넘겨줘도 서비스 운영에는 지장은 없습니다.
그런데 원본의 출처를 꼭 보여줘야하는 경우에는 랭체인의 로더를 쓰려면 json.load()
로 제대로 불려오는 텍스트를 .md
나 .txt
로 변환하시고 TextLoader
나 BlobLoader
같은걸 사용하셔야 할 것 같습니다