Written on
·
27
0
안녕하세요. 유익한 콘텐츠 만들어주셔서 흥미롭게 강의를 듣고 있습니다.
이번 강의에서 질문드릴게 있어요.
'Gradio ChatInterface로 PDF 챗봇 애플리케이션 구현' 마지막에 논문의 저자(attention all you need 논문)는 몇 명이냐?는 질문에 대한 답이 10명으로 나옵니다. 저도 똑같이 구현하고 chunk size, chuck overlap, temperature를 조절하면서 물어봐도 제대로 된 답변(정답은 8명)을 못하더라고요.
그런데 똑같은 모델(gpt-4o-mini)을 Chatgpt 웹상에서 pdf 파일을 업로드 하고 몇 명이냐고 물어보면 정확하게 답변을 합니다.
어떤 부분에서 문제가 되길래 이번 프로젝트에서 논문의 저자가 몇 명이냐는 질문에 제대로 된 대답을 못하는 걸까요?
Answer 2
1
안녕하세요. 판다스 스튜디오입니다.
좋은 질문을 해주셔서 감사합니다!
모델이 답변할 때 참조하는 컨텍스트를 처리 방식에 차이가 있을 것 같습니다.
먼저, PDF 문서의 헤더/푸터가 본문 중간에 삽입되어 컨텍스트를 방해할 가능성이 높습니다. 헤더/푸터에 있는 정보가 저자 목록 데이터 주변에서 노이즈로 작용할 수 있을 것 같습니다.
또는, 소속 기관의 정보 등이 저자 목록과 혼재되어 모델이 카운트할 때 영향을 줄 수도 있을 것 같습니다.
ChatGPT에서는 논문 등 문서 형식에 따라 최적화된 문서 로드, 청크 분할 등 전처리 과정이 수행되는 것으로 추정할 수 있습니다. 이런 부분을 개발 과정에서 구현할 필요가 있을 것 같습니다.
감사합니다.
1
안녕하세요, 인프런 AI 인턴입니다. 안녕AI님.
Gradio를 활용한 PDF 챗봇 애플리케이션 구현에서, 특정 질문에 대해 모델의 답변이 일관되지 않는 부분에 대해 궁금해하셨군요. 이 같은 문제에는 몇 가지 원인이 있을 수 있습니다:
모델의 파인튜닝 및 설정 차이: OpenAI API의 모델(gpt-4o-mini)을 사용하는 경우, 설정 값(temperature, chunk size 등)과 파라미터에 따라 결과가 다르게 나타날 수 있습니다. 모델에게 특정 정보의 중요도를 올리거나 낮추는 방식으로 데이터 처리 방법을 변경하면 결과가 다르게 나타날 수 있습니다.
데이터 전처리 방법: PDF를 텍스트로 파싱할 때, 텍스트 일부가 누락되거나 잘못 인식될 수 있습니다. 특히 저자 정보와 같은 데이터를 파싱할 때, OCR이나 PDF 파싱의 문제로 인해 일관되지 않은 정보가 전송될 수 있습니다.
맥락 처리 문제: 텍스트를 분할하는 방식(chunk size 및 overlap)가 모델이 문장의 맥락을 정확히 이해하는 데 영향을 미칠 수 있습니다. 예를 들어, ‘논문의 저자’라는 질문에 대한 정보를 한 번에 인식하지 못할 수 있습니다.
모델의 학습 데이터 차이: 웹 상에서의 ChatGPT 인터페이스와, API를 통해 통신하는 방법은 상이한 결과를 초래할 수 있습니다. 이는 학습 데이터와 환경의 차이로 인한 것입니다.
이 문제를 해결하기 위해 다음과 같은 조치를 고려해 볼 수 있습니다:
전처리 향상: PDF 파싱이나 텍스트 전처리 방법을 개선해서 더 정확한 입력 데이터를 모델에 전달할 수 있습니다.
모델 환경 설정 조정: temperature, chunk size, overlap 등을 조절하여 모델의 응답을 조정할 수도 있습니다.
추가 데이터 제공: 모델에게 추가적인 문맥을 제공하거나, 필요한 정보에 더 집중할 수 있도록 특정 질문 프롬프트를 수정할 수 있습니다.
추가적으로, 동일한 문제가 발생한 유사한 질문들도 참조해 보시면 도움이 됩니다. 관련 정보를 확인해보세요:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.