Rag 사용시 전혀 관계없는 데이터를 가져오는 이슈

모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 2 - 랭체인(LangChain)으로 나만의 ChatGPT 만들기

작성

973

수정됨

안녕하세요 rag를 공부하고 실제로 테스트를 하기위해서
open ai를 사용하여 서비스 이름과 서비스 담당자 관련한 정보가 존재하는 csv 데이터를 아래처럼 임베딩 한 뒤

index_name = "manager"

 # CSV 파일 로딩 

loader = CSVLoader(file_path="manager.csv", encoding="utf-8") 

docs = loader.load() 

# text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)

 # docs = text_splitter.split_documents(documents) 

embedding_model= OpenAIEmbeddings(openai_api_key=OPENAI_KEY) 

vectorstore = ElasticsearchStore( embedding=embedding_model, index_name=index_name, es_url=es_url ) 

vectorstore.add_documents(docs)

데이터는 아래 형태로 embedding 하여 text에 들어가 있습니다.

이름: (서비스 이름)

메인 담당자:

개발 담당자: 정(XXX) 부(XXX, XXX, XXX, XXX)

SE 담당자: 정(YYY3) 부(ZZZ)

DBA 담당자:

아래처럼 프롬프트를 작성하고 rag를 사용하여 relevant_document를 통하여 확인하면,

실제로 text에 들어가있는 데이터를 안가져오고 엉뚱한 데이터를 가져오거나

실제로 관련 담당자가 text에 포함되는 데이터가 여러개가 실제로 존재하더라도 한 개만 가져오고 나머지는 엉뚱한 document만 가져오는 경우가 많은 것 같습니다.

rag_prompt = """
You are an expert AI on a question and answer task. 

Use the "Following Context" when answering the question. If you don't know the answer, reply to the "Following Text" in the header and answer to the best of your knowledge, or if you do know the answer, answer without the "Following Text". If a question is asked in Korean, translate it to English and always answer in Korean.

Following Text: "주어진 정보에서 답변을 찾지는 못했지만, 제가 아는 선에서 답을 말씀드려볼게요! **틀릴 수도 있으니 교차검증은 필수입니다!**"

Following Context: {context}

Question: {question}

Helpful Answer:"""


prompt = ChatPromptTemplate(input_variables=['context', 'question'], 
messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(
   input_variables=['context', 'question'], 
   template= rag_prompt))
])

# LLM
from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI
llm = ChatOpenAI(model_name="gpt-3.5-turbo-0125", temperature=0, openai_api_key=OPENAI_KEY)
retriever = vectorstore.as_retriever(
        search_type="similarity",
        return_source_documents=True
    )

resp = retriever.get_relevant_documents("XXX가 담당하는 서비스 알려줘")
print(resp)

혹시나 엉뚱한 document를 안가져오고 해당되는 값이 포함되는 document만 가지고 올 수 있도록 할 수 있는지 여쭤봅니다!

정리하자면 1:n으로 연관되어있는 내용에서 1에 대한 정보를 물어보면 내용을 잘가져오는 것 같은데 n에 대한 질문을 하면 정보를 전혀 못가져 오는 것 같은데 이를 해결하는 방법론이 있을지 여쭤봅니다!

chatgpt llm langchain

답변 2

AISchool

지식공유자

안녕하세요~. 반갑습니다.

해당 경우처럼 XXX 담당자가 명확히 지정되어있는 정형데이터의 경우 순수한 Embedding을 이용한 Similarity 비교만을 사용하기보다는 metadata에 추가정보를 맵핑해서 저장하고 metadata에 저장된 정보를 key로 활용하여 필터링 할 경우에 좀더 정확한 매칭 결과를 받아올 수 있습니다. (예를 들어 Vector Store에 저장할때 각 데이터 별로 담당자를 명확히 metadata로 저장하는 것입니다.)

아래 강의 영상들과

심화 실습 - Compression & 2-Depth 구현 - 판사GPT(JudgeGPT)
심화 실습 - Compression & 2-Depth 구현 - 특허GPT(PatentGPT)

아래 SelfQueryRetriever 문서를 참조하세요.

https://python.langchain.com/docs/modules/data_connection/retrievers/self_query

좋은 하루되세요.

감사합니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

밈밍이님의 질문에 관련하여 RAG를 사용할 때 관련성 있는 데이터만을 효과적으로 추출하는 방법에 대해 궁금해하시는 것 같습니다. 직접적인 해결 방법을 제공하는 기존 답변은 없지만, 관련한 논의를 찾았습니다.

이전에 “RAG에서 Generator으로 어떤 데이터가 들어가는지 볼 수 있는 방법이 있나요?“라는 질문에 대한 답변에서, RAG의 작동 방식 및 그 과정에서 어떠한 데이터가 활용되는지 확인하는 방법에 대해 설명하고 있습니다. 해당 답변에서는 RAG의 Retriever와 Generator 사이의 데이터 흐름을 파악하고, 이를 통해 어떤 데이터가 선택되는지 보다 명확히 이해할 수 있는 방법에 대해 설명하고 있습니다.

엉뚱한 문서가 나오는 이슈를 해결하기 위해, RAG 모델이 어떻게 작동하고, 어떻게 데이터를 선택하는지 먼저 이해하는 것이 중요할 수 있습니다. 이를 통해 검색 알고리즘을 조정하거나, 검색 쿼리의 방식을 개선하여 더 관련성 있는 문서만을 선택하도록 모델을 조정할 수 있습니다.

다만, 이와 완전히 일치하는 직접적인 해결 방안은 아니지만, 기본 개념과 모델의 작동 방식 이해에 도움이 될 수 있을 것 같습니다.

LangChain의 공식 문서에도 RAG 모델 사용과 관련된 추가 정보가 있을 수 있으니 참고하시길 바랍니다. 특히 데이터 인덱싱, 검색 알고리즘 최적화, 검색 쿼리 구성 방법 등이 문제 해결에 도움이 될 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

Rag 사용시 전혀 관계없는 데이터를 가져오는 이슈