chroma vector db 생성에서 오류

Question

안녕하세요. 지금 Chroma.from_documents(documents=document_list, embedding=embedding) 이 부분에서 에러가 나서 질문 드립니다.

개발 환경은 vscode에서 jupyter notebook 가상환경 만들어서 사용 중입니다.

사내에서 공부 중이라 drm으로 인해 txt 파일로 변경을 했고, ollama를 사용해서 embedding model을 생성했습니다. mxbai-embed-large 이 모델을 사용했고요.

일단 소요 시간이 너무 오래 걸립니다. 그리고 1시간이 넘어가고는 canceled future for execute_request message before replies were done 이 에러가 뜨더라고요. 그래서 python으로 작성을 했더니 2시간 정도 걸리니까 생성은 되더라고요. 이건 좀 아닌 거 같아서 질문 드립니다. 혹시 왜 이런지 아실까요?

Gahee Kim · Answer

GPU가 있는 PC이고, cuda도 설치한 상태입니다. 혹시 다른 이유는 없을까요?

강병진 · Answer

안녕하세요,

Jupyter에서 발생하는 "canceled future" 에러는:

Jupyter의 기본 타임아웃 설정 때문일 가능성이 높습니다
긴 실행 시간을 요구하는 작업에서 자주 발생하는 문제입니다

그리고 소요시간이 오래걸리는 건 GPU가 없기 때문일 가능성이 높습니다. 경험상 ollama에 있는 임베딩 모델들은 한국어 대상으로 성능이 좋지 않아서, 학습 목적이시라면 더 작은 임베딩 모델을 사용해보시는 걸 추천드립니다.

인프런 커뮤니티 질문&답변

chroma vector db 생성에서 오류