해결된 질문
작성
·
108
1
안녕하세요 강사님
먼저 훌륭한 강의 공유해주셔서 너무 감사합니다
저는 지금 사내 위키를 크롤링해서 그 내용을 학습하고 이에 대한 내용을 GPT에게 질문했을 때 답변하는 챗봇을 개발하고 있습니다.
가이드 문서에는 이미지 파일을 통한 예시와 함께 작성된 가이드 문서가 많은데 이를 어떻게 학습시키거나 이용자에게 뿌려줄 수 있을지 궁금합니다
첨부된 GPT답변을 보시면 예제 스크린샷이라고 나오지만 제가 문제로 예상하는것은 위키가 로그인 된 사용자만 열람이 가능하기 때문에 이미지 링크 파일 또한 로그인되지 않은 상태에서는 접근이 불가능하기 때문입니다.
혹시 답변에 도움이 될까 싶어 제가 구현한 단계를 마지막으로 질문 마치겠습니다
크롤링(selenium)을 통해 wiki를 탐색하며 .txt파일로 긁어옵니다
표 같은경우 강사님 조언대로 table -> markdown
code태그는 ```code``` 태그로 감싼다
image데이터의 경우 src에서 파일 링크를 추출해서 text로 변환 (ex https://cdn.inflearn.com/public/files/courses/324145/9b8f6df3-8278-446f-b0da-394371126807/inflearn_python_07.png)
DirectoryLoader로 파일들을 embedding해서 벡터화
강의 따라가며 나머지 동일하게 구현
답변 1
0
안녕하세요!
보안 이슈로 인해서 인증된 사용자만 스크린샷에 접근 가능하다면, 인증되지 않은 사용자를 대상으로 작성하는 건 불가능합니다(방화벽이슈 등등)
하지만 사진 자체에는 보안이슈가 없다면, 제가 해봤던 방법들 중에 가장 확실한건
사진을 어딘가에 업로드한다(AWS S3 등의 스토리지)
사진의 주소를, 사진에 대한 설명과 같이 저장한다
사진에 대한 설명이 vector search에서 걸리기 때문에 사용자에게 사진이 보여진다
였습니다
사진에 대한 설명은 multimodal을 지원하는 LLM을 활용해서 작성하셔도 되고, 아니면 직접 작성하셔도 무방합니다
넵 그렇다면
[s3path : 사진설명] key value로 묶어서 전처리를 해주는 것 또한 필요할까요?