안녕하세요.
학습 내용 너무 잘 듣고 있습니다.
관련 기술을 이용해서 작은 작업을 하고 있는데, 데이터를 어떻게 저장을 해야 하는지 감이 안와서 글을 남깁니다.
지금 각 대학별 입학 모집요강 관련 데이터를 저장해서 검색을 해보려고 시도하고 있습니다.
고려대학교, 연세대학교 등 각 사이트에서 모집요강 pdf를 이용해 각 페이지별로 벡터 디비에 저장을 했습니다.
근데 하다보니깐, pdf의 내용이 각 대학별로 다르고 양도 많아서 데이터를 규칙이 있는 상태로 만들어서 데이터를 저장을 해야 할 거 같은데요.
질문1) 각 대학별로 데이터를 한번 다듬어서 저장을 하고 싶은데요, 이런 경우에는 실제로 어떤 방법으로 하면 좋을지 조언 부탁드리겠습니다.
질문2) 데이터가 저장 되면 청크 단위로 저장이 되었을 경우, 예를 들어
고려대학교-청크1,청크2,청크3,청크4...
연세대학교-청크1,청크2,청크3,청크4...
이렇게 다건으로 저장이 될텐데,
질문을 '서울에 있는 대학 모집 정보를 알고 싶어'(포괄적질문), '고려대학교 입학 조건을 알고싶어'(조건적질문) 등으로 한다면,
각 청크가 각 대학별 정보라는걸 추적해서 하나의 정보로 봐야하는데, 이런 경우에는 데이터 관리를 어떻게 해야하는지 조언 부탁드리겠습니다.