해결된 질문
작성
·
255
0
안녕하세요, 거친코딩님!
올려주신 강의와 파일들을 보면서, 프로젝트를 하다가 궁금한게 있어서 질문드립니다.
강의에서 올려준 파일 u.user, u.item, u.data와 rating-20m.csv가 별개의 영화 평가 데이터 파일들 인가요? Sparse Matrix 알고리즘에서 rating-20m.csv 파일만 쓰여서 궁금해서 여쭤봅니다.
1)에서 질문한것이 맞다면 최신 무비렌즈 영화평가 데이터를 Sparse Matrix 에서 돌려도 될까요? (올려주신 rating-20m.csv파일과 최신 무비렌즈 영화 평가 데이터 내용이 똑같더라구요.)
강의에선 Sparse Matrix의 출력이 오차율이 나와서 그러는데, 최종적으로 추천 영화를 출력하려면 어떻게 구현하면 될까요?
답변 1
1
안녕하세요.
거친코딩입니다.
각 질문에 대한 답변 드리겠습니다.
1) 이론과 실습에 사용된 데이터는 사용자들이 영화에 대한 평가 정보를 가진 "MovieLens"데이터로써 GroupLens라는 텍스트 추천 시스템으로부터 수집된 데이터를 활용하고 있습니다. 그리고 전체 데이터수는 2,700백만 개인데, 강의에서는 이 중에서 일부를 추출한 MovieLens 100K 데이터와 20M 데이터를 사용한다. 100K 데이터는 전체 데이터 중 100,000개를 추출한 것이고, 20M 데이터는 2,000만 개 데이터를 추출한 것이라 생각하시면 됩니다. sparse matrix 관련해서는 굳이 user와 movie라는 메타성 정보가 필요하지 않고, 단순히 큰 데이터를 어떻게 매트릭스화를 시키면 얼마나 더 커지는지와 이를 어떻게 핸들링 하는지에 대해서 다룬 부분이라 생각하시면 좋을 것 같습니다.
2) 최신 데이터를 저도 확인을 못해봤지만, 그때 말씀드린대로 동일하다면 똑같이 한번 적용해보셔도 좋을 것 같습니다.
3) model.get_one_prediction(user_id,item_id) 함수를 통해서 예측값을 추출하신 후에 최적의 값을 매칭하시면 될 것 같습니다. (7장의 2챕터 : "하이브리드 추천 시스템의 원리" 참고해 보시면 좋을 것 같습니다.)
감사합니다.
거친코딩 드림.
감사합니다 거친코딩님!
알려주신 알고리즘으로 멋진 프로젝트 만들어보겠습니다