답변 5
0
0
IndexError Traceback (most recent call last)
<ipython-input-181-af6a117b08a4> in <module>() 2 counter = 0 3 for review in clean_train_reviews: ----> 4 train_centroids[counter] = create_bag_of_centroids( review, word_centroid_map ) 5 counter += 1 6
IndexError: index 267 is out of bounds for axis 0 with size 267
0
gensim 은 버전 4부터 많은 변화가 있습니다. 아마도 4점대 버전인것 같네요.
vectors 대신에 model.wv 를 해보고 동작한다면 len(model.wv) 로 길이를 세어보세요.
그리고 다음 문서를 참고해 보세요.
https://github.com/RaRe-Technologies/gensim/wiki/Migrating-from-Gensim-3.x-to-4
감사합니다! 위의 문서에 잘나와있는 것 같아 감사합니다.
0
감사합니다! 추가적으로 이 강의를 다 듣고 적용해서 한국어 데이터에 하려고 실습해보려고 하는데 이런 오류가 뜨면서 마지막에 랜덤포레스트 모델이 안돌아가는데 혹시 test랑 train데이터 행의 개수가 달라서 그런걸까요?
IndexError: index 4673 is out of bounds for axis 0 with size 4673
세번째 줄에서 에러가 나옵니다.
열은 같은데 행의 개수가 각각 4673과 267입니다.
감사합니다
제 댓글에 코드공유했습니다. 혹시 아시면 알려주시면 감사합니다!
df_test["Sentence"] 가 레이블값이 맞나요? 강의 데이터가 아닌 다른 데이터라면 fit을 할 때 넣어준 데이터가 학습에 적합한 형태로 변환이 되었는지 확인이 필요합니다.
그리고 break 문을 추가한 이유가 무엇일까요?
모델이 생성되기 전에 런타임이 해제되었다면 colab 에서 학습할 수 있는 메모리 용량을 넘어서는 데이터 일수도 있습니다.
모델에 넣어주기 위해 벡터화된 데이터가 너무 크고 희소한 형태로 되어있으면 메모리 오류가 나고 연결이 해제됩니다.
fit 에 넣어준 열의 갯수도 확인해 보세요!
아하 지도학습에서 사용되는 레이블값은 df_test["PN"]인데 제가 그것을 넣어야하는데 잘못 넣은 것 같습니다.! 열은 각각 5,3개입니다. 중간에 안되는 코드는 건너뛰고했는데 더불어 여기서 예측하고자하는 것은 PN-> 리뷰글의 긍정 혹은 부정이므로 df_test["PN"]를 fit해주는 것이 맞는 것 같습니다.
감사합니다.
아무래도 너무 크고 희소한 형태라서 여전히 인데스에러가 나는 것 같습니다!
인덱스가 범위가 넘었다고 에러가나서 break문을 넣었더니 돌아가서 해보았는데 지우고 다시 학습데이터 변환과정을 점검해보아야할 것 같습니다. 감사합니다.
0
안녕하세요.
colab 의 폴더에 파일을 업로드 해주셔야 합니다.
하지만 강의 하단의 colab 링크를 사용하시면 파일 업로드 없이 url 로 파일을 읽어와서 실습할 수 있습니다.
아래 링크를 사용하셔도 됩니다.
https://colab.research.google.com/drive/1p67KyKdcBErpenHYNR0h6rcCrh20Ekjy?usp=sharing