작성
·
15
0
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
안녕하세요. 강사님
sklearn.dataset의 fetch_20newsgroups의 데이터로드가 너무 오래걸리고 있어요.
그래서 소스코드를 봤는데 계속 로드를 못하고 있는 것 같아요.
혹시 문제가 뭘까요?
답변 2
0
안녕하십니까,
음, download가 많이 걸릴 이유가 별로 없을 텐데, 대부분 네트웍 이슈일 수 있을 것 같습니다. 네트웍이 느려서 그런게 아니라면 download 사이트가 잠시 문제가 생겨서 그럴 수도 있습니다. 잠시 기다렸다 나중에 다시 시도해 보시면 좋을 것 같습니다.
아래 인프런 AI 인턴 글도 참조해 보시고, 여전히 안되시면 다시 글 부탁드립니다.
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
soodar17님께서 겪고 계신 fetch_20newsgroups
데이터셋 로드 시간이 오래 걸리는 문제에 대해 답변해 드리겠습니다.
fetch_20newsgroups
데이터셋은 온라인에서 데이터를 다운로드하도록 설정되어 있기 때문에 네트워크 연결 상태에 따라 데이터로드 시간이 영향을 받을 수 있습니다. 또한, 데이터셋의 크기가 크기 때문에 적절한 네트워크 속도가 중요합니다.
다음은 데이터 로드 시간을 단축시키기 위한 몇 가지 방법입니다:
fetch_20newsgroups
함수에 download_if_missing=True
옵션을 주어 데이터셋을 로컬에 저장하면, 이후부터는 다운로드 시간을 절약할 수 있습니다.subset='train'
또는 subset='test'
를 사용).data_home
파라미터를 사용하여 데이터를 특정한 디렉토리에 로컬 저장하여 다음에 로딩시 시간이 단축되도록 합니다.관련된 예전 질문으로는 이 링크에서 GridSearchCV에 관한 논의는 있지만, 데이터 로드 문제에 대한 직접적인 해결책은 다루지 않은 것 같습니다. 하지만 위 사항을 참고하며 문제를 해결해 나갈 수 있을 것입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
네. 강사님. 회사에 네트워크에 문제였습니다. 아침에 다시 실행하니 잘 실행이 되었어요. 감사합니다.