묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결빅데이터 분석기사 시험 실기(Python)
10강 연습문제
1) X_train, X_test, y_train, y_test = train_test_split (df.iloc[:, 1:], df['survived'], test_size = 0.2, random_state = 42, stratify = df['survived'])로 되어야 하는거 아닌가요? 연습문제에서 df만 하셨는데, 그렇게 하면 이미 답이 변수에 포함되어있어서 정확도가 1로 나옵니다. 2) 전처리 다 하고나서 저 train_test_split를 수행해도 되나요? 전처리 할 때 X_train, X_test 두번씩 꼭 해줘야 하는게 번거롭고 실수가 날 것 같아서요.
-
미해결
텍스톰 전처리
텍스톰에서 데이터 전처리 시, 원하는 키워드에서 특정 텍스트가 포함된 데이터를 제외하고 싶을 때, 어떻게 전처리 해야 하나요?예) '폭우'라는 키워드에서 '동남아 폭우', '폭우 동남아'와 같이 폭우의 전후에 '동남아'가 포함된 데이터는 제외하고 싶은 경우
-
해결됨공공데이터로 파이썬 데이터 분석 시작하기
전처리 필요성에 대해서 질문드립니다.
안녕하십니까. 저는 현재 파이썬으로 공공빅데이터 분석 과정을 수강 중에 있습니다. 가장 처음 실시하였던 서울시 아파트 값 데이터 분석에서는 2개의 엑셀 파일에 있는 결측치를 다른 값으로 변환하여 전처리 과정을 거쳤습니다. 하지만 이번 서울시 상가 빅데이터 분석에서는 이유에 대한 별도의 언급이 결측치를 그대로 두고 계속 분석을 진행하십니다. 데이터 분석의 거시적인 면을 대략적으로 이해하신 강사님이라면 전처리의 필요성 유무를 쉽게 판단하시지만 아직 초보자인 저로써는 그 필요성에 대한 판단을 할 역량이 부족합니다. 간략하게라도 전처리가 필요한가에 대한 여부를 어떤시각으로 추측하거나 판단하시는지 알려주시길 부탁드립니다. 김영목 드림
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
대용랑 데이터 전처리 [pandas 이용] 방법
안녕하세요. 먼저 좋은 강의 올려 주셔서 감사합니다. "캐글 설문조사로 데이터 분석 입문하기" 수강하면서 강의가 너무 좋아 "공공 데이타.." 강의도 수강하게 되었습니다. 강의를 듣고 있는 중에 실제 현업에 적용시 궁금한 사항이 있어서 이렇게 질문을 남깁니다. • pandas를 이용해 전처리를 수행 중에 대용량 데이터 건수를 전처리 하는 기능. 병렬 프로세스가 아닌 분산 환경에서 전처리를 할 수 있는 방법이 있을까요? 또 분산 환경에서 전처리를 수행할 경우 성능 개선 및 안정성, 효용성이 좋은 기술이 있을지 궁금합니다. 인터넷으로 검색하다 보면 modin/dask 등 몇 개의 라이브러리가 있던데 성능과 안정성, 유용성 등을 실제 경험해 보지 않아서 잘 모르겟습니다.
-
미해결핸즈온 머신러닝 2
대용량 데이터 전처리 [분산 환경 수행] 방법
안녕하세요. 딥러닝 인공지능에 대한 학습을 마치고 핸드온으로 이어서 강의를 수강하고 있습니다. 먼저 좋은 강의 올려 주셔서 감사 합니다. 강의를 듣고 있는 중에 실제 현업에 적용시 궁금한 사항이 있어서 이렇게 질문을 남깁니다. • pandas를 이용해 전처리를 수행 중에 대용량 데이터 건수를 전처리 하는 기능. 병렬 프로세스가 아닌 분산 환경에서 전처리를 할 수 있는 방법이 있을까요? 또 분산 환경에서 전처리를 수행할 경우 성능 개선 및 안정성, 효용성이 좋은 기술이 있을지 궁금합니다. 인터넷으로 검색하다 보면 modin/dask 등 몇 개의 라이브러리가 있던데 성능과 안정성, 유용성 등을 실제 경험해 보지 않아서 잘 모르겟습니다.