대구빅데이터활용센터님의 게시글 - 인프런

게시글

질문&답변
작업2유형 문의
말씀해주신 질의에 대한 답변입니다.파생변수를 만드는 목적이 제공된 데이터에서 도메인 지식을 접목하여 학습에 용이하게 추가 정보를 생성한다는 것인데요, 평가지표를 통해 비교 평가해서 판단하시면 좋을 듯 합니다.(무조건 두어야 한다. 지워야 한다. 이런건 아닙니다.)연속형 값에 대해서만 스케일 작업으로 데이터 표준화를 진행하고, 범주형 변수는 하지 않습니다.(범주형 변수는 문자형을 숫자로 인코딩을 함)동일하게 나오시면 생략해도 될 것 같습니다. 수고하세요.
0
1
337
질문&답변
데이터셋 분리와 관련하여 질문이 있습니다.
안녕하세요.데이터가 많을 때는 큰 문제가 안됩니다.다만, 데이터가 부족할 경우 훈련용 데이터에만 있는 속성으로학습하여 예측을 할 경우 오류가 발생합니다.예를 들면 훈련용 데이터의 변수가 옷의 색깔(빨강, 노랑)로 학습한 후테스트 데이터 예측시 테스트 데이터의 변수(빨강, 노랑, 파랑)가 일 경우기존에 없었던 속성이 있으므로 에러가 발생합니다.이상입니다.
0
1
335
질문&답변
구름 IDE
안녕하십니까 빅데이터활용센터팀입니다. 오류부분 확인을 위해 복사한 코드와 실행 화면 캡쳐본을 답변으로 남겨주시면 확인 후에 성심껏 답변 드리겠습니다. 감사합니다.
0
2
578
질문&답변
[공지] 데이터 전처리 관련 오류 수정
수정된 강의 소스는 아래 화면과 같이 업로드를 하였습니다. 해당 페이지에서 "강의 소스코드" 클릭하시면 됩니다. (사진)
4
1
413
질문&답변
라벨인코더 관련 문의드립니다!
안녕하세요. 질의하신 내용에 대하여 답변을 드립니다. 우선 test 데이터에 대하여 fit을 하지 않는게 맞습니다.(코드 오기입니다. ) 라벨인코딩은 숫자가 아닌 레이블 형태의 데이터를 숫자로 변환하는 작업을 말하며, 이때 레이블 인코더를 맞추는 작업(fit)과 인코딩된 레이블을 반환하는(transform) 작업이 함께 존재합니다. 금번 제공된 강의에서 훈련용 데이터와 테스트 데이터에 각각 fit을 적용하다 보니 테스트 데이터에 없는 레이블이 존재하는 경우 오류가 발생하였습니다. 따라서 라벨인코딩을 정확히 하려면 훈련용 데이터와 테스트 데이터를 결합한 후에 전체 레이블 인코더를 맞추는 fit 작업을 하고, 레이블을 반환하는 transform 작업을 하고, 다시 훈련용, 테스트 데이터를 분리하시면 됩니다. 강의 오기에 대해서는 추후에 영상과 자료에 수정을 하도록 하겠습니다. :) 코드는 내일 유첨하여 첨부하도록 하겠습니다. 좋은 결과 있으시길 바랍니다. :)
0
2
370
질문&답변
분류 예측에서 결과값의 구체적 내용을 확인할수 있는지요?
안녕하세요. 숫자가 어떤 종을 나타내는 것인지 확인할 코드를 제공해드립니다. (사진) 다른 방법으로는 새로운 데이터 프레임을 만들어 확인이 가능합니다. 강의의 라벨인코딩 과정에서 아래 코드를 추가하면 데이터 프레임으로 확인을 할 수 있습니다. (사진)
0
2
272
질문&답변
작업형 유형 1 문제(3)
안녕하세요. 작업 유형 1의 경우 특정 값을 print로 반환하여 정답이 존재하는 문제입니다. 질문의 의도를 정확하게 파악하지 못해 아래 2가지 답변을 드립니다. 첫째, IQR 기법을 적용하지 않고 분석가가 휴리스틱하게 판단하여 drop 제거 후 평균이나 합계 계산 후 제출하면 되는건지? -> 이상치 제거하는 방법마다 결과가 상이하게 도출 될 수 있기 때문에 해당 기법 외 다른 방법론을 적용하면 답안이 달라지게 때문에 오답으로 판단할 것으로 보입니다. 2. 제거도 하고 이상치 합도 구해야 하는건지? -> 출제자의 의도에 따라 상이하기 때문에 복합적으로 연습을 사전에 해두시는게 실제 시험에서 단건으로 나오더라도 대응하기에 유리할 것으로 판단됩니다. 이상이며, 질의에 도움이 되셨으면 합니다. :)
0
1
305
질문&답변
질문이 있습니다.
안녕하세요. 답변을 수시로 파악하지 않아, 늦게 작성해드린 점 죄송합니다. 우선 질문을 2가지 주셨는데요, 첫째, y_test.index, X_test.index 왜 다르게 하는건지? 샘플 데이터의 경우 분석 과정에서 종속변수 y와 독립변수 x를 분리하다 보니, 실제 y_test.index, X_test.index의 값이 같습니다. 따라서 어떤 것을 사용해도 무관합니다. 실제 시험에서는 "test 데이터의 실제 index 번호와 동일하게 제출파일을 만드는 것"이 중요하다고 할 수 있습니다. (사진) 둘째, result = result.iloc[:, 1], result = result.iloc[:, 0] 왜 다른지? 분류 예측 문제에서 predict_proba로 각각의 확률을 표현하다 보니 한개의 열이 더 생성됩니다. 그러나 회귀모형에서는 예측된 값만 나오다 보니, 형태가 달라서 그런 것이구요. 실제로 예측한 값을 살펴보시면 다름을 알 수 있습니다. 이상입니다. 인프런 질의응답을 수시로 파악하고 있지는 않습니다. :)
0
1
257
질문&답변
안녕하세요 질문드립니다
네 안녕하세요. 저도 말씀하신 코드를 직접 돌려보았는데요 sns.pointplot(x = np.arange(1, 13), y = np.squeeze(stats.loc[stats['역명'] == place].iloc[:, 1:-1].values)) 에서 x = np.arange(1,12)로 임의로 수정했을때 질문자분과 동일한 오류가 발생함을 알 수 있습니다. (사진) 해당 오류는 pointplot 박스를 그리는 과정에서 x, y 데이터값 길이가 매칭되지 않았을때 발생하는 오류 같습니다. 위의 사진에서 78,79 번줄은 제가 임의로 실행해본 코드인데요 둘다 12개의 데이터 길이를 가져야합니다. poinplot을 그리는 문장은 올바르게 적으신것 같으니 stat 데이터부터 앞단에서 데이터값이 잘못 들어가지는 않았는지 확인 부탁드립니다. 감사합니다.
0
1
798
질문&답변
folium의 map을 html
직접 강의를 촬영하신 강사님께 질문을 전달해 답변드립니다. static 하게 html을 띄우는 것은 동일하게 html 파일을 서버에서 띄우듯이 해주시면 될 것 같습니다. stylesheet나 css 적용을 위해서는 수정이 필요할 것 같습니다. folium은 파이썬 기반이기때문에 spring 프레임워크랑 연동을 위해서는 차라리 java 기반의 지도 시각화 프레임워크를 이용하시는 것이 더 수월하실 것 같습니다. 동적 데이터를 연동해서 띄우시려면 folium이 django나 flask로는 정상 동작함을 확인하였습니다. 답변이 도움이 되었기를 바랍니다. 감사합니다.
0
1
866