해결된 질문
작성
·
240
·
수정됨
0
안녕하세요 수강중에 궁금한 게 생겨서 문의 남깁니다!
빅데이터 분석기사 (2회): 기출유형-작업형2에서 데이터를 보면,
X_train 애들중에서도 .. 사실 범주형인데 수치형인척 하는 애들이 있잖아요? (Cost_of_the_Product, Discount_offered, Weight_in_gms 말고는 사실상.. 범주형이라고 생각했습니다.) 얘네는 범주형으로 바꾸지 않아도 되나요? 검색을 해보니까 비닝을 통해 한다던데........ 수업시간엔 배운 기억이 없어서요.. 근데 이런 경우 꽤 많지 않나요? 타이타닉도 좌석 class 관련 column은 위와 같은 경우라고 생각하는데.. 예..
결론적으로는 범주형은 get_dummies나 label encoding을 통해 수치화 시켰던거 같은데 그 역은 안 하는 이유가 궁금합니다! (적으면서 든 생각은 범주형을 수치화시킨다음 모든 수치화된 columns들을 한번에 돌리는거라 그런건가 싶긴한데)
2. EDA를 통해 얻은 통찰(?) 들을 어떻게 써먹을 수 있나요? 그니까.. Travel Insurance를 예측하는 문제에서 "a,b,c라는 항목이 낮게 나오고, d,e,f라는 항목이 높게나오면 -> Travel Insurance가 있을 확률이 높을것이다." 라는 가설을 classification에서 어떻게 활용할 수 있나요?
++
에서 예시 문제를 직접 푸는 과정에서, 문제 풀고-> 중간에 답 입력하고 -> 다시 풀러갔을 때 리셋이 됩니다. 이게 맞나요?
예를들어 작업형 1 -1)을 문제 화면에서 풀고 -> 1- 1) 정답 입력하러 가고 -> 1-2)를 풀러 다시 문제화면을 갔을 때 1-1때 풀었던 것들이 다 리셋되어 있더라구요.. 중간 저장 같은 버튼도 없던데 실제 시험에서도 그런가요?
2. 이상치 관련 문제에서 등호 여부는 어떻게 되나요? 예를 들어
(Q1 – 1.5 IQR) 보다 작거나 (Q3 + 1.5 IQR) 보다 큰 데이터는 이상치로 처리한다. << 고 할 때 이상치라고 판단한 부분을 X <= Q1 - 1.5 IQR라고 하나요 X < Q1 - 1.5IQR이 맞나요? 궁금증이 생겼던 문제에서는 둘다 결과에 영향이 없긴하던데 .... 예.. 등호 여부가 궁금합니다
공지사항을 이제 확인했는데 7회 준비 스터디 방 이제 못들어가나요 ㅠㅠ?
매번 장문의 질문인데 명쾌하게 답변해주셔서 감사합니다!!
답변 1
1
맞습니다.
숫자이지만 범주형인 데이터가 있어요~ 그런데 작업형2에서 컬럼에 대한 설명이 명확하지 않을 때가 많아서 판단하기는 어려움이 있어요! 데이터를 보고 판단해야 하는 부분이라 입문자에게는 적합하지 않다고 판단해 제외하였습니다. 몰라도 아직까지는 문제가 없습니다.
참고로 캐글에 공유한 t1-21번 문제에서 비닝을 다루고 있어요
https://www.kaggle.com/code/agileteam/py-t1-21-expected-question/notebook
단, 작업형3은 숫자지만 범주형인 값에 대해 명확하게 해야 합니다. 회귀분석에서는 값이 달라져요!
포뮬러에서 C(변수명)으로 처리해야 합니다.
2.
특정 그룹에서 결과가 더 자주 발생하는 패턴을 발견했다면, 이 정보를 사용하여 모델의 성능을 향상시키는 특성 공학을 수행할 수 있습니다. 예를 들어, 특정 연령대에서 보험 구매 확률이 높다면, 연령대를 기반으로 한 새로운 범주형 변수를 생성할 수 있습니다.
3.
실제 시험에서는 저장기능이 있어요! 중간중간 눌러주면 됩니다.
실제 문제가 출제되었을 때도 둘다 값이 같았어요. 일반적으로는 등호를 포함합니다
.
스터디방 링크 새소식에 업데이트 해놓을게요 ! 오셔서 미션을 수행해주셔야 입장 가능합니다.