해결된 질문
작성
·
152
0
선생님 안녕하세요!! 공부하면서 헷갈려 정확히 알고 싶은 부분 질문드립니다!! :)
1. 작업형 1과 작업형 3의 배점이 각각 어떻게 되는지 궁금합니다! 단답형이 소문제 3점씩해서 10문제, 그리고 작업형1?이 10점씩 3문제라고 하셨던것 같은데 여기서 말씀하신 단답형이 작업형 3일까요?!
2. 스케일링 할 때 target 컬럼이 붙어있을 시 이를 빼고 스케일링 해야 하는것 맞을까요??
3. 수치형과 범주형 데이터를 나누는 경우가 어떤 것이 있을까요? - 모두 cols를 사용하여 스케일링하고 인코딩한다면 굳이 나눌 필요 없지 않을까 라는 생각이 들어서 여쭤봅니다!!
4. 섹션 4 작업형 1 모의문제 1 문제2번 하드코딩 유무
위에서 예를 들어 주어진 데이터에서 결측치가 30% 이상 되는 컬럼을 찾고 -> 이 부분을 풀 때 df.isnull().sum()으로 f1 컬럼이라는 것을 알 수 있는데, 그 이후 풀어야 하는 부분(해당 컬럼에 결측치가 있는 데이터 행 삭제)을 그냥 위에서처럼 df = df.dropna(subset=['f1'])이라고 풀어도 되는것일까요? 하드코딩의 기준을 잘 모르겠어서 여쭤봅니다!
5. 분산분석 데이터 긴 데이터 형태로 무조건 바꾸어야 하나요? 이원 분산분석 때에는 안바꾸고 바로 한걸로 기억해서요!
답변 1
1
1
작압형1 10점 * 3문제
작업형2 40점 * 1문제
작업형3 15점 * 2문제(각 소문제 3~4개)
2
네 타겟 빼고 스케일링 해야 합니다.
3
네 굳이 나눌 필요 없습니다. 🙂
4
작업형1의 경우 print()를 신경쓰지 않아도 됩니다. 제출방식이 변경되어 손으로 직접 입력합니다.
5
무조건 변경하는 것이 아니라 주어진 데이터 형태에 따라
전처리가 필요한 데이터라면 변경하는 방법을 알려드린 것이라 생각해주세요 🙂
이미 데이터가 잘 다듬어졌다면 처리할 필요 없습니다 !!
화이팅입니다.
네 맞습니다. 눈으로 보고 입력하면됩니다.
아니요. 데이터가 어떻게 출제 될지 알 수 없어요. 무조건 사용하는 것은 맞지 않습니다. 🙌
바로 사용가능한 형태
melt가 필요한 형태
다른 추가작업이 필요한 형태
작업형1에서 전처리가 있기 때문에 작업형3은 a일 가능성이 높습니다. 그렇지만 만약을 대비해 b를 알려드렸어요!, c는 작업형1을 응용해야 하는 부분이라 예측하기 어렵습니다.
선생님 자세한 답변 감사드립니다!
그렇다면 작업형 1의 경우 만약 결측치를 확인하여 f1컬럼이 답이 되는 경우라면 iloc, loc를 사용하는 등의 방법으로 하지 않고 결측치 확인 후 바로 f1컬럼으로 답안 제출해도 상관없는것일까요?
또한 일원분산과 이원분산에서 전처리가 필요한 데이터인지 아닌지를 판별하는 방법을 잘 모르겠습니다..! 헷갈린다면 분산분석 파트가 나올 시에 df = df.melt() 처리를 모두 해도 무방할까요?