해결된 질문
작성
·
139
·
수정됨
0
선생님 안녕하세요! 시험 전 막바지에 질문 드립니다! 그간 질문이 정말 많았음에도 추가 영상도 올려주시고 늘 자세히 알려주셔서 감사합니다!! 🙂
1.작업형2에서 범주형 컬럼의 카테고리수가 다른 경우
1. train데이터가 test데이터를 포함 2. test데이터가 train데이터를 포함
=> 1번의 경우 레이블인코딩은 그냥 하면되고 2번의 경우 데이터 합친 후 원핫인코딩을 해야 하는것으로 배웠는데 만약 카테고리수가 많다면 카테고리 종류가 다를 것도 감안해서 다 찾아봐야 할까요?? 기출1 문제의 경우엔 우선 train데이터가 test데이터보다 카테고리 수가 더 많아서 1번의 경우라고 짐작하고 기본 레이블 인코딩으로 진행했습니다! 만약 카테고리 종류가 달랐는데 그냥 레이블인코딩을 했다면 에러편 강의에서 나왔듯 에러가 나오고, 그게 아니라면 그냥 진행해도 되는게 맞을까요?!
2.캐글 작업형3의 독립성 문제에서 합격 기대빈도를 계산할 때
- 남자의 총합 (100 + 200)과 합격자의 총합 (100 + 130)을 구합니다.
- 이를 전체 합계(600)로 나눕니다.
라고 적어주셨는데 이거가지고 어떻게 풀어야할지 모르겠습니다..!
3.캐글 작업형3의 회귀문제에서
iris에서 Sepal Length와 Sepal Width의 상관계수 계산하고 소수 둘째자리까지 출력하시오 문제입니다.
두개의 상관계수를 구하기 위해서
df['Sepal Length'].corr(df['Sepal Width'])를 하려고 했는데 이렇게 하면 왜 에러가 날까요??
4.작업형2를 풀 때 max_depth=5, n_estimators=1000 이런식으로 이 두 파라미터 차이?가 커도 괜찮을까요? 예측해봤을 때 이 숫자가 가장 성능이 좋게되어서 사용하긴 했는데 오버핏될까 하여 여쭤봅니다! 이들보다 숫자를 더 키웠을 때 오히려 성능이 떨어지는 것을 보고 저 숫자에서 멈췄습니다!
답변 1
0
1 우려가 된다면 인코딩은 무조건 합쳐서 진행하는 것도 방법입니다. 에러가 나왔을 때 처리하는 것도 방법이고요 🙂
2 캐글 풀이는 코드 아래쪽에 풀이가 있어요 (한번에 보이지 않도록 한다고 내려놨습니다)
3 코드에는 문제가 없는데 컬럼명이 정확할까요? 다시 한번 컬럼 이름에 오타가 없는지, 또는 불필요한 공백 문자확인 바랍니다.
4 두 파라미터가 의미하는 것이 다릅니다. n_estimators는 1000번 모델을 돌리는 것이고, max_depth는 트리의 깊이를 이야기 합니다.
모델의 성능이 좋은 방향으로 해주면됩니다.
시험 잘 보고 오세요!! 응원합니다 💪
stats.chi2_contingency(df)
만 사용하면 됩니다. 질문 주신 내용은 기대빈도에 대한 내용이에요
chi2_contingency로 기대빈도까지 구해집니다. 이 함수만 사용해 주세요!
이렇게 하면 구해지지 않을까요? 컬럼명이 잘못되었습니다.
import pandas as pd
from sklearn.datasets import load_iris
# iris 데이터셋 로드
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
print(df['sepal length (cm)'].corr(df['sepal width (cm)']))
화이팅입니다!
정말 감사드립니다!! 추가 질문 두가지정도 더 여쭈어봅니다 😂
2번에 질문드린 그 내용이 선생님께서 아래에 적어주신 기대빈도 구하는 방법인데 저 두가지를 가지고 어떻게 푸는지 모르겠습니다! 남자의 총합 (100 + 200)과 합격자의 총합 (100 + 130)을 구하고 전체합계로 나누라고 하셔서 남자와 합격자를 더하고 나누라고 하신건가 하여 풀어봤는데도 오답이라 좀더 자세히 알고싶어서 질문드립니다!
2. 3번에 질문드린 부분이 다시 해보니 에러는 나지 않으나, 답이 완전히 다르고
상관계수를 구하실 때 선생님께서 해주신 풀이에는
라고 해주셨고 제가 한 풀이는
입니다! 답도 다르게 나오는데 왜그런지 모르겠습니다..!