게시글
질문&답변
2024.11.18
시험칠 때, 코드1 or 2 방식 문의
인코딩은 필수로 해주세요!요즘 40점 구간이 올라간 느낌이라 인코딩 빼면 안될 것 같습니다.
- 0
- 2
- 22
질문&답변
2024.11.18
분류 모델 학습 강의에 대하여 질문드립니다.
문자형 컬럼 삭제 -> 이렇게라도 제출할 수 있다!! 단, 40점은 어려움문자 인코딩 -> 문자형 데이터를 사용하기 위해서는 필수스케일링 -> 선택입니다! 분류에서 1을 선택한 이유는 전처리보다는 분류 모델에 집중하기 위함입니다. 말씀한 것 처럼 전처리 작업으로 강의 내용을 늘리지 않기 위함이기도 해요
- 0
- 2
- 22
질문&답변
2024.11.18
sumsum
train에 A, B, C 컬럼이 있고 A에 결측치 10개, B에 5개 있다고 가정하겠습니다. sum()은A 10B 5C 0으로 나온다면 sum().sum()은15로 나옵니다. 1이상이면 결측치가 있다고 판단하고 추가 작업을 통해 구체적으로 살펴보는 거죠!
- 0
- 1
- 10
질문&답변
2024.11.18
5-3 랜덤포레스트 평가지표 출력 결과 이상
100점 만점에 100점은 컨닝페이퍼가 있었을 것 같습니다.검증데이터를 나눌 때 X 데이터에 target이 있어 이미 정답을 알고 있는 상황으로 보여집니다.train = train.drop('id',axis=1)가 아니라 train = train.drop('타겟 컬럼',axis=1)이 필요해요!
- 0
- 3
- 18
질문&답변
2024.11.18
범주형 변수일 때 formula 질문있습니다
혼란을 드렸네요 정리하겠습니다.아무 작업없이 학습(적합)을 하는 것으로 해주세요. 자동처리 됩니다. 만약 문제에서 데이터가 숫자이지만 범주형 변수라고 지정한다면 C()로 감싸주세요 (수동처리)작업형3은 정답이 있어 동일한 결과가 출력되어야 합니다.
- 0
- 2
- 14
질문&답변
2024.11.18
로지스틱회귀분석에서 패널티
네 아무것도 하지 않으면 됩니다.사이킷런 로지스틱회귀를 사용한다면 LogisticRegression(penalty='l2') 옵션이 있습니다.단, 이 부분은 검증이 필요할 것 같아 생략하겠습니다.
- 0
- 2
- 11
질문&답변
2024.11.18
rmse
from sklearn.metrics import root_mean_squared_error # 실제 값과 예측 값 y_true = [3, -0.5, 2, 7] y_pred = [2.5, 0.0, 2, 8] # RMSE 계산 rmse = root_mean_squared_error(y_true, y_pred) print("RMSE:", rmse)
- 0
- 4
- 23
질문&답변
2024.11.18
rmse
1.4에서 추가되었네요!!와~~ 좋은 정보 감사합니다. 윰님 덕분에 저도 알게 되었네요. 다른 분들에게도 새소식으로 안내하겠습니다 🤩 감사합니다.
- 0
- 4
- 23
질문&답변
2024.11.18
작업형 1 모의문제1 - 문제 1
loc 와 iloc의 차이에 대한 이해가 필요합니다.만약 아래와 같이 인덱스와 컬럼1개가 있다고 가정하면loc는 인덱스 명으로 구분합니다. 1이 첫번째 인덱스고, 3이 두번째 인덱스 입니다.iloc는 인덱스 번호로 구분합니다. 0이 첫번째 인덱스고, 1이 두번째 인덱스 입니다. 1 수박3 딸기4 포도5 사과100개의 데이터가 있을 때 70까지 쪼개기 위해서는 iloc가 적합합니다.
- 0
- 2
- 22
질문&답변
2024.11.18
작업형2 모의문제2 ID 삭제 여부 및 성능 기준
저도 잘 모르겠네요! id가 숫자라면 그냥 두시는 걸로 준비하시죠!아직까지 기출에서 인코딩 외의 전처리 작업 없이도 40점에 문제가 없었습니다. 실무에서는 설명력이 낮은 것은 맞으나 점수 구간으로 평가를 하기 때문에 괜찮습니다.여유가 있다면 스케일링 등 다른 전처리도 시도해도 좋을 것 같습니다.
- 0
- 2
- 23