게시글
질문&답변
평가지표 질문!
네 ~ 답변드립니다. 만약 순서를 바꾸면 (y_pred, y_val로 입력하면) 결과가 달라집니다:f1 score 의 경우 분류 문제에서 precision과 recall의 조화평균인데, 순서가 바뀌면 정답과 예측이 뒤바뀌어 완전히 다른 결과가 나옵니다.그러므로 시험에서는 꼭 f1_score(실제값, 예측값) 순으로 넣어주셔야 합니다. mse 회귀 문제에서 사용되는 평균 제곱 오차인데, 수식이 (예측값 - 실제값)²의 평균이 아니라 (실제값 - 예측값)²의 평균으로 계산됩니다. 하지만 제곱 때문에 mse는 순서를 바꿔도 동일한 결과가 나오긴 합니다. 그러므로 시험때 순서를 다르게 넣으셔도 됩니다.
- 0
- 2
- 9
질문&답변
작업형 제 2유형 질문
네 만약 결측치가 있다면 숫자형 컬럼이면 평균값을 채우시면됩니다. 순서는 맨처음 데이터 불러오고 바로 결측치 확인해보고 있으면 처리하시면 됩니다^^
- 0
- 2
- 18
질문&답변
7회 작업형3유형 1번문제 질문
네 ~ 확인해보니 창균님이 찾으신게 맞습니다. 제가 영상 만들때 다른 문제랑 착각해서 만든것 같습니다. 혼란을 드려 죄송합니다. a=result.params['판매수량'] 는 로지스틱 회귀 계수(coefficient)를 추출하는 코드이고 오즈비를 구하는 코드가 아닙니다. np.exp 를 쓴 다음의 코드가 맞습니다. 영상은 수정해두겠습니다. import pandas as pdimport numpy as npimport statsmodels.api as sm# 데이터 로드train = pd.read_csv("sales_train.csv")# 독립변수에 상수항 추가X = sm.add_constant(train[['판매수량']])y = train['회원등급']# 로지스틱 회귀 모델 생성 및 학습model = sm.Logit(y, X)result = model.fit()# 판매수량 변수의 계수 추출a = result.params['판매수량']# 오즈비 계산 (계수의 지수값)odds_ratio = np.exp(a)# 소수 넷째자리까지 반올림print(round(odds_ratio, 4))
- 0
- 2
- 35
질문&답변
기출7회 작업형 2 문제
유창균님께서 질문 주신 예측모델 생성 시 훈련데이터와 검증데이터를 분리하는 것에 대한 차이에 대해 설명드리겠습니다.모델을 훈련할 때, 데이터 셋을 훈련 데이터와 검증 데이터로 나누는 것은 과적합(overfitting)을 방지하고 모델의 일반화 성능을 평가하기 위한 중요한 과정입니다.1. 훈련 데이터와 검증 데이터의 분리:훈련 데이터는 모델을 학습시키기 위해 사용됩니다.검증 데이터는 학습한 모델의 성능을 평가하기 위해 사용됩니다. 이는 모델이 학습 데이터에 과적합되지 않고 새로운 데이터에 대해 잘 일반화되는지를 확인하는 단계입니다.2. 예측모델 vs. 분류모델:예측모델에서는 종종 데이터가 충분히 많지 않을 경우 모든 데이터를 사용하여 모델을 학습시키는 경우가 있을 수 있습니다. 그러나 이는 성능 평가에 있어 제약이 될 수 있으며, 가능하다면 검증 데이터 세트를 따로 두는 것이 좋습니다.분류모델에서는 훈련 데이터를 충분히 활용하되, 반드시 검증 데이터를 사용하여 모델을 평가하고 튜닝하는 것이 일반적입니다.권장사항:가능하면 언제든 모델 훈련 시 검증 데이터 세트를 별도로 유지하여 사용하시는 것이 바람직합니다. 이렇게 하면 모델의 최종 성능을 보다 신뢰성 있게 평가할 수 있습니다. 빅분기 시험에서는 정답을 시험때 알 수 없기 때문에 미리 검증 데이터로 모델의 성능을 확인하여 합격 여부를 예측하는 용도로 사용하시면 됩니다. 암튼 랜덤 포레스트를 쓰면 무난히 합격하실수 있습니다
- 0
- 2
- 46
질문&답변
4회 작업형2 문제 질문
질문 1: ‘ID’ 열 제거기출 2회에서 ‘cust_id’와 같은 식별자 열을 제거한 것처럼, 4회에서도 ‘ID’ 열을 제거해도 되는지에 대한 질문이군요.식별자인 ‘ID’ 열은 예측 모델에 영향을 주지 않는, 단지 데이터의 특정 행을 구별하는 용도로 주로 사용됩니다. 예측 모델링에서는 이러한 식별자 열이 모델의 학습에 불필요한 영향을 주므로, 제거하는 것이 일반적입니다. 따라서, ‘ID’ 열을 제거하고 스케일링해도 무방합니다.질문 2: 불필요한 열 판단 기준불필요한 열을 판단하는 기준은 다음과 같습니다:- 식별자 열: 데이터의 특정 샘플을 식별하기 위한 목적일 뿐, 실제로 모델의 예측에 기여하지 않는 열입니다. (예: 고객 ID, 주문 번호 등)- 상수 열: 모든 값이 동일하여 정보가 없는 열입니다.- 높은 결측값 비율: 결측값이 지나치게 많아 유용한 정보를 제공하지 않는 열입니다.각 문제의 데이터에 특화된 판단이 필요할 수도 있으므로, 데이터의 특성을 충분히 이해하고 모델링에 필요한 정보인지 고려하는 것이 중요합니다. 질문 감사합니다.
- 0
- 3
- 43
질문&답변
데이터셋 파일 문의
네 ~ 영상의 강의에서 쓰이는 csv 파일은 파이썬 코드가 자동으로 생성하기 때문에 코랩의 실습 파이썬 코드를 수행하면 바로 만들어집니다.
- 0
- 1
- 36
질문&답변
2회 작업형1 문제1 질문
네 말씀해주신 내용이 맞습니다. 소수점 3번째 자리에서 반올림하면 소수점 2개가 남아야 하므로 round(값,2) 가 맞습니다. 영상 수정해놓도록 하겠습니다. 정말 감사합니다.
- 0
- 2
- 57
질문&답변
맥북 설치
네 ~ 맥북에 오라클 21c도 설치가 가능합니다. 설치 영상은 없지만 아래의 블러그를 따라하시면 성공적으로 설치가 됩니다. sqldeveloper 로 접속하면 하시면 그 다음 수업을 듣는데 문제는 없습니다.해보시다가 안되시면 언제든 질문주세요. 감사합니다. https://velog.io/@daram_dev/Mac-%EC%98%A4%EB%9D%BC%ED%81%B4-21c-%EC%84%A4%EC%B9%98%ED%95%98%EA%B8%B0
- 0
- 2
- 87
질문&답변
교통사고 유형별 검거율 계산하고, 각 연도별로 최고 검거율과 사고유형에 대해서
아 네 질문 너무너무 감사합니다. 지적해주신 부분이 맞습니다. 말씀해주신 내용 반영하여 다시 영상을 수정 하도록 하겠습니다. 혼란을 드려 정말 죄송합니다.
- 0
- 1
- 71