게시글
질문&답변
기출7회 작업형 2 문제
유창균님께서 질문 주신 예측모델 생성 시 훈련데이터와 검증데이터를 분리하는 것에 대한 차이에 대해 설명드리겠습니다.모델을 훈련할 때, 데이터 셋을 훈련 데이터와 검증 데이터로 나누는 것은 과적합(overfitting)을 방지하고 모델의 일반화 성능을 평가하기 위한 중요한 과정입니다.1. 훈련 데이터와 검증 데이터의 분리:훈련 데이터는 모델을 학습시키기 위해 사용됩니다.검증 데이터는 학습한 모델의 성능을 평가하기 위해 사용됩니다. 이는 모델이 학습 데이터에 과적합되지 않고 새로운 데이터에 대해 잘 일반화되는지를 확인하는 단계입니다.2. 예측모델 vs. 분류모델:예측모델에서는 종종 데이터가 충분히 많지 않을 경우 모든 데이터를 사용하여 모델을 학습시키는 경우가 있을 수 있습니다. 그러나 이는 성능 평가에 있어 제약이 될 수 있으며, 가능하다면 검증 데이터 세트를 따로 두는 것이 좋습니다.분류모델에서는 훈련 데이터를 충분히 활용하되, 반드시 검증 데이터를 사용하여 모델을 평가하고 튜닝하는 것이 일반적입니다.권장사항:가능하면 언제든 모델 훈련 시 검증 데이터 세트를 별도로 유지하여 사용하시는 것이 바람직합니다. 이렇게 하면 모델의 최종 성능을 보다 신뢰성 있게 평가할 수 있습니다. 빅분기 시험에서는 정답을 시험때 알 수 없기 때문에 미리 검증 데이터로 모델의 성능을 확인하여 합격 여부를 예측하는 용도로 사용하시면 됩니다. 암튼 랜덤 포레스트를 쓰면 무난히 합격하실수 있습니다
- 0
- 2
- 38
질문&답변
4회 작업형2 문제 질문
질문 1: ‘ID’ 열 제거기출 2회에서 ‘cust_id’와 같은 식별자 열을 제거한 것처럼, 4회에서도 ‘ID’ 열을 제거해도 되는지에 대한 질문이군요.식별자인 ‘ID’ 열은 예측 모델에 영향을 주지 않는, 단지 데이터의 특정 행을 구별하는 용도로 주로 사용됩니다. 예측 모델링에서는 이러한 식별자 열이 모델의 학습에 불필요한 영향을 주므로, 제거하는 것이 일반적입니다. 따라서, ‘ID’ 열을 제거하고 스케일링해도 무방합니다.질문 2: 불필요한 열 판단 기준불필요한 열을 판단하는 기준은 다음과 같습니다:- 식별자 열: 데이터의 특정 샘플을 식별하기 위한 목적일 뿐, 실제로 모델의 예측에 기여하지 않는 열입니다. (예: 고객 ID, 주문 번호 등)- 상수 열: 모든 값이 동일하여 정보가 없는 열입니다.- 높은 결측값 비율: 결측값이 지나치게 많아 유용한 정보를 제공하지 않는 열입니다.각 문제의 데이터에 특화된 판단이 필요할 수도 있으므로, 데이터의 특성을 충분히 이해하고 모델링에 필요한 정보인지 고려하는 것이 중요합니다. 질문 감사합니다.
- 0
- 3
- 35
질문&답변
데이터셋 파일 문의
네 ~ 영상의 강의에서 쓰이는 csv 파일은 파이썬 코드가 자동으로 생성하기 때문에 코랩의 실습 파이썬 코드를 수행하면 바로 만들어집니다.
- 0
- 1
- 32
질문&답변
2회 작업형1 문제1 질문
네 말씀해주신 내용이 맞습니다. 소수점 3번째 자리에서 반올림하면 소수점 2개가 남아야 하므로 round(값,2) 가 맞습니다. 영상 수정해놓도록 하겠습니다. 정말 감사합니다.
- 0
- 2
- 46
질문&답변
맥북 설치
네 ~ 맥북에 오라클 21c도 설치가 가능합니다. 설치 영상은 없지만 아래의 블러그를 따라하시면 성공적으로 설치가 됩니다. sqldeveloper 로 접속하면 하시면 그 다음 수업을 듣는데 문제는 없습니다.해보시다가 안되시면 언제든 질문주세요. 감사합니다. https://velog.io/@daram_dev/Mac-%EC%98%A4%EB%9D%BC%ED%81%B4-21c-%EC%84%A4%EC%B9%98%ED%95%98%EA%B8%B0
- 0
- 2
- 83
질문&답변
교통사고 유형별 검거율 계산하고, 각 연도별로 최고 검거율과 사고유형에 대해서
아 네 질문 너무너무 감사합니다. 지적해주신 부분이 맞습니다. 말씀해주신 내용 반영하여 다시 영상을 수정 하도록 하겠습니다. 혼란을 드려 정말 죄송합니다.
- 0
- 1
- 66