답변 1
0
안녕하세요. 답변 도우미입니다.
타이타닉 데이터를 기반으로 머신러닝 모델을 만들 때, Survived
(생존 여부)에 어떤 변수가 영향을 미치는지 알아보고자 하는 경우가 있습니다. 다만, 질문에서 언급한 '수치가 높게 나오면 영향 가능성이 높다고 판단'하는 것은 정확히 어떤 수치를 의미하는지에 따라 다를 것 같아요. 다만, 일반적으로 머신러닝 모델에서 중요한 피처(변수)들은 다음과 같은 몇 가지 방법으로 그 영향을 측정할 수 있습니다.
1. 피처 중요도(Feature Importance): 머신러닝 모델이 학습 과정에서 특정 변수를 자주 사용한다면, 그 변수는 생존 여부에 큰 영향을 미쳤다고 볼 수 있습니다. 예를 들어, 모델이 나이, 성별, 탑승 클래스 등을 중요하게 사용했다면, 그 변수들이 생존에 중요한 영향을 미친 것이라고 판단할 수 있습니다.
2. 상관관계 분석: 상관관계는 두 변수 간의 관계를 나타냅니다. 만약 특정 변수가 Survived
와 높은 상관관계를 가진다면, 그 변수는 생존 여부에 영향을 미칠 가능성이 높다고 볼 수 있습니다. 다만, 상관관계가 인과관계를 나타내는 것은 아니므로 주의해야 합니다.
3. 모델의 계수(Regression Coefficients): 로지스틱 회귀와 같은 모델에서는 각 변수의 값이 생존 여부에 긍정적인 영향을 주는지, 부정적인 영향을 주는지 알 수 있습니다. 값이 클수록 그 변수의 영향력이 크다고 판단할 수 있습니다.
결론적으로, 어떤 변수가 생존 여부에 영향을 미치는지 알고 싶다면, 해당 변수의 중요도나 상관관계를 살펴보고, 그 수치가 높다면 영향을 미칠 가능성이 크다고 해석할 수 있습니다.
감사합니다.
잔재미코딩 드림
피처 중요도나 모델의 계수는 이미 머신러닝 모델일 돌린 후 뽑아낼 수 있다고 알고 있는데 그 후 피처 엔지니어링을 진행하면 되는게 맞다고 이해하면 되는건가요?
현재 학습 진행은 피처엔지니어링 파트 직전입니다.