질문 & 답변 - 인프런 | 커뮤니티

질문 게시판

고민있어요

스터디

팀 프로젝트

멘토링

멘토링 후기

수강평

With us

인프런 피드

블로그

인프런 소개

공지사항

대시보드

강의

홈

로드맵

더보기

묻고 답해요

141만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

해결됨
[개정판] 파이썬 머신러닝 완벽 가이드

Truncated SVD, PCA, NMF 관련 질문 드림

강사님 안녕하세요? 이번단원에서 유독 질문을 많이 드리게 되네요 ^^;; 질문1) Feature engineering 방법론 측면 TSVD-PCA 활용 관련 경우의 수 Truncated SVD 의 경우 데이터 표준화를 한 경우는 표준화한 PCA 와 동일해 진다는 부분은 잘 이해하였습니다. 다만 이것저것 돌려 보니, 표준화를 하지 않은 Truncated SVD 는 표준화 한 경우에 비해 데이터 경향도 좀 바뀌는 듯 한데요, 그럼 다양한 feature engineering 방법론 관점에서 아래 3가지 다른 approach 가 가능하다고 정리하면 될지요? 1) 표준화를 하지 않은 Truncated SVD 2) 표준화를 한 Truncated SVD = 표준화를 한 PCA (동일결과) 3) 표준화를 하지 않은 PCA 3)번의 경우도 사실 2)번과 경향은 동일하고 scaling 만 바뀌는 case 이긴 하지만, 원본 변수의 scaling 에 따른 가중치 효과가 있을 것이므로 예측 모델의 성능에도 영향이 있을 듯 하고.... 1) 번은 아래 그래프처럼 경향자체가 많이 달라져서 역시 모델 성능 차이를 줄 수 있을 듯 해서 입니다 (경우에 따라 모델 성능개선을 기대해 볼 수 도 있는) 질문 2) NMF 의 개념 및 componet 개수 가이드라인 NMF 역시 결국은 다변량 변수로 정의되는 초공간에서의 좌표 축을 회전시켜서 새로운 측면의 변수를 뽑아내는 개념이 아닐까... 라고 이해를 해 보았는데요, 인자분석 (Factor Analysis) 과 유사한 개념이라고 이해하면 될지.. 질문 드립니다. Factor Analys 에서도 차원을 줄이되 합성 feature 를 추출해서 포괄적인 상위개념의 변수를 정의해서 모델링을 하거나, 데이터를 해석하는 개념으로 이해하고 있어서... NMF 도 이와 유사한 개념이 아닐까 (물론 계산 과정이나 결과물 자체는 다르겠지만) 생각이 들어서요~ 다만 본 단원 실습인 붓꽃의 4개 feature 자료에 대해서 component 개수를 제약두지 않고 NMF 를 돌렸을 때는 4개의 신규 feature 가 나오던데요, 아마도 원본 데이터의 차원 수만큼 new feature 가 나오는 것으로 이해가 됩니다. PCA 나 인자분석 (FA) 에서는 주성분분산 크기를 가지고 extract 된 feature 의 개수를 가늠하는데, NMF 의 경우 feature 개수를 가늠하는 가이드라인이 있을지.. (예제에서는 두 개로 하셨는데, 그 이유에 대한 설명이 있지는 않아서요~) FA 는 PCA 와 달리 new feature 간 중요도 차이 없이 모두 평등한데, NMF 도 extract 된 new feature 별 중요도가 있을지 혹은 FA 와 같이 모든 변수의 중요도가 동일한지... 도 궁금합니다.

아쿠아라이드 · 2021.07.29 · [개정판] 파이썬 머신러닝 완벽 가이드

투표점수

0

조회수

456

답변

2

인기 태그

주간 인기글