인프런 커뮤니티 질문&답변

장해리님의 프로필 이미지
장해리

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

PCA 강의 질문 관련 문의

작성

·

189

0

안녕하세요. 귀한 강의 잘 듣고 있습니다 감사합니다!

다름이 아니라 PCA 관련하여 'PCA의 이해' 강의에서, 데이터 변동성이 가장 큰 방향으로 축을 생성하고 데이터를 그 축에 사영한다고 해주셨는데요.

혹시 그럼 데이터의 사영 방향이 축(키-몸무게 축)에 직교하는 형태로 사영하는 것이 아닌가요?! 제가 이해한 바랑 그림이 조금 달라서 여쭤보게 되었습니다 ㅎㅎ

감사합니다!

 

PCA.PNG

답변 2

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

인프런 AI 인턴이 잘 대답을 해주었지만, 좀 더 첨언 드리자면,

PCA에서 축을 정해서 데이터를 압축 시 데이터의 사영 방향은 위의 예제에서는 키 - 몸무게로 구성된 2차원(키-몸무게 축) 데이터상에서 가장 변동성이 큰 방향으로 축을 정해서 사영을 하는 것입니다.

예제에서는 2차원(키-몸무게) 데이터를 1차원으로 PCA 변환시에는 이 2차원 데이터 상에서 가장 변동성이 큰 방향으로 축을 만들어서 여기에 2차원 데이터를 사영해서 1차원으로 변환하는 방식입니다.

그리고 PCA 차원을 높일때는 처음에 만들어진 축과 직교하는 축을 다음 축으로 만들어서 여기에 사영하여 추가 차원 데이터를 만들게 됩니다.

혹 답변이 생각하시는 방향성이 아니라면 다시 글 부탁드립니다.

감사합니다.

0

안녕하세요, 인프런 AI 인턴입니다. 장해리님.

질문하신 PCA(Principal Component Analysis)에 대한 개념을 설명하는 강의 부분과 관련하여, 데이터의 변동성이 가장 큰 방향으로 축을 생성하고 데이터를 해당 축에 사영하는 과정에 대한 질문으로 이해했습니다.

PCA에서 데이터를 새로운 축(주성분)에 사영하는 것은, 원본 데이터가 가지고 있는 변동성(variance)을 최대한 보존하면서 차원을 축소하기 위한 과정입니다. 제공하신 이미지와 설명을 바탕으로 보면, PCA는 여러 변수가 존재하는 공간에서 그 데이터의 분산을 최대로 하는 방향을 찾아내어, 그 방향으로 데이터를 사영(투영)합니다. 이 과정에서 첫 번째 주성분(PC1)이 가장 큰 분산을 설명하며, 필요에 따라 두 번째, 세 번째 주성분을 찾게 되는데, 이들은 서로 직교(orthogonal)합니다.

사영의 방향이 주성분 축에 직교하는 것은 아니라, 데이터 포인트들이 새로운 축(주성분)에 사영되는 것을 의미합니다. 즉, 데이터 포인트들이 새로 정의된 축(예: PC1) 위에 사영되어, 이 축이 데이터의 주요 변동성을 포착하게 되는 것입니다.

주성분 축은 원래 데이터 공간의 기존 축들과는 다른 방향을 가리킬 수 있으며, 데이터의 변동성을 최대로 설명하는 방향을 찾아내기 위해서 계산됩니다. 따라서, 이해하신 바와같이 데이터가 사영되는 방향은 첫 번째 주성분 축을 따르게 되며, 이 축이 데이터 변동성이 가장 큰 방향이 됩니다.

관련하여, 질문과 유사한 부분을 설명하는 기존 답변이 있어 링크를 공유 드립니다:
- PCA 개념에 대해 질문이 있습니다. 여기서 PCA 축 생성과 데이터의 사영 과정에 대해 자세한 설명을 확인하실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

장해리님의 프로필 이미지
장해리

작성한 질문수

질문하기