작성
·
427
0
sentiment analysis 이론 강의까지 들었는데, embedding 의 기능만 설명하시고 embedding이 뭔지에 대한 설명이 없어서 이해하기 힘들어요. embedding이 뭔지 개념 설명좀 부탁드립니다
답변 1
0
'임베딩(embedding)'은 단어, 문장, 문서, 사용자 등의 고차원 데이터를 저차원의 실수 벡터로 변환하는 것을 말합니다. 임베딩의 가장 대표적인 예는 자연어 처리 분야에서의 단어 임베딩입니다. 예를 들면 다음과 같이 고차원 데이토를 저차원 벡터로 변환합니다.
고양이 = [1, 0, 0...........0,0,0] --> 10000 개의 단어 중 첫번째 단어
개 = [0......0,..............0,, 1, 0] --> 10000 개의 단어 중 9998 번째 단어
말 = [0, .........................0, 1] --> 10000 개의 단어 중 10000 번째 단어
이 고차원 (10000 차원) 벡터를 3 차원 벡터로 임베딩하면,
고양이 = [0.1, 0.3, 0.2]
개 = [0.1, 0.3, 0.25]
말 = [-0.2, 0.1, 0.15] 이렇게 됩니다. 강의 중 섹션 1. 자연어 처리 overview 의 "Word Embedding- 개념", "Word Embedding - Word2Vec" 을 참조 하세요.
또한, 임베딩은 추천 시스템에서 사용자와 아이템의 특성을 저차원 벡터로 변환하여, 사용자의 선호를 예측하는데 사용되기도 합니다.
임베딩은 머신러닝 모델이 이해할 수 있는 형태로 복잡한 데이터를 변환하는데 중요한 역할을 합니다. 이를 통해, 복잡한 자연어나 사용자 행동 등의 데이터를 저차원의 벡터로 요약하면서 원래의 데이터에 내재된 중요한 특성들을 보존할 수 있습니다.
더 자세한 내용이 필요하시면 https://simonezz.tistory.com/43 를 참조 하세요.