작성
·
196
답변 1
0
안녕하세요!
1. word2vec 은 벡터화된 단어를 임베딩하는 방법입니다. 단어 벡터화는 단어를 수치화 해서 만드는 건데 이 수치화된 단어가 얼마나 연관성이 있는지 다시 수치로 나타낸 것을 임베딩이라 부르고 word2vec 은 그런 기법을 의미합니다.
더 자세한 설명은 다음 링크를 읽어보시면 좋습니다.
https://www.kakaobrain.com/blog/6
2.임베딩은 벡터(수치화) 된 단어들이 얼마나 유사성을 가지고 있는지를 수치화 한 것을 의미합니다. 위에 참고링크를 보시면 자세히 설명이 되어 있는데,
서울-대한민국, 베이징-중국 이라면 이 단어들이 연관이 있다면 다른 단어와의 거리에 비해 이 단어들의 거리가 가깝게 계산이 됩니다.
다음의 링크를 추가로 보시면 좋을거 같습니다.
https://tensorflowkorea.gitbooks.io/tensorflow-kr/g3doc/tutorials/word2vec/
https://ratsgo.github.io/natural%20language%20processing/2017/03/08/word2vec/
3. BOW는 bag of words의 약자로 단어를 가방에 담는다는 의미입니다.
"자연어처리 강좌 입니다." 라는 문장이 있다면 공백으로 나눠서 ["자연어처리", "강좌", "입니다"] 처럼 나눠서 담게 되는데 이 기법을 BOW라고 부릅니다.
또 이 방법은 아래와 같은 특징을 가집니다.
가장 간단하지만 효과적이라 널리쓰이는 방법
장, 문단, 문장, 서식과 같은 입력 텍스트의 구조를 제외하고 각 단어가 이 말뭉치에 얼마나 많이 나타나는지만 헤아린다.
구조와 상관없이 단어의 출현횟수만 세기 때문에 텍스트를 담는 가방(bag)으로 생각할 수 있다.
BOW는 단어의 순서가 완전히 무시 된다는 단점이 있다. 예를 들어 의미가 완전히 반대인 두 문장이 있다고 하다.
it's bad, not good at all.
it's good, not bad at all.
위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환된다.
이를 보완하기 위해 n-gram을 사용하는 데 BOW는 하나의 토큰을 사용하지만 n-gram은 n개의 토큰을 사용할 수 있도록 한다.
또, 추가적으로 이 링크에 있는 글을 읽어보시면 도움이 될거 같습니다. https://wikidocs.net/22650