LDA 분석시 빈출 키워드 관련 질문드립니다.

Question

안녕하세요 선생님

LDA분석을 마치고 자료를 정리하는 중인데 빈출 키워드 관련 궁금한 점이 있어 질문 드립니다.

LDA분석시 파이썬 코드에서 상위 10개 혹은 15개 빈출단어를 설정하고 실행하면 해당 단어와 가중치가 함께 출력이 됩니다.

그리고 PyLDAvis 라이브러리로 시각화를 하면 오른쪽 단어 그래프 맨 상단에 Relevance 값을 조정하여 전체에서 빈출된 단어 혹은 특정 토픽에서만 빈출하는 단어의 목록을 변경해 가며 확인할 수 있는데

궁금한 점은

이때 상위 10개 혹은 15개 빈출 단어와 그래프에서 Relevance 값을 조정한 단어가 다르게 나오는데.. 둘 중 연구자가 판단해서 연구에 사용하기 적합한 것으로 사용해도 되는 걸까요?

또 Relevance 값은 가중치 값이 표시되지 않는데 표시할 수 있는 방법(코드)이 있는지, 논문에서 표로 단어 내용을 제시할 때 어떻게 제시하면 좋을지 궁금해서 질문 드립니다.

바쁘시겠지만 관련해서 답변 주시면 정말 감사하겠습니다!

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다.

LDA 분석에서 상위 빈출 단어를 결정하는 방식과 PyLDAvis를 통한 시각화 과정에서 단어의 중요도를 파악하는 방식은 다소 차이가 있습니다. 빈출 단어 목록은 해당 토픽에서 높은 빈도로 나타난 단어들을 기반으로 하는 것이고, PyLDAvis에서의 Relevance 값은 빈도 뿐만 아니라 단어가 특정 토픽을 대표하는 데 얼마나 중요한지에 대한 척도를 반영합니다.

연구자가 판단하여 논문이나 연구에서 사용하기 적합한 단어를 선택하는 것은 문제가 없습니다. 상황에 따라 단순히 높은 빈도의 단어를 사용하는 것보다는 특정 토픽 내에서 유의미하고 차별화된 단어를 선택하는 것이 더 의미있을 수 있습니다.

PyLDAvis의 Relevance 값에 대한 가중치를 직접적으로 표시하는 기능은 기본적으로 제공되지 않습니다. 하지만, 논문이나 보고서에서 이 값을 언급하길 원한다면, Relevance 값을 기준으로 단어를 선택한 후 해당 단어들의 토픽 내 빈도나 해당 단어가 토픽을 대표하는 정도를 별도로 분석하여 함께 제시하는 방법을 고려해 볼 수 있습니다.

예를 들면, PyLDAvis에서 선택된 단어들에 대해 특정 토픽 내에서의 빈도수와 전체 문서에서의 등장 빈도수를 비교 분석하거나, 해당 단어들이 토픽 구분에 얼마나 기여하는지를 분석한 결과를 표나 그래프로 보여주는 것입니다. 이러한 방법을 통해 Relevance 값의 의미를 좀 더 구체적으로 설명할 수 있을 것입니다.

연구 목적에 따라 가장 적합한 방식을 선택하시는 것이 중요하며, 단어 목록과 이를 선택한 기준을 명확히 설명하는 것이 중요합니다.

인프런 커뮤니티 질문&답변

LDA 분석시 빈출 키워드 관련 질문드립니다.