묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
수업 자료 관련
안녕하세요, 수업 자료 어디에서 다운 받을 수 있나요?
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
텍스톰으로 Bertopic을 사용할 수는 없나요?
이제 논문을 준비해야 하는데 최근에 Bertopic을 사용한 논문이 많이 보이더라구요. 혹시 텍스톰으로 Bertopic 방법을 사용할 수 있을까요? 만약 불가능하다면 파이썬에 대한 지식이 없는 초보자가 bertopic 방법을 사용하기는 힘들까요? 바쁘시겠지만 답변 부탁드립니다 감사합니다
-
미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
0204 쇼핑 리뷰 군집화 - KMeans, Elbow, Silhouette 분석 강의 질문있습니다.
0204 쇼핑 리뷰 군집화 - KMeans, Elbow, Silhouette 분석 강의 질문있습니다.강의에서는 Silhouette 이 부분이 1과 가까워지는 부분에서 좋은 n_cluster라고 하셨는데 그러면Elbow 차트 말고 Silhouette 만 써도 되는건가요?0204 쇼핑 리뷰 군집화 결과 분석 - 실제 제품과 군집 교차표 분석 4분 16초에 k.meanslabel==pardict를 하는 이유가 뭔가요? 라벨링 개수와 학습한 개수를 같은지 확인하는 이유가 궁금합니다.
-
미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
load_metric 에러 발생
from datasets import load_metricImportError: cannot import name 'load_metric' from 'datasets' (/usr/local/lib/python3.10/dist-packages/datasets/__init__.py) datasets에서 load_metric을 불러오려고 하는데 위와 같은 에러가 발생합니다. 계속 삽질하고 있는데 방법을 찾기가 쉽지가 않네요ㅠ 도움 부탁드립니다.
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
원하는 결과를 얻기 위한 데이터 전처리 관련
안녕하세요word_count 파일을 가지고 전처리를 하기 위해 유사어나 제외어를 처리를 위해 library파일을 만들었습니다A 컬럼에는 제외할 키워드를 지정하고 B 칼럼에는 빈 공간을 두었습니다그리고 유사어 경우 A컬럼에는 '국가' B칼럼에는 '나라' 를 기입했습니다. 그리고 제공해준 대로 코딩을 해서 키워드 빈도나 워드 크라우드를 실행해도 수정되지 않은 결과가 나옵니다(제외할 키워드, 수정할 키워드 반영이 안됨)왜 그런지 ? 어떤 과정이 문제인지 잘 모르겠습니다그리고 만약 유사어를 여러개를 지정할 때, 예를 들면 ' 지역주민'과 유사어가 '시민' , '주민' 등과 같이2개이상일 경우에는 어떻게 작성해야 하는지도 궁금합니다
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
포털과 학술데이터 모두 활용할때
안녕하세요 강사님!덕분에 텍스톰을 활용하여 학술논문 작성중입니다.포털과 학술 데이터를 통합하여 활용하고자 할때는 어떻게 해야하나요?
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
LDA 분석시 빈출 키워드 관련 질문드립니다.
안녕하세요 선생님LDA분석을 마치고 자료를 정리하는 중인데 빈출 키워드 관련 궁금한 점이 있어 질문 드립니다.LDA분석시 파이썬 코드에서 상위 10개 혹은 15개 빈출단어를 설정하고 실행하면 해당 단어와 가중치가 함께 출력이 됩니다.그리고 PyLDAvis 라이브러리로 시각화를 하면 오른쪽 단어 그래프 맨 상단에 Relevance 값을 조정하여 전체에서 빈출된 단어 혹은 특정 토픽에서만 빈출하는 단어의 목록을 변경해 가며 확인할 수 있는데궁금한 점은이때 상위 10개 혹은 15개 빈출 단어와 그래프에서 Relevance 값을 조정한 단어가 다르게 나오는데.. 둘 중 연구자가 판단해서 연구에 사용하기 적합한 것으로 사용해도 되는 걸까요?또 Relevance 값은 가중치 값이 표시되지 않는데 표시할 수 있는 방법(코드)이 있는지, 논문에서 표로 단어 내용을 제시할 때 어떻게 제시하면 좋을지 궁금해서 질문 드립니다.바쁘시겠지만 관련해서 답변 주시면 정말 감사하겠습니다!
-
미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
강의에서 사용하는 csv 파일이 없습니다
0301 KLUE Dacon 데이터셋 소개, 텍스트 길이 분석강의에서 다루는 'topic_dict' csv 파일이 없습니다. 어디서 파일을 구할 수 있나요??
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
LDAvis 시각화가 되지 않습니다.
안녕하세요 선생님, 수업 잘 듣고 있습니다. 파이썬 기본 용어 하나도 모르는데 선생님꺼 강의 보면서 하나씩 따라가고 있습니다. 다름이 아니라 저도 LDAvis 시각화가 되지 않는데요, 오류 코드는 다음과 같습니다. +AI 답변 참고해서 업그레이드 했는데도 여전히 오류라고 뜹니다.ict'방법 알려주시면 감사하겠습니다! /usr/local/lib/python3.10/dist-packages/ipykernel/ipkernel.py:283: DeprecationWarning: `should_run_async` will not call `transform_cell` automatically in the future. Please pass the result to `transformed_cell` argument and any exception that happen during thetransform in `preprocessing_exc_tuple` in IPython 7.17 and above. and should_run_async(code) Requirement already satisfied: pandas in /usr/local/lib/python3.10/dist-packages (2.2.2) Requirement already satisfied: numpy>=1.22.4 in /usr/local/lib/python3.10/dist-packages (from pandas) (1.26.4) Requirement already satisfied: python-dateutil>=2.8.2 in /usr/local/lib/python3.10/dist-packages (from pandas) (2.8.2) Requirement already satisfied: pytz>=2020.1 in /usr/local/lib/python3.10/dist-packages (from pandas) (2023.4) Requirement already satisfied: tzdata>=2022.7 in /usr/local/lib/python3.10/dist-packages (from pandas) (2024.1) Requirement already satisfied: six>=1.5 in /usr/local/lib/python3.10/dist-packages (from python-dateutil>=2.8.2->pandas) (1.16.0) --------------------------------------------------------------------------- TypeError Traceback (most recent call last) /usr/local/lib/python3.10/dist-packages/IPython/core/formatters.py in __call__(self, obj) 339 pass 340 else: --> 341 return printer(obj) 342 # Finally look for special method names 343 method = get_real_method(obj, self.print_method) 4 frames/usr/local/lib/python3.10/dist-packages/pandas/core/frame.py in to_dict(self, orient, into, index) 1986 >>> df['C'] = pd.date_range('2000', periods=2) 1987 >>> df.to_numpy() -> 1988 array([[1, 3.0, Timestamp('2000-01-01 00:00:00')], 1989 [2, 4.5, Timestamp('2000-01-02 00:00:00')]], dtype=object) 1990 """ TypeError: to_dict() takes from 1 to 2 positional arguments but 4 were given
-
미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
적합한 알고리즘이나 라이브러리를 알고싶습니다
안녕하세요제가 구현하고 싶은 내용은 업체명(상호)에서 특정한 문자열 포함여부에 따라 20가지로 분류하고자 합니다제 소견에 로지스틱 회귀 + softmax + 크로스 엔트로피로 하는 것이 효율적인 것 같은데 적용에 적합한 머신러닝 라이브러리나 알고리즘을 알고 싶고 더불어 관련 자료 또는 사례의 출처도 알려주시면 너무 감사하겠습니다
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
데이터 전처리 관련 질문드립니다.
안녕하세요 선생님데이터 전처리 과정에서 힘든점이 있어 한가지 여쭙고 싶어 질문드립니다.텍스트 마이닝의 경우 원본(예를 들어 리뷰 등) 데이터가 많게는 몇천건에서 수만건, 수십만건 까지 자료를 수집해서 분석할 수 있는데 한글의 경우 okt 분석기로 형태소 분석을 하고 나면 여전히 제대로 단어가 분리되지 않아 단어 정제, 불용어 제거, 단어 정규화 과정을 계속 거쳐야 하잖아요..그런데 원본 리뷰 데이터가 수천, 수만건일 경우 수천 수만건을 개인이 일일이 하나씩 봐가면서 전처리 작업을 진행해야 할 것 같은데 이 과정이 너무나 시간이 많이 소요되고 힘든 것 같습니다.데이터 전처리시 이렇게 하나씩 데이터를 봐가면서 정제작업을 거치는 것이 정상적인 진행과정인지 너무 궁금합니다. ㅠ질문 읽어주셔서 감사합니다!
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
데이터 전처리시
안녕하세요제가 가진 데이터를 토큰화 한 후에 강의에서 알려주신데로 데이터 전처리 사전을 만들어서 나머지 불용어나 정리안된 단어들을 수정하려고 하는데요..코드상 문제는 없는데 뭔가 잘 못 된건지 결과에서 단어들이 연속으로 붙어서 중복해서 표시가 되는데 혹시 이부분 해결에 도와주실 수 있을까요?가별대별대별, 판매자자자, 들어가다다 이런식으로 지울 단어들이 안지워지고 그대로 붙어서 출력이 됩니다.부탁드리겠습니다 ㅠ
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
LDAvis 시각화가 안됩니다.
사진과 같이 오류가 계속 뜹니다... 어떻게 하면 좋을까요?
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
강의 자료
안녕하세요. 강의 때 들었던 내용을 자료를 보면서 빠르게 복습하고 싶은데 자료를 어디서 받을 수 있는지 모르겠습니다. 혹시 따로 올려주신 자료가 없다면 강의자료 및 사용되는 프롬프트(및 코드) 업로드 부탁드립니다.
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
수집키워드 입력
안녕하세요데이터 정제 이해에 어려움을 겪고 있는 텍스톰 초보자입니다.선생님께서 예시로 장마, 폭우라는 단어로 칸을 추가하여 수집키워드를 입력하셨잖아요?이 방법은 두 단어를 반드시 포함하는 (장마+폭우) 인가요?아니면 입력한 단어가 하나 이상 포함된 (장마|폭우) 인가요?
-
해결됨빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
원하는 결과를 얻기위한 데이터 전처리 기법
여기서 "하는"은 하다로 바꾸시고 "있는"은 있다로 바꾸시지 않았으셨는데, 이유가 있을까요? 얻고자 하는 데이터 값에 따라 단어를 바꿀 수도 있고 삭제할 수도 있지만 보편적으로 좋은 값을 얻기 위한 삭제 또는 변경 기준이 있을까요?
-
해결됨빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
LDAvis를 이용한 토픽 모델링 시각화 기법
바로 전 글과 유사하게 저도 문제가 있습니다. 저는 사진과 같이 시각화가 되지 않고 글로 결과가 나옵니다.
-
해결됨빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
데이터 전처리2 에서 utf-8 저장 시 한글 깨짐
데이터 전처리2 에서 utf-8로 저장하면 한글이 깨지고 cp949로 하게 되면 오류가 지속적으로 뜹니다.utf-8로 저장하고 싶습니다.cp949오류는 계속해서 gpt로 고쳐 봤는데 고쳐지지 않고 있습니다.
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
LDAvis 결과 해석법 with ChatGPT- 강의소리
LDAvis 결과 해석법 with ChatGPT해당강의 소리 잘 나오나요? 전 이 강의만 안나와요
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
pyLDAvis시각화
안녕하세요:)import pyLDAvis import pyLDAvis.gensim_models #pyLDAvis.enable_notebook() vis = pyLDAvis.gensim_models.prepare(model, corpus, id2word) vis #시각화 객체 출력위 코드에서 시각화 된 그래프가 나오지 않는데 해결방법이 있나요? pandas 버전 낮추는 것 까지 잘 따라해보았는데 이 부분에서 그림이 출력되지 않습니다ㅠㅠ감사합니다.