묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
강의 내용 참고문헌 질문있어요
선생님 안녕하세요.수업 재밋게 잘 듣고 있습니다.덕분에 쉽게 따라할 수 있을 것 같아요. 궁금한게 있어서요. 강의 섹션4 연구논문 관련 작성 강의에 사용한 "영어 인공지능 앱 리뷰"와 관련된 논문을 사용하셔서 강의를 진행해 주셨는데요, 해당 논문의 출처를 알 수 있을까요?
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
선생님 질문있어요!
선생님 덕분에 많이 배우고 있습니다.선생님이 쓰신 이진규, & 이창배. (2022). 자연어 처리 (NLP) 기반 텍스트마이닝을 활용한 소나무에 대한 국내외 연구동향 (2001∼ 2020) 분석. 농업생명과학연구, 56(2), 35-47. 논문을 보니 국외 논문도 연구동향을 진행하셨는데요.Web of science 사이트에서 RISS처럼 크롤링 하는 방법을 간단히 소개해 주실 수 있으신가요?그리고 선생님이 하신 강의를 보다보면 대부분의 데이터 처리가 한글 기반으로 되어 있습니다. 혹시 TEXTOM을 사용할때 언어가 영어인 경우에는 잘 구동이 안 되나요? (선생님께서는 파이썬 라이브러리를 사용하셨더라구요) 혹시 영어의 경우에는 TEXTOM이 잘 안 되어서 다른 프로그램을 사용하셨나 해서요.항상 강의 잘 듣고 있습니다.감사합니다.
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
섹션4 연구논문 작성 관련 참고논문 출처
선생님 안녕하세요. 수업 재밋게 잘 듣고 있습니다. 덕분에 쉽게 따라할 수 있을 것 같아요. 궁금한게 있어서요. 강의 섹션4 연구논문 관련 작성 강의에 사용한 "영어 인공지능 앱 리뷰"와 관련된 논문을 사용하셔서 강의를 진행해 주셨는데요, 해당 논문의 출처를 알 수 있을까요?
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
구글학술검색 데이터 관련
안녕하세요?선생님 덕분에 재밌게 텍스트마이닝에 대한 공부를 시작하게 되었습니다.좋은 강의 자료 정말 너무너무 감사드립니다. 다름이 아니라 구글학술검색(google scholar)의 검색 결과를 추출할 수 있는 방법이 있는지 여쭙고 싶습니다. 특정 검색어를 검색할 시 나오는 검색결과 전체를 목록화 하고 싶은데요.. (선생님께서 RISS 검색하셨던 것 처럼요!) 혹시 가능한 방법이 있다면 공유해 주실 수 있을까요? 감사합니다.
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
데이터 정제 관련
강의를 들으며 급하게 연구동향분석을 진행하고 있습니다. 그런데 데이터 정제, 편집 부분부터 현제 텍스톰의 메뉴와 다소 차이가 있는데, 텍스톰이 바뀐건지요? 아니면 제가 뭔가를 잘못 하고 있는건지....그리고 정제요청 후 이틀동안 계속 '정제중'으로 뜨는 건 왜 그럴까요? 데이터는 40kb정도 입니다. 도와주세요~
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
샘플로 제시해 주신 참고문헌 제공 부탁드리겠습니
N-gram 분석은 N개 단어의 연쇄를 확률적인 수치를 산출하고 시각화하는 방법으로 대용량의 문서에서 특정 단어 뒤에 위치하는 단어나 음절의 빈도를 정량적인 수치로 나타낼 수 있다(Kang & Lee, 20019). 단어 간 연결방향이 화살표를 통해 시각화되며 화살표의 굵기 크기를 통해 연결강도가 결정된다(Yoo et al., 2019). 또한 연관 단어 간 관계성을 분석하면 단어간 관계 파악에 용이다하다(Kim, 2020). 본 연구에서는 Textom에서 제공하는 N-gram 텍스트마이닝 기법 시 데이터의 흐름과 이해를 하기 위해 가장 먼저 기초 분석 자료로 활용되는 기법이기도 하다. 단어빈도에 기반한 분석은 전체 문서 내에서 특정 단어의 풀현 빈도를 나타낸다. 문서 내에 특정 단어가 등장하는 횟수를 나타내며 이수치값이 클수록 문서에서 자주 사용하는 단어임을 의미한다(Jang et al.,2018). 높은 출현 빈도를 나타내는 단어는 대체로 연구주제와 관련된 함축된 의미를 내재하고 핵심 단어로 작용 할 수도 있다(Lee,2022).
-
미해결R로 하는 텍스트마이닝 (Top keyword부터 감성분석까지)
top Keword 추출 강의 질문
Top Keword 추출 강의에서 수업자료에 commnts와 score 파일이 없는데 어디서 받을 수 있을까요?
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
25. LDA 분석3 강의에서
Coherence Score가 높을수록, Perplexity score가 낮을수록 좋다고 하셨는데, 왜 토픽수가 2가 아닌 4가 좋다고 하신건가요? Perplexity score는 비슷비슷해보이니까, 확실히 Coherence Score가 높은걸 고르는게 맞지 않나요..?
-
미해결빅데이터 분석 솔루션 TEXTOM으로 쉽고 빠르게 배우는 텍스트마이닝
텍스트마이닝 정의에 대한 인용 세부 사항
안녕하세요.강의를 잘 듣고 있습니다.아래의 인용 출처를 자세하게 알려주시면 감사하겠습니다.1강 ppt 13쪽, 텍스트마이닝 정의에 대한 인용: 'fan et al, 2006'1강 ppt 14쪽, 텍스트분석 방법: 'Bargavi et al, 2008'위에 나온 인용 출처를 좀 더 자세하게 알려주시면 감사하겠습니다.예) 저자명, 논문 이름, 연도, 논문지 이름, 책 이름, 페이지 등 감사합니다.
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
기 정제한 데이터의 영문 수정 가능 여부
강의 잘 들었습니다.그림, 표 영문 작성 논문의 경우 워드클라우드의 한글 텍스트를 영문으로 변경하고 싶은데 프로그램 내에서 변경 가능할까요?
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
n-gram에 들어갈 단어의 수 선택
n-gram에 들어갈 단어는 그 갯수를 사용자가 결정할 수 있는데, 그 수를 결정하는 데에 어떤 근거가 있을까요? 아니면 그냥 사용자가 의미있어보이는 순위까지만 사용하는건가요?
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
분석 키워드 소거에 관하여
강의 수강생입니다.질문 내용은 제목과 같습니다.이를테면 '공무원'이라는 키워드로 분석을 실시할 경우,'공무원'이 가장 많은 빈도로 검색될텐데 이 경우 검색어는 소거하고 분석하는 게 맞는지요?
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
강의녹화 수정요청
3:21부터 목소리가 안나옵니다.
-
미해결파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지
맥 os에서 폰트 경로 지정*코랩 사용
안녕하세요 코랩으로 공부중입니다.워드클라우드 작성시 font_path="C:/windows/fonts/malgun.ttf폰트 경로를 지정해줘야 하는데 운영체제가 mac 일경우에는 폰트 지정을 어떻게 해야하나요?폰트 지정을 안하니 글자까 개져서 나와요
-
미해결파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지
Re. Konlpy 설치오류(Okt 오류)
답변에 나온 방법을 토대로 파이썬, java, JPype, jupyter를 모두 제거한 후 재설치를 진행했습니다.python 설치 : 3.8.9 버전으로, python.org에 접속하여 인스톨러로 설치했습니다.cmd 상에서 python --version 입력하였을 시, python 3.8.9가 나오는 것을 확인했습니다.java 19.0.2를 검색하여, oracle 사이트에서 설치파일 다운로드 받아 설치하였습니다. 윈도우 64bit 버전으로 설치했습니다..시스템 환경변수 설정을 했습니다.Jpype를 말씀해주신 버전과 같은 버전으로 설치했습니다.cmd 상에서, pip install konlpy로 설치하였습니다.konlpy 설치 후 알려주신 방법을 따랐지만 기존과 같이 okt = Okt()상에서 에러가 발생합니다. 추가적으로 kkma, hannanum을 실행해보았지만 같은 에러가 발생합니다.
-
미해결파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지
Konlpy 설치 오류
konlpy설치과정에서 오류가 발생했습니다.Conda 설치가 회사 네트워크 문제로 되지 않아 프롬프트로 파이썬을 설치했고 Python은 3.8.9버전입니다. (3.9와 최신버전인 3.11로 설치했었는데 에러가 해결되지 않아 3.8로 다운그레이드 했습니다.)Java는 19.0.2(64-bit)로 설치했고 JPype는 1.1.2-cp38-win_amd64로 설치했습니다.JAVA_HOME 환경변수 설정도 확인을 완료했는데 자바 패키지상의 오류가 나타나네요ㅜㅜ
-
미해결파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지
tfidf 관련
안녕하세요, tfidf관련하여 오류가 발생하여 질문드립니다.csv파일로 뉴스를 토픽모델링하는 과정에서,csv 파일에 뉴스를 추가하면서 계속 토픽모델링을 진행하는 과정에서어느 순간에 아래처럼 오류가 발생합니다. 토픽모델링이 가능했었는데, 왜 자료를 추가하면 진행하면 어느 순간 해당 오류가 생기는지 알 수가 없어서 질문드립니다ㅠㅠ 좋은 강의해주셔서 감사합니다!UnicodeDecodeError Traceback (most recent call last) Cell In[127], line 2 1 vectorizer = TfidfVectorizer(tokenizer=tokenizer, max_df=0.90, min_df=100, max_features=20000) ----> 2 tfidf = vectorizer.fit_transform(topnews['text']).toarray() File c:\Users\My COM\AppData\Local\Programs\Python\Python310\lib\site-packages\sklearn\feature_extraction\text.py:2131, in TfidfVectorizer.fit_transform(self, raw_documents, y) 2124 self._check_params() 2125 self._tfidf = TfidfTransformer( 2126 norm=self.norm, 2127 use_idf=self.use_idf, 2128 smooth_idf=self.smooth_idf, 2129 sublinear_tf=self.sublinear_tf, 2130 ) -> 2131 X = super().fit_transform(raw_documents) 2132 self._tfidf.fit(X) 2133 # X is already a transformed view of raw_documents so 2134 # we set copy to False File c:\Users\My COM\AppData\Local\Programs\Python\Python310\lib\site-packages\sklearn\feature_extraction\text.py:1387, in CountVectorizer.fit_transform(self, raw_documents, y) 1379 warnings.warn( 1380 "Upper case characters found in" 1381 " vocabulary while 'lowercase'" 1382 " is True. These entries will not" 1383 " be matched with any documents" ... ---> 93 result = [(token.getMorph(), token.getPos()) for token in result] 95 if join: 96 result = ['{}/{}'.format(morph, pos) for morph, pos in result] UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte