묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결15일간의 빅데이터 파일럿 프로젝트
Cloudera에서 식별되는 HDFS, HBase 에러
안녕하세요지난 2월 1일, Ooize를 통해 table을 create, alter, insert에 대한 task 정의하고, workflow를 실행하고, 아래와 같은 쿼리를 실행했습니다.SELECT * FROM MANAGED_SMARTCAR_STATUS_INFO WHERE BIZ_DATE = '20220201' LIMIT 10;,그러나, 중간의 파일명이 꼬였는지, 조회값이 나오지 않았습니다(제가 자투리 시간을 이용하여 공부하다보니, 20220130, 20220131, 20220201에 대한 log 파일이 모두 존재한 상황이었습니다. 해서, 맨 처음 flume 단계부터 다시 실행하기 위해 실행되는 모든 service를 종료하고, cloudera를 다시 실행하였더니, 첨부된 사진과 같이 HDFS와 HBase에 에러가 감지 되었습니다. 현재 shell을 통해 확인하니, HDFS는 에러가 있었음에도 정상적으로 파일을 저장하였지만, HBase는http://server02.hadoop.com:8888/에 접속이 되지 않아, 이후 공부가 진행을 하지 못하는 상황입니다... 무엇이 문제인지와 해결방법에 대해 알려주시면, 감사하겠습니다. P.S. 요즘 너무 많은 에러를 겪고, 이걸 스스로 해결을 하지 못하는 경우가 너무 많아 의지가 많이 약해지네요.. ㅠㅠ 주말에 리프레시 하고.. 다음주 월요일부터 다시 화이팅하겠습니다 ..
-
미해결[핵집] 2024 빅데이터 분석기사(필기)_과목 1~2
통합강의안요청
안녕하세요 통합 강의안 전달 부탁드립니다. ybb5462@naver.com 입니다^^
-
미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
설문조사 주관식 데이터 처리방법 문의
이전에 고객 설문데이터를 가지고 보고서를 만들었던 경험이 있습니다.객관식은 전체 응답기준으로 엑셀로 매크로를 이용하여 그래프를 만들면 되는데문제는 주관식입니다.주관식은 요약을 보고서에 담아야 되어서, 전체를 읽어보고 전체 의견요약을 하고,긍정의견, 부정의견을 나누고 그에 대한 요약을 작성을 일일이 사람이 전체를 읽어서 처리를 합니다.건수가 작으면 혼자 하면 되는데 20만건 데이터 처리는 혼자는 하기 힘들고 여러명이 나눠서 해야만 됩니다. 데이터가 많을 경우 ChatGPT로 요약을 해보니 최대 처리할 수 있는 데이터 크기가 32k까지 밖에 처리가 되지 않아 몇%만 샘플링해서 요약하는 방법밖에 없었습니다. 그럼 샘플링에 따라서 고객의견이 정확하게 반영이 되 지않아 결국은 여러명이 수작업으로 진행했습니다. 자연어 처리로 자동으로 긍정, 부정을 분류까지는 가능할것도 같은데 분류된 데이터 가지고 긍정의견의 요약, 부정의견의 요약을 딥러닝으로 해결이 가능할까요?아니면 어떤 좋은 방법이 있을까요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
데이터 저장 공간 관련 문의 드립니다.
안녕하세요 하둡 에코시스템은 여러가지 소프트웨어로 구성이 되어 있는거 같은데요기존 시스템의 경우 데이터가 저장되는 공간은 DB로만 보면 되었던거 같은데하둡에서는 수집된 데이터가 저장되는 공간이 HDFS, HIVE, Hbase 등 여러공간에 다 저장이 되어 있다고 봐야 하나요?그럼 컴플라이언스 관점에서 저장시 암호화 요건을 갖추려면 모든 저장공간에 암호화한 상태로 보관을 해야 하는건지 문의 드립니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
storm topology 배포 에러
안녕하세요.storm topology 배포 중 -bash: storm: command not found에러가 발생했습니다.storm 설치와 service running 상태를 확인하였고, 환경 변수 세팅은 문제없이 했는데 위와 같은 메세지가 출력되었습니다.제가 겪은 프롬프트를 캡쳐해서 첨부하겠습니다.감사합니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
외부 네트워크 설정 및 클러스터
안녕하세요.친절히 잘 알려주셔서, 감사히 강의를 잘 듣고 있습니다.또, 강의를 듣고, 매일 복습을 하며, 바쁜 날을 보내고 있습니다.맨 처음에 CentOS를 설치하고, VM를 세팅하는 과정에서 호스트 전용 네트워크 정보에 192.168.56.xxx와 같은 로컬 네트워크 IP를 입력하였던 것으로 기억합니다.제가 문의 드리고 싶은 부분은 만약 PC-A와 PC-B가 있을 때,PC-A에 server01, server02를 구축하고, PC-B에서 putty를 이용해서 원격 접근을 하려고 할 때, 단순히 로컬 네트워크 IP를 외부 네트워크 IP로만 변경해서 사용하면 되는 것인지, 만약, 그렇지 않다면, 추가적으로 어떤 설정을 해야하는지 여쭙고 싶습니다.이와 관련된 자료의 링크를 남겨주시면 감사하겠습니다.또한, 두번째 질문으로, 클러스터란 다수의 컴퓨터 서버를 모아 놓은 것으로 알고 있습니다.저는 현재 저사양 컴퓨터 기준으로, server01, server02를 Cluster-1로 제어하고 있는데요. 실제 실무에서도, 다수의 server를 오직 하나의 Cluster로만 그룹하여 사용하는지, 그게 아니라면, Cluster로 그룹하는 기준은 무엇인지 궁금합니다.감사합니다.
-
해결됨15일간의 빅데이터 파일럿 프로젝트
gcc, tcl 설치 에러
안녕하세요 "4.실시간 적재 파일럿 실행 2단계 03 - Redis 설치 " 강의 중, gcc와 tcl 설치 도중에 에러가 발생해서 질문 드립니다. $ yum install -y gcc*해당 에러가 url 변경으로, 에러가 발생해서 echo "https://vault.centos.org/6.10/os/x86_64/" > /var/cache/yum/x86_64/6/base/mirrorlist.txt echo "http://vault.centos.org/6.10/extras/x86_64/" > /var/cache/yum/x86_64/6/extras/mirrorlist.txt echo "http://vault.centos.org/6.10/updates/x86_64/" > /var/cache/yum/x86_64/6/updates/mirrorlist.txt 로 변경하여 설치를 시도했습니다.하지만 아래 사진과 같이 여전히 gcc가 설치되지 않음을 확인하였습니다. 그리고, tcl에 대해서도 설치 과정에서 아래 사진과 같이 에러가 발생했습니다. 이 문제에 대한 해결 방법을 알려주시면 감사하겠습니다.위 사진에 대한 내용도 아래에 작성해놓겠습니다. [root@server02 ~]# echo "https://vault.centos.org/6.10/os/x86_64/" > /var/cache/yum/x86_64/6/base/mirrorlist.txt [root@server02 ~]# echo "http://vault.centos.org/6.10/extras/x86_64/" > /var/cache/yum/x86_64/6/extras/mirrorlist.txt [root@server02 ~]# echo "http://vault.centos.org/6.10/updates/x86_64/" > /var/cache/yum/x86_64/6/updates/mirrorlist.txt [root@server02 ~]# rpm -q gcc package gcc is not installed [root@server02 ~]# [root@server02 ~]# [root@server02 ~]# yum install -y tcl Loaded plugins: fastestmirror, refresh-packagekit, security Setting up Install Process Loading mirror speeds from cached hostfile https://archive.cloudera.com/cm6/6.3.1/redhat6/yum/repodata/repomd.xml: [Errno 14] PYCURL ERROR 22 - "The requested URL returned error: 404 Not Found" Trying other mirror. To address this issue please refer to the below knowledge base article https://access.redhat.com/articles/1320623 If above article doesn't help to resolve this issue please open a ticket with Red Hat Support. Error: Cannot retrieve repository metadata (repomd.xml) for repository: cloudera-manager. Please verify its path and try again [root@server02 ~]# [root@server02 ~]# [root@server02 ~]# 감사합니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
플럼 이벤트 작동
안녕하세요"6. 적재 파일럿 실행 4단계 - 적재 기능 테스트" 강의 중, 플럼 이벤트 작동과 관련되어 실습 중 질문이 있어 문의드립니다.현재 /home/pilot-pjt/working/SmartCar 경로에 마들어진 SmartCarStatusInfo_20160101.txt 파일을 플럼의 SmartCarInfo의 SpoolDir 경로인 /home/pilot-pjt/working/car-batch-log로 옮겨 플럼의 File 이벤트가 작동하기 위해, $ mv /home/pilot-pjt/working/SmartCar/SmartCarStatusInfo_20160101.txt /home/pilot-pjt/working/car-batch-log/$ cd /var/log/flume-ng/$ tail -f /var/log/flume-ng/flume-cmf-flume-AGENT-server02.haddop.com.log를 입력하였습니다. 이 후, "...BuckerWriter: Closing /pilot-pjt/...", "...BuckerWriter: Renaming /pilot-pjt/...", 그리고 마지막으로 "...Writer callback called"라는 메세지가 보이면 모든 HDFS 적재가 성공적으로 끝난 것이다라고 설명해주셨지만, 저는 아래 출력값으로 약 40분 간 추가적인 출력이 발생하지 않은 상황입니다.[root@server02 SmartCar]# cd /var/log/flume-ng/ [root@server02 flume-ng]# tail -f /var/log/flume-ng/flume-cmf-flume-AGENT-server 02.hadoop.com.log value.serializer = class org.apache.kafka.common.serialization.ByteArray Serializer 2024-01-28 01:11:50,605 INFO org.eclipse.jetty.server.Server: jetty-9.3.25.v2018 0904, build timestamp: 2018-09-05T06:11:46+09:00, git hash: 3ce520221d0240229c86 2b122d2b06c12a625732 2024-01-28 01:11:50,743 INFO org.eclipse.jetty.server.AbstractConnector: Started ServerConnector@553dd1e0{HTTP/1.1,[http/1.1]}{0.0.0.0:41414} 2024-01-28 01:11:50,743 INFO org.eclipse.jetty.server.Server: Started @2563ms 2024-01-28 01:11:51,114 INFO org.apache.kafka.common.utils.AppInfoParser: Kafka version: 2.2.1-cdh6.3.2 2024-01-28 01:11:51,117 INFO org.apache.kafka.common.utils.AppInfoParser: Kafka commitId: null 2024-01-28 01:11:51,119 INFO org.apache.flume.instrumentation.MonitoredCounterGr oup: Monitored counter group for type: SINK, name: DriverCarInfo_KafkaSink: Succ essfully registered new MBean. 2024-01-28 01:11:51,121 INFO org.apache.flume.instrumentation.MonitoredCounterGr oup: Component type: SINK, name: DriverCarInfo_KafkaSink started 2024-01-28 01:11:51,161 INFO org.apache.kafka.clients.Metadata: Cluster ID: lJYz nSt_QWWTqgLn1n7JwA 이런 상황에서 원인이 무엇인지와 해결 방법에 대해 알려주시면 감사하겠습니다. 항상 강의를 통해 많은 것을 공부하고 있습니다.감사합니다.
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
train파일 업로드 중에 해당 경로가 없다고 뜹니다
cannot access '/FileStore': No such file or directory
-
미해결데이터분석에 ChatGPT 강림
Chat GPT 분석 에러 문의
안녕하세요, 강사님강의를 들으면서 Chat GPT에 바로 적용해보고 있는데요.다음과 같은 질문을 했을 때, Chat GPT에서 분석 오류가 뜨는데, 해결 방법이 있을까요?[질문]1. 데이터셋에 있는 범주형 변수를 원-핫 인코딩으로 변환해주세요."범주형 변수 변환 후, 모델 학습에 어떤 영향을 미치는지 설명해줄 수 있나요?"2. 원-핫 인코딩 후의 데이터 구조와 변화된 값들을 보여주세요.[응답]죄송합니다, 원-핫 인코딩을 수행하는 과정에서 기술적 문제가 지속적으로 발생하고 있습니다. 이로 인해 현재로서는 원-핫 인코딩 후의 데이터 구조와 변화된 값을 직접 보여드릴 수 없습니다.[질문]1. 'Fare'변수에서 이상치를 어떻게 처리할지 추천해주세요.2. Chat GPT가 추천하는 이상치 처리 후 데이터셋의 변화를 보여주세요.[응답]현재 기술적인 문제로 인해 'Fare' 변수의 이상치 처리 후 데이터셋의 변화를 직접 보여드릴 수 없습니다. 하지만, 이상치를 처리하는 추천 방법에 대해 설명드릴 수 있습니다:[질문]그러면 너가 추천하는 모델로 모델링을 해주고, 성능이 어떻게 나왔는지 정리해줘. *결과에 대해서는 표로 정리해줘[응답]현재 기술적인 문제로 인해 모델링을 직접 실행하고 그 결과를 보여드리는 것이 어렵습니다. 그러나 일반적으로 랜덤 포레스트 모델을 사용하여 타이타닉 데이터셋에 대한 생존 예측을 수행하고 성능을 평가하는 과정을 설명드릴 수 있습니다.[질문]"우리의 모델이 얼마나 성능이 좋은지 Test 데이터를 통해 확인해줘"[응답]현재 제가 직접 모델링을 수행하거나 테스트 데이터를 사용하여 모델의 성능을 평가하는 것은 불가능합니다. 그러나 일반적인 머신 러닝 프로젝트에서 테스트 데이터를 사용하여 모델의 성능을 평가하는 과정을 설명드릴 수 있습니다. 유료버젼 Chat GPT 4 결제해서 사용하는데도 안되는게 많아서 걱정입니다..
-
해결됨빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵
수업에 쓰인 코드 관련
안녕하세요. 강사님.좋은 강의 이번에도 감사드려요~현재 우분투로 이미지를 만들고 있는데명령어를 타이핑 시 종종 오타가 있습니다.그래서 명령어를 혹시 모아둔 곳이 있는지 질문드립니니다. 아래에 어떤 분께서 비슷한 질문을 남기셔서프로모션도 봤는데 ,전자책의 위치현재 code lab 의 코드들 위치프로모션의 구체적인 방법등이 잘 이해가 되지 않습니다.감사합니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
스파크 아키텍쳐 관련 문의 드립니다.
스파크 아키텍쳐 부분을 보는데 Yarn Runtime Architecture 에서 4.Negotiate resources 이후 5과정을 갈때 속해 있던 Slave Node 에서 실행되는게 아니라 굳이 다른 Slave Node 로 가서 실행을 하는데 이유가 있나요? 4.Negotiate resources 과정을 리소스 분배? 라우팅 같은 개념으로 이해를 하면 될까요?
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
강의 연장 문의 드립니다.
안녕하세요. 강사님. 훌륭한 강의 잘 들었습니다. (금일 완강했어요 -_- v)강의를 듣다가 좋아서 클러스터 구축도 같이 신청하였습니다. 회사일을 병행하다 보니 오늘 막 강의를 다 들었는데 마지막 ( ELK /EFK/Docker 관련 등등) 은 제가 하는 일이라서 쉽게 들었습니다. 그런데 데이터 pyspark 같은 것은 여전히 생소하기만 합니다. 그래서 강의 연장을 부탁드립니다. 좋은 강의라 몇번을 더 보면서 레퍼런스 삼으려고 합니다. 부탁드립니다. 그간 정말 재미있었어요. 이제 클러스터도 보러 가려구요. 감사합니다.
-
미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
감성분석
강사님 안녕하세요. 책보면서 강의 열심히 듣고 있습니다. 제가 한국어 텍스트 감성분석을 프로젝트로 하고 싶은데요.현 강의 목차에는 감성분석이 없더라고요.제가 놓친 걸까요?이번 강의에서 감성분석을 다루는 부분이 있다면 알려주시면 감사하겠습니다.아직 없다면, 감성분석 강의도 듣고 싶습니다.항상 감사합니다:)!
-
미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
해당 강의 내용 영문에 적용하는 방법
한국어 분석 말고, 영어 분석은 어떻게 다른지 업데이트 해주 실수 있을까요?
-
미해결[핵집] 2024 빅데이터 분석기사(필기)_과목 1~2
강의 통합본 요청드립니다
안녕하세요수업자료 통합본 요청 드리고자 합니다. starktype@gmail.com
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
LabelEncoder를 실행하면 'ValueError: y should be a 1d array, got an array of shape (1818, 10) instead.라는 error가 발생합니다.
안녕하세요? 아래와 같이 LabelEncoder를 실행하면 'ValueError: y should be a 1d array, got an array of shape (1818, 10) instead.라는 error가 발생합니다. '왜 그럴까요? df2라는 데이터프레임에서 object인 column만 선택해서 똑같이 했습니다. 어떻게 해야 하는지 알려주시면 대단히 감사하겠습니다. from sklearn.preprocessing import LabelEncodercols=['Gender', 'family_history_with_overweight', 'FAVC', 'CAEC', 'SMOKE', 'SCC', 'CALC', 'MTRANS', 'NObeyesdad', 'transportation'] le=LabelEncoder()for col in [cols]: df2[col]=le.fit_transform(df2[col])
-
미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
PDF기준으로 LLM에게 답변/요약을 요청할때 가능한 방법 문의
여러개의 pdf 파일기준으로 LLM에게 답변하거나 요약하라고 할때pdf 데이터를 vectordb에 임베딩하여 조회하는 방법만 알고있었는데 pdf를 txt로 변환후에 langchain 함수를 이용하고 vectordb를 이용하지 않아도LLM이용하여 답변이 가능하던데요. 어떤게 좋은 방법일까요?from langchain.chains.question_answering import load_qa_chainfrom langchain.chains import AnalyzeDocumentChainqa_chain = load_qa_chain(model, chain_type="map_reduce")qa_document_chain = AnalyzeDocumentChain(combine_docs_chain=qa_chain) 데이터가 많으면 vectordb를 쓰고, 많지 않으면 langchain 함수를 이용하는건가요?다른 방법은 또 어떤게 있을까요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
[공유] DNS_PROBE_FINISHED_NXDOMAIN 문제시
저는 macbook을 사용중이며 intel-chip입니다.M1은 여러차례 자체구성을 시도 하였지만, centOS는 7이였나 8이상부터 m1에서도 설치가 되도록 arm based ios를 제공하였지만 설치를 실패하였고, reddit과 git 커뮤등의 centOS의 설치 이미지를 m1칩에 맞게 리빌드 등의 작업이 필요하다는 등으로 시간이 너무 소요되고 강의를 듣기전 지칠듯하여 skip하였습니다. 제공받은 VM파일로 구성후 크롬에서 cloudera manager 접근시 DNS_PROBE_FINISHED_NXDOMAIN의 문제가 발생하였고, 높은 확율로 hosts의 오타를 의심하였지만 오타는 아니였습니다.DNS 캐시 및 초기화를 진행하였고, 크롬의 캐시 또한 삭제하였습니다. 그래도 동일한 오류로 접근이 불가하여ping과 telnet을 날리니 핑은 날라가나 telnet으로 포트와 함께 날릴시 접근이 불가한것을 확인하였습니다. 올바른 해결방법일지는 모르겠지만 해당 포트가 접근이 불가능하다 판단하여, VM server01에 네트워크 설정에서 > 어댑터 1 > 고급 > 포트 포워딩 > 호스트포트 7180 / 게스트포트 7180으로 세팅하여 정상 접근 확인하였습니다. 저와 같이 이러한 문제를 만나시는 분이 계시면 조금 더 빠른 해결 방법을 찾길 바라며 글 남깁니다. P.S. BigD님 혹 해당 방법이 올바른 방법이 아니라면 잘못된 정보라 표시 부탁드립니다. 제가 아직 강의 초반이기에 해당 설정을 건드리어 후반부의 강의에 영향을 끼칠지에 대한 확신이 없습니다ㅠㅠ
-
미해결TEXTOM SV로 해보는 빅데이터 분석 (정제부터 시각화까지)
concor 분석
UCINET프로그램을 활용한 분석을 교육 영상을 보며 연습하고 있었습니다. concor 분석을 하는 과정에서 input dataset 입력한 후 output dataset을 3가지 입력하는 과정에서 문제가 발생합니다. 폴더를 열면 파일형식에 Datasets로만 뜨네요. 교육 영상처럼Datasets(*.##h)라고 뜨지 않네요. 그래서 오류가 나는 것 같은데...이럴 결우 어떻게 해야 하나요? 폴더 속 문서는 모두(*.##h)로 뜹니다.