묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
수강기간연장가능할까요?
생각보다 진도를 못나가서 혹시 연장이 가능한가요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
클라우데라 ERR_SSL_PROTOCOL_ERROR 문제
안녕하세요VM환경구성 중 클라우데라가 접속이 안되어 질문드립니다.기존에 잘 접속이 되었었는데,CPU와 메모리 문제로 가상서버 2개를 구동하면컴퓨터가 다운이 되어 작업이 불가능한 상태였습니다그래서 램16GB, SSD 1TB를 추가하였는데요이후에 가상서버를 실행 후 클라우데라 접속이 되지 않습니다ㅜㅜserver01.hadoop.com:7180입력 후 화면기존에 C드라이브에 프로젝트 서버 파일과 버츄얼박스를 깔아두었는데 D드라이브로 옮겨 실행하니 되지 않았습니다.다시 모두 지우고, C드라이브에 프로젝트파일, 버츄얼박스 설치후 실행하여도 동일하게 프로토콜 에러가 나네요ㅜ 구글링을 해보았지만 .. 초반에 디스크 공간이 부족한 상태에서도 클라우데라 매니저 접속이 되었던걸 생각하면 어떤게 무엇인지 잘 파악이 되지 않습니다.버츄얼박스 서버2개 실행후 컴퓨터 성능 현황은 아래와 같습니다 메모장으로 hosts 파일 수정도 완료한 상태입니다. 버츄얼박스는 커뮤니티에 이전분들이 올려주신 질의내용 참고하여 제일 최근 버전(VirtualBox-7.0.20)으로 사용하고 있습니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
Zeppelin 쿼리 도중 fb303 에러
안녕하세요. Zeppelin 노트북을 통해, 쿼리를 날리는 실습을 하고 있습니다. SHOW TABLES 등과 같은 쿼리는 잘 작동하고 있습니다.하지만, 몇몇 테이블에 대해 아래와 같이 접근을 시도하면 그 이후 모든 쿼리가 작동하지 않습니다.예를들어 3개의 테이블이 있다고 하면, managed_smartcar_drive_info1managed_smartcar_drive_info2managed_smartcar_drive_info3 managed_smartcar_drive_info1 에 대해SELECT * FROM managed_smartcar_drive_info1 LIMIT 10은 몇 번을 시도하여 잘 되지만, SELECT * FROM managed_smartcar_drive_info2 LIMIT 10혹은SELECT * FROM managed_smartcar_drive_info3 LIMIT 10에 대해 시도하면 fb303 에러가 뜨고 있습니다. 그 후 SELECT * FROM managed_smartcar_drive_info1 LIMIT 10를 다시 실행하면, 동일하게 에러가 발생합니다. putty를 통한 HIVE, HUE를 통한 임팔라와 하이브에서 모두 정상적으로 작동하지만, Zeppelin에서만 문제가 발생하고 있습니다. restart를 하여도, 기존에 정상 작동하던 테이블 및 쿼리만 정상작동하며, 오류를 야기하는 테이블 및 쿼리는 다시 시도해도 동일한 결과가 나오고 있습니다. thrift, fb303모두 종속성을 설정해도 잘 안되는 것 같습니다 ㅠㅠ
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
수강 기한 연장이 가능할까요?
안녕하세요 강사님어느새 수강기한이 얼마 남지 않아서..혹시 연장할 수 있는 방법이 있는지 문의드립니다.좋은 강의 감사드립니다!
-
미해결
Hadoop HA Datanode java.net.UnknownHostException
Hadoop Namenode HA 구성을 했습니다.core-site.xml에 fs.defaultFS를 hdfs://hadoop-ha로 설정했습니다. <property> <name>fs.defaultFS</name> <value>hdfs://hadoop-ha</value> </property> WebHDFS REST API 중 파일 생성하는 API를 Active 상태의 Namenode 주소로 호출했는데,{ "RemoteException": { "exception": "IllegalArgumentException", "javaClassName": "java.lang.IllegalArgumentException", "message": "java.net.UnknownHostException: hadoop-ha" } }위와 같은 에러가 발생합니다.⬇ 호출한 API[ PUT ] http://{server_ip}:{active_namenode_port}/webhdfs/v1/testB?op=CREATE 마찬가지로 datanode의 내부 쉘에서 hdfs dfs -ls /와 같은 명령어를 입력하면,2024-08-05 06:08:49,260 WARN fs.FileSystem: Failed to initialize filesystem hdfs://hadoop-cluster: java.lang.IllegalArgumentException: java.net.UnknownHostException: hadoop-ha-ls: java.net.UnknownHostException: hadoop-ha에러가 발생합니다. Hadoop HA 구성은 본 서버에 namenode1, namenode2, datanode1, datanode2, datanode3을docker compose로 같은 네트워크 내에서 동작하도록 5개 컨테이너를 생성하여 실행하였습니다. 각 컨테이너의 /etc/hosts에 active 상태의 namenode 주소를active_namenode_container_ip hadoop-ha이렇게 하나씩 명시하면 API 호출도 잘 되고 명령어 실행도 잘 되지만,active namenode가 죽고 standby namenode가 active 상태가 되면 동일한 에러가 발생합니다. hadoop-ha를 active 상태의 namenode ip와 자동으로 연결되도록 하는 방법은 없나요? 🥲🥲 ha 설정은 namenode가 죽었을 때 정상적으로 돌아가게 하기 위한 구성인데,/etc/hosts를 수동으로 명시하는 방법은 맞지 않은 거 같아서 질문 남깁니다..( ᐪ ᐪ )
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
강의 연장 문의
안녕하세요, 수강 기한이 얼마 안 남았는데, 기간 연장이 가능할까요?미리 감사드립니다
-
미해결Data Engineering Course (1) : 빅데이터 하둡 직접 설치하기
자바 환경설정 PATH 연결
안녕하세요. 수업 잘 듣고 있습니다.이 영상 4분에 자바 PATH 설정 하는 부분에 /usr/lib/jvm/jdk1.8.0_271 이 폴더 안에 /etc/environment 가 없어서 vi 혹은 vim 이 적용되지 않습니다. 버전이 업그레이드 된것인가요? 아니면 제가 잘못한 것 인가요? 혹은 환경 변수 설정할 수 있는 다른 방법이 있을까요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
듣고있는 와중에 질문있습니다.
이 과정은 가이드 주시는데로 모든 프로그램을 다운받고 같이 따라해야 이수되는 교육인가요? 자바 다운로드에 들어가도 알려주신 버젼 대비 훨씬 더 업데이트 된 버전만 가능한 것 같네요. 꼭 정확하게 일치된 버젼을 설치해야 하는지요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
회귀분석 관련 질문 드립니다.
R을 이용한 회귀분석 강의에서 smartcarMaster2Income에 있는 capacity를 feature로 income이라는 lable을 예측하는 것으로 이해했는데 분석에 사용된 데이터를 통해 얻은 모델을 검증하는 과정에서 Test파일을 가지고 predict를 하고나서 동일한 파일과 비교를 하는게 잘 이해가 되지 않아서 질문 드립니다. 모델을 검증?추론?할때는 lable값이 없는 데이터를 넣고 그 결과가 실제데이터(test파일)과 얼마나 가까운지를 확인하는 것이 아닌가요?
-
미해결Data Engineering Course (1) : 빅데이터 하둡 직접 설치하기
동영상 재생이 안됩니다.
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 동영상 재생이 너무 느립니다. 그나마 엣지에서는 버벅 거리면서 돌아가긴 했는데, 크롬에 최적화 되어 있다고 해서 크롬으로 해보니 동영상 재생 자체가 안되네요. 계속 로딩만 하고..해결 방법이 없을까요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
tail -f flume-cmf-flume-AGENT-server02.hadoop.com.log 오류
tail -f flume-cmf-flume-AGENT-server02.hadoop.com.log 했을때 Creating이나 강의에 말씀한 내용 나오지않고, 아래처럼 나오기만 하는데 Flume Config파일도 정상적이고 재시동도 해봤는데 안되는데 또 조치해야할게 있을까요?
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
wb.json , pandas.json 파일을 jupyter notebook 환경에서 read 가 안됩니다..ㅠ
현재 AWS Glue 4.0 docker 이미지를 내려 받아 pyspark 커널에서 사용 중이며 섹션 8 판다스 환경에서 airbnb..csv, analyzed_americsv_2023.csv 파일은 문제 없이 잘 열리는데 Json 파일만 열리지 않습니다..ㅠ Renderer Failure: wb.jsonUnexpected non-whitespace character after JSON at position 6858 (line 2 column 1) file_name = "wb.json" df = sqlContext.read.json(file_name) df.printSchema pyspark.sql.utils.AnalysisException: Path does not exist: file:/home/glue_user/workspace/wb.json __ file_name = "pandas.json" df = sqlContext.read.json(file_name) df.printSchema return_value = get_return_value( File "/home/glue_user/spark/python/pyspark/sql/utils.py", line 196, in deco raise converted from None pyspark.sql.utils.AnalysisException: Path does not exist: file:/home/glue_user/workspace/pandas.json pandas.json 윈도우 로컬 환경에서 열면두번째 행에서 첫번째 에서 빨간줄이 나옵니다 혹시 각 딕셔너리를 담는 변수는 따로 필요가 없을까요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
FileZilla 권한 거부
강사님하신대로 빠른연결하면 home/bigdata가 아닌 /로 들어가지고 home을 눌러서 bigdata로 들어가려해도 권한 수정되어있는데 제가 뭔가 빠뜨린건가요?bigdata 권한 수정해주면 될 것 같긴한데 추후에 문제가 생길까봐 문의드립니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
5. Cloudera Manager 구성 시 오류
강의와 똑같이 설정하고 돌렸는데 위와 같은 오류들이 발생하는데 해결 방법을 모르곗습니다 ㅠㅜ
-
미해결15일간의 빅데이터 파일럿 프로젝트
클라우데라 접속 중 블루스크린 오류
안녕하세요. 아래 질문 글을 실수로 수정 대신 삭제를 눌러 다시 질문을 남깁니다.호스트 파일을 다음과 같이 구성하고 가상 머신을 작동시킨 후에 크롬을 통해 URL을 접속시도를 하면 블루스크린이 뜨며 컴퓨터가 다운됩니다. ㅠㅠ아래는 가상머신화면 과 호스트 파일을 첨부하여 올립니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
클라우데라 매니져 접속하기 오류
안녕하세요. 클라우데라 매니져 접속하기를 진행하는 도중 오류가 발생했습니다. server01.hadoop.com:7180 URL로 접속시 다음과 같이 접속이 되지 않고,IP 주소로 접속을 시도를 해보았는데, 블루스크린이 뜨며 컴퓨터가 종료됩니다.hosts 파일은 다음과 같이 수정하였습니다.
-
미해결Data Engineering Course (1) : 빅데이터 하둡 직접 설치하기
sbin/start-dfs.sh Permission denied 에러
작업 중 /usr/lib/hadoop/logs 경로를 건든 적이 없는데..ssh를 이해 하지 못하는 상황에서 문제가 생긴 걸까요..? ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys export PDSH_RCMD_TYPE=ssh ssh user@localhost user@localhost: Permission denied (publickey). sbin/start-dfs.shStarting namenodes on [localhost]localhost: WARNING: /usr/lib/hadoop/logs does not exist. Creating.localhost: mkdir: cannot create directory ‘/usr/lib/hadoop/logs’: Permission deniedlocalhost: ERROR: Unable to create /usr/lib/hadoop/logs. Aborting.Starting datanodeslocalhost: WARNING: /usr/lib/hadoop/logs does not exist. Creating.localhost: mkdir: cannot create directory ‘/usr/lib/hadoop/logs’: Permission deniedlocalhost: ERROR: Unable to create /usr/lib/hadoop/logs. Aborting.Starting secondary namenodes [tghong-cluster-public-temp-m]tghong-cluster-public-temp-m: WARNING: /usr/lib/hadoop/logs does not exist. Creating.tghong-cluster-public-temp-m: mkdir: cannot create directory ‘/usr/lib/hadoop/logs’: Permission deniedtghong-cluster-public-temp-m: ERROR: Unable to create /usr/lib/hadoop/logs. Aborting.
-
미해결15일간의 빅데이터 파일럿 프로젝트
파일질라 다운로드 오류
안녕하세요파일질라 exe 파일을 열면이와 같은 오류가 발생합니다. 어떻게 해결해야하나요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
hue 설치 중 psycopg2 설치 오류
휴 설치 강의에서 실습 중 psycopg2 설치 오류가 발생합니다. 해결방법이 있을지 문의드립니다.
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
[HDFS] Data integrity; checksum 관련 질문
안녕하세요. 현재 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술 수업을 수강 중인 학생입니다. HDFS의 Data integrity 부분의 강의를 듣다 궁금한 점이 생겨서 질문 올립니다.checksum은 transmission 과정에서 발생하는 에러로 인해 data가 corrupt 되었는지를 destination에서 판단하기 위해 사용한다고 이해했습니다.근데 "transmission 과정에서 data를 corrupt 시킬만한 에러가 발생했다면 checksum 값도 함께 corrupt될 수도 있는거 아닌가"라는 궁금증이 생겼습니다. 제가 궁금한 점은 아래와 같이 2가지 입니다:1. transmission 과정 중 checksum 값도 corrupt될 가능성이 있는지만약 그렇다면 그런 경우를 대비한 별도의 메커니즘이 존재하는지 답변에 미리 감사드립니다.