묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결15일간의 빅데이터 파일럿 프로젝트
클라우데라 ERR_SSL_PROTOCOL_ERROR 문제
안녕하세요VM환경구성 중 클라우데라가 접속이 안되어 질문드립니다.기존에 잘 접속이 되었었는데,CPU와 메모리 문제로 가상서버 2개를 구동하면컴퓨터가 다운이 되어 작업이 불가능한 상태였습니다그래서 램16GB, SSD 1TB를 추가하였는데요이후에 가상서버를 실행 후 클라우데라 접속이 되지 않습니다ㅜㅜserver01.hadoop.com:7180입력 후 화면기존에 C드라이브에 프로젝트 서버 파일과 버츄얼박스를 깔아두었는데 D드라이브로 옮겨 실행하니 되지 않았습니다.다시 모두 지우고, C드라이브에 프로젝트파일, 버츄얼박스 설치후 실행하여도 동일하게 프로토콜 에러가 나네요ㅜ 구글링을 해보았지만 .. 초반에 디스크 공간이 부족한 상태에서도 클라우데라 매니저 접속이 되었던걸 생각하면 어떤게 무엇인지 잘 파악이 되지 않습니다.버츄얼박스 서버2개 실행후 컴퓨터 성능 현황은 아래와 같습니다 메모장으로 hosts 파일 수정도 완료한 상태입니다. 버츄얼박스는 커뮤니티에 이전분들이 올려주신 질의내용 참고하여 제일 최근 버전(VirtualBox-7.0.20)으로 사용하고 있습니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
Zeppelin 쿼리 도중 fb303 에러
안녕하세요. Zeppelin 노트북을 통해, 쿼리를 날리는 실습을 하고 있습니다. SHOW TABLES 등과 같은 쿼리는 잘 작동하고 있습니다.하지만, 몇몇 테이블에 대해 아래와 같이 접근을 시도하면 그 이후 모든 쿼리가 작동하지 않습니다.예를들어 3개의 테이블이 있다고 하면, managed_smartcar_drive_info1managed_smartcar_drive_info2managed_smartcar_drive_info3 managed_smartcar_drive_info1 에 대해SELECT * FROM managed_smartcar_drive_info1 LIMIT 10은 몇 번을 시도하여 잘 되지만, SELECT * FROM managed_smartcar_drive_info2 LIMIT 10혹은SELECT * FROM managed_smartcar_drive_info3 LIMIT 10에 대해 시도하면 fb303 에러가 뜨고 있습니다. 그 후 SELECT * FROM managed_smartcar_drive_info1 LIMIT 10를 다시 실행하면, 동일하게 에러가 발생합니다. putty를 통한 HIVE, HUE를 통한 임팔라와 하이브에서 모두 정상적으로 작동하지만, Zeppelin에서만 문제가 발생하고 있습니다. restart를 하여도, 기존에 정상 작동하던 테이블 및 쿼리만 정상작동하며, 오류를 야기하는 테이블 및 쿼리는 다시 시도해도 동일한 결과가 나오고 있습니다. thrift, fb303모두 종속성을 설정해도 잘 안되는 것 같습니다 ㅠㅠ
-
미해결15일간의 빅데이터 파일럿 프로젝트
듣고있는 와중에 질문있습니다.
이 과정은 가이드 주시는데로 모든 프로그램을 다운받고 같이 따라해야 이수되는 교육인가요? 자바 다운로드에 들어가도 알려주신 버젼 대비 훨씬 더 업데이트 된 버전만 가능한 것 같네요. 꼭 정확하게 일치된 버젼을 설치해야 하는지요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
회귀분석 관련 질문 드립니다.
R을 이용한 회귀분석 강의에서 smartcarMaster2Income에 있는 capacity를 feature로 income이라는 lable을 예측하는 것으로 이해했는데 분석에 사용된 데이터를 통해 얻은 모델을 검증하는 과정에서 Test파일을 가지고 predict를 하고나서 동일한 파일과 비교를 하는게 잘 이해가 되지 않아서 질문 드립니다. 모델을 검증?추론?할때는 lable값이 없는 데이터를 넣고 그 결과가 실제데이터(test파일)과 얼마나 가까운지를 확인하는 것이 아닌가요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
tail -f flume-cmf-flume-AGENT-server02.hadoop.com.log 오류
tail -f flume-cmf-flume-AGENT-server02.hadoop.com.log 했을때 Creating이나 강의에 말씀한 내용 나오지않고, 아래처럼 나오기만 하는데 Flume Config파일도 정상적이고 재시동도 해봤는데 안되는데 또 조치해야할게 있을까요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
FileZilla 권한 거부
강사님하신대로 빠른연결하면 home/bigdata가 아닌 /로 들어가지고 home을 눌러서 bigdata로 들어가려해도 권한 수정되어있는데 제가 뭔가 빠뜨린건가요?bigdata 권한 수정해주면 될 것 같긴한데 추후에 문제가 생길까봐 문의드립니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
5. Cloudera Manager 구성 시 오류
강의와 똑같이 설정하고 돌렸는데 위와 같은 오류들이 발생하는데 해결 방법을 모르곗습니다 ㅠㅜ
-
미해결15일간의 빅데이터 파일럿 프로젝트
클라우데라 접속 중 블루스크린 오류
안녕하세요. 아래 질문 글을 실수로 수정 대신 삭제를 눌러 다시 질문을 남깁니다.호스트 파일을 다음과 같이 구성하고 가상 머신을 작동시킨 후에 크롬을 통해 URL을 접속시도를 하면 블루스크린이 뜨며 컴퓨터가 다운됩니다. ㅠㅠ아래는 가상머신화면 과 호스트 파일을 첨부하여 올립니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
클라우데라 매니져 접속하기 오류
안녕하세요. 클라우데라 매니져 접속하기를 진행하는 도중 오류가 발생했습니다. server01.hadoop.com:7180 URL로 접속시 다음과 같이 접속이 되지 않고,IP 주소로 접속을 시도를 해보았는데, 블루스크린이 뜨며 컴퓨터가 종료됩니다.hosts 파일은 다음과 같이 수정하였습니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
파일질라 다운로드 오류
안녕하세요파일질라 exe 파일을 열면이와 같은 오류가 발생합니다. 어떻게 해결해야하나요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
hue 설치 중 psycopg2 설치 오류
휴 설치 강의에서 실습 중 psycopg2 설치 오류가 발생합니다. 해결방법이 있을지 문의드립니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
각 서버에 설치하는 프로그램은 어떻게 정하나요?
안녕하세요!강의 듣다 궁금한 점이 몇 가지 있어 질문 드립니다.먼저 강의에서는 빅디님께서 각 서버에 설치할 프로그램을 알려주셔서 편하게 설치는 했는데, 어떤 기준으로 설치할 프로그램을 선택하고 각 서버에 설치할 프로그램을 나눠서 아키텍처를 짜셨는지 빅디님의 관점?이 궁금합니다.예를 들어 postgreSQL는 서버 1에만 설치하고, HBase Region 같은 경우는 서버 세 곳 모두 설치 한 이유와, 다른 RDBMS 중에서도 postgreSQL을 선택한 특별한 이유 같은거요..!그리고 서비스 중간에 서버를 늘리려고 할 때 추가해야 하는 서버 수는 어떻게 정하나요? 모니터링 하다가 서버 전체 메모리의 몇 퍼센트를 차지하게 되면 서버를 늘려야 한다 이런 기준이 있을까요? 비용은 제외하고 기술적인 부분에서 기준으로 세울만한 건 어떤게 있는지 궁금합니다. 현업에서는 프로젝트 특성마다 다 다르게 설계를 해야 할 테고 3V 관점으로 봐야 한다는 건 알겠는데 조금 더 구체적인 예시가 있으면 이해하는데 도움이 많이 될 것 같습니다! 감사합니다:]
-
미해결15일간의 빅데이터 파일럿 프로젝트
파일럿 프로젝트 pc 환경 구성 질문입니다.
혹시 docker를 활용해서 실습환경을 구축하여도 문제가 있을까요?
-
해결됨15일간의 빅데이터 파일럿 프로젝트
고사양 server03 이미지
안녕하세요고사양 pc에서는 server01, 02, 03 이 필요한 것으로 알고 있는데 혹시 server03은 어디서 받을 수 있을까요? 섹션 1~2에 업로드된 첨부파일 확인했는데 server03 이미지를 찾지 못하여 문의 드립니다!
-
해결됨15일간의 빅데이터 파일럿 프로젝트
VirtualBox-5.0.40 실행불가
VirtualBox-5.0.40윈도우에서는 실행이 안된다고 에러메시지가 뜹니다. 다른분이 질문하신 게시글에서 버츄얼박스는 '흰색남자'님의 OS(Windows 10)에 최적화된 버젼을 설치해 사용 하시면 됩니다. 라고 하셨는데 그 글도 삭제된 것 같아서요 VirtualBox-5.0.40-115130-Win다른 방안을 알려주시면 감사하겠습니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
클라우데라 ERR_CONNECTION_REFUSED 문제
안녕하세요 VM 통합 환경 구성 중입니다.현재 인텔 MAC 사용중이고 ,HOST,NAC 설정 까지 다 해주었는데 연결이 안돼서 진행을 못하고 있습니다 . ㅠ추가로 putty 접속도 안되네요.. 원인이 뭘까요??..확인 한번 부탁드립니다..++ 수정네트워크를 다음과 같이 변경후 서버 재시작하였더니이제 refused는 뜨지 않지만 time out 에러가 뜨네요 ㅠputty도 마찬가지입니다. ++ 수정 server02 는 현재 ssh 접속이 가능합니다..!정확하게 host정보를 입력한거 같은데 server01은 접속이 안되네요 ! ++ server 01 에서 바로 서비스체크 해보았습니다.클라우데라 매니저 잘 작동 중이고 ,, 리스타도 해보았는데여전히 http://server01.hadoop.com/ 치고 들어가면 refused 뜨네요 ㅜㅜ
-
미해결15일간의 빅데이터 파일럿 프로젝트
managed_smartcar_status_info 테이블
안녕하세요.제가 최초 학습/실습했을 때도, 겪었던 문제인데, 계속 해결을 하지 못해 해당 문제를 여쭙습니다. [현재 문제상황]먼저 문제는, Oozie를 강제 실행했을 때, managed_smartcar_status_info 테이블은 생성되지만, 빈 테이블로, 내부에 아무 데이터가 조회되지 않는 것입니다. 제가 오타가 있을까 싶어, 테이블 삭제에 여러 날을 데이터 생성부터 재시도를 4..5번 정도 했는데, 모두 동일하게 데이터가 조회되지 않았습니다. 우선, 제가 세팅한 값과 생성되어 cat-batch-log 에 저장된 데이터의 이미지를 보여드리겠습니다.제가 작업을 실행한 것은 금일(2024-02-08)이고, 데이터 생성 시, 입력한 일자는 2022-03-22입니다. 따라서, 강의에서 말씀하신 용어를 기준으로, working_date와 biz_date는 각각, 20240208, 20220322입니다. Oozie에 task를 할당할 때는, download한 쿼리를 그대로 복사해서 붙여서 task를 정의했습니다. 이는 오타가 발생할 수 없고, 여러번 시도했었던 부분이기 때문에 해당 부분에는 에러가 없을 것으로 기대하고 있습니다. task에 대한 scheduling은 아래와 같이 구성하였습니다.Oozie를 강제 실행하였을 때, working_date에는 오늘 일자인 20240208을 입력하고, [저장] - [실행]을 했습니다. 실행 과정에서 에러는 발생하지 않았고, 로그에도 별다른 특이사항은 없었습니다. 이 후, 새로운 테이블 managed_smartcar_status_info이 생성되었음을 refresh를 통해 확인하였으나, 해당 테이블을 조회하면, 데이터가 조회되지 않는 것이 ... 일주일동안 해결하지 못하는 트러블 ...입니다.테이블을 조건절(where) 없이 조회했을 때도, 조회된 데이터가 마찬가지로 없었기 때문에 이 또한, 조건절 오타로 인해 조회되지 않는 것은 아닌 것으로 추측됩니다. [현재 확인된 부분]hdfs 쿼리를 통해 정상적으로 파일이 생성되었음을 확인했습니다.redis에서 데이터가 저장되어있음을 확인했습니다.hue를 통한 hbase 브라우저에 DriveCarInfo 내 key값을 이용하여 데이터를 조회했을 때, 조회되는 부분을 확인하였습니다. [개인적인 의견]HiveQL/그림-6.71.hql 내 작성된 쿼리를 통해 현재 제가 겪고 있는 문제를 생각해보았는데,현재 아래 두 쿼리는 조회 값이 NULL이 아니고, 충분히 많은 데이터가 조회됩니다. 그런데,select distinct car_number from smartCar_master_over18; select distinct car_number from SmartCar_Status_Info where wrk_date = '20240208';그런데, insert 내 select 부분만 추출하여 실행하면,select t1.car_number, t1.sex, t1.age, t1.marriage, t1.region, t1.job, t1.car_capacity, t1.car_year, t1.car_model, t2.tire_fl, t2.tire_fr, t2.tire_bl, t2.tire_br, t2.light_fl, t2.light_fr, t2.light_bl, t2.light_br, t2.engine, t2.break, t2.battery, t2.reg_date, substring(t2.reg_date, 0, 8) as biz_date from SmartCar_Master_Over18 t1 join SmartCar_Status_Info t2 on t1.car_number = t2.car_number and t2.wrk_date = '20240208';조회가 되지 않는다는 것을 알게 되었습니다. 위 쿼리를 조금 더 간략히 하면,select distinct t.car_number from smartcar_master_over18 t join smartcar_status_info son t.car_number = s.car_number where s.wrk_date = '20240208'; 가 되고, 이 또한 조회된 값이 없습니다. 현재 제가 학습을 하면서 이해를 하기론, smartcar_status_info 데이터는 flume에 의해 입수된 로그 데이터이고, smartcar_master_over18는 특정 조건에 의해 redis에 저장된 일부 데이터로 알고 있는데, 이렇게 되면,smartcar_master_over18 이 smartcar_status_info 에 포함되는 관계가 필연적으로 되어야하는게 아닌가하는게 제 생각입니다. 만약 제 생각이 맞다면, 로그가 잘못 생성되었다는 뜻인데, 혹시 강사님께선 제가 생각하는 것 외에 확인해야할 부분이 있다고 생각하신다면, 조언해주시길 부탁드립니다. 항상 친절한 가르침 감사합니다.즐거운 연휴 보내시고, 새해 복 많이 받으시길 바랍니다.감사합니다. """(마음의 소리)많이 바쁘시겠지만, 가능하다면 오늘 해결 방법 및 조언을 듣고, 긴 연휴.. 프로젝트를 마무리 및 정리를 하고 싶습니다... !! ㅠㅠ """
-
미해결15일간의 빅데이터 파일럿 프로젝트
Cloudera에서 식별되는 HDFS, HBase 에러
안녕하세요지난 2월 1일, Ooize를 통해 table을 create, alter, insert에 대한 task 정의하고, workflow를 실행하고, 아래와 같은 쿼리를 실행했습니다.SELECT * FROM MANAGED_SMARTCAR_STATUS_INFO WHERE BIZ_DATE = '20220201' LIMIT 10;,그러나, 중간의 파일명이 꼬였는지, 조회값이 나오지 않았습니다(제가 자투리 시간을 이용하여 공부하다보니, 20220130, 20220131, 20220201에 대한 log 파일이 모두 존재한 상황이었습니다. 해서, 맨 처음 flume 단계부터 다시 실행하기 위해 실행되는 모든 service를 종료하고, cloudera를 다시 실행하였더니, 첨부된 사진과 같이 HDFS와 HBase에 에러가 감지 되었습니다. 현재 shell을 통해 확인하니, HDFS는 에러가 있었음에도 정상적으로 파일을 저장하였지만, HBase는http://server02.hadoop.com:8888/에 접속이 되지 않아, 이후 공부가 진행을 하지 못하는 상황입니다... 무엇이 문제인지와 해결방법에 대해 알려주시면, 감사하겠습니다. P.S. 요즘 너무 많은 에러를 겪고, 이걸 스스로 해결을 하지 못하는 경우가 너무 많아 의지가 많이 약해지네요.. ㅠㅠ 주말에 리프레시 하고.. 다음주 월요일부터 다시 화이팅하겠습니다 ..
-
미해결15일간의 빅데이터 파일럿 프로젝트
데이터 저장 공간 관련 문의 드립니다.
안녕하세요 하둡 에코시스템은 여러가지 소프트웨어로 구성이 되어 있는거 같은데요기존 시스템의 경우 데이터가 저장되는 공간은 DB로만 보면 되었던거 같은데하둡에서는 수집된 데이터가 저장되는 공간이 HDFS, HIVE, Hbase 등 여러공간에 다 저장이 되어 있다고 봐야 하나요?그럼 컴플라이언스 관점에서 저장시 암호화 요건을 갖추려면 모든 저장공간에 암호화한 상태로 보관을 해야 하는건지 문의 드립니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
storm topology 배포 에러
안녕하세요.storm topology 배포 중 -bash: storm: command not found에러가 발생했습니다.storm 설치와 service running 상태를 확인하였고, 환경 변수 세팅은 문제없이 했는데 위와 같은 메세지가 출력되었습니다.제가 겪은 프롬프트를 캡쳐해서 첨부하겠습니다.감사합니다.