게시글
질문&답변
2024.10.29
클라우데라 ERR_SSL_PROTOCOL_ERROR 문제
안녕하세요! 메로나님!날씨가 제법 쌀쌀해 지는듯 합니다. 이런때 감기 걸리기 쉬우니 몸관리 잘하시고요~ ^^* 관련 에러는 VM안의 리눅스 및 Cloudera 서버에 보안 설정을 직접 수정하지 안았다면,아래 AI인턴이 말한 문제일 확률이 높습니다.즉 메로나님의 작업PC의 OS에서 VM에서 실행되고 있는 Cloudera Manager 서버로의 접속을 차단하고 있는것으로 보입니다. 특히 아래 3번 방화벽 및 보안 소프트웨어가 Cloudera Manager의 접속을 차단하고 있을 수 있습니다.V3 또는 다른 백신 프로그램 및 윈도우의 방화벽 설정들을 꼭한번 체크해서 보안 레벨을 중지 또는 최대한 낮춰서 점검해봐 주시 고요~또 하나는 크롬브라우져의 보안정책 문제 일 수 있는데요, 이는 다른 브라우져 엣지, 파이어폭스 등으로 비교 체크해봐 주시기 바랍니다. 우선 위 두가지 사항을 확인해봐 주시고요! 결과 부탁드립니다!! -빅디 드림
- 0
- 2
- 61
질문&답변
2024.08.08
Zeppelin 쿼리 도중 fb303 에러
안녕하세요! 이주현님!파일럿 프로젝트 후반부를 달리고 계시는군요?! 끝까지 화이팅! 입니다. ^^질문주신 스크린샷을 보면...Zeppelin의 "%spark.sql" 대신 "%sql" 후, Hive조회 쿼리를 명령을 실행 했는데요?혹시 강의 내용과는 별게로, Zeppelin의 Hive 인터프리터로, 하이브 테이블을 직접 조회해 보고 싶은건지요?? 우선 현상만 봤을땐 다음과 같이 복합적인 문제들로 의심이 듭니다.managed_smartcar_drive_info의 2,3번 테이블이 1번과 상이한 구성(접근권한, 계정 등)으로 만들어 졌는지 체크해 봐야 할 것 같고요,그로인해 2,3번 테이블 조회시 예외상황이 발생 했는데, 이게 Zeppelin의 fb303 클라이언트 라이브러리에 영향을 주면서 fb303이 비정상 상태가 된것으로 보입니다.이후 정상 이었던 1번 테이블 조회 명령도 fb303을 통해 Hive의 메타정보 및 상태정보를 갖어 올 수 없어 발생하는 문제로 의심됩니다.위 내용으로 체크해봐 주세요~ -빅디 드림
- 0
- 1
- 72
질문&답변
2024.07.10
듣고있는 와중에 질문있습니다.
안녕하세요! 김남수님! 파일럿 프로젝트에서 자바환경은 크게 2군데인데요.관련해 jdk 버젼은 아래의 가이드를 지켜주시면 됩니다.파일럿 PC: JDK 1.8 이상VM Server01,02: oracle-j2sdk1.82번 VM Server01/02는 CentOS로 구성이 되는데요, 여기에는 파일럿 아키텍처에 필요한다양한 소프트웨어 스택이 구성되고 jdk 1.8에 의존성이 큼니다.이점 고려하셔서 실습을 진행해 주시면 됩니다. ^^ 장마와 불볕더위에 파일럿 프로젝트 꼭! 완주해 주세요! -빅디 드림
- 0
- 1
- 95
질문&답변
2024.07.01
회귀분석 관련 질문 드립니다.
안녕하세요! "dominicus"님!본인의 설명이 다소 부족한 부분이었는데...좋은 질문 감사합니다~ 말씀하신데로 test_data 셋을 아래처럼 독립변수 데이터셋과 타겟변수(label) 데이터셋으로 분리해 놓고Predict을 해야 하는데요...제가 많이 귀찮았나 봅니다. ^^;; test_data_x -> 독립변수test_data_y -> 타겟변수 부연 설명을 좀더 드리자면...해당 R코드에선 이미 학습된 회귀 모델을 이용한 predict에 타겟변수가 포함된 데이터프레임을 이용해도,모델은 test_data의 독립변수만 참조해 predict을 하게 되므로 결국 아래 두코드의 결과는 과정에 차이가 있을뿐 같습니다. (단, test 데이터프레임의 변수명과 train 데이터프레임의 변수명이 같은 경우만 가능 합니다.) #기존방식predict_y test_data, interval = "prediction")RMSE(predict_y, test_data$smartcar_master2income.income) test_data_x # 독립변수test_data_y # 타겟변수predict_y test_data_x, interval = "prediction")RMSE(predict_y , test_data_y) 파일럿 프로젝트 거의 마지막 단계까지 오셨네요!!!끝까지 화이팅 입니다. -빅디 드림
- 0
- 1
- 95
질문&답변
2024.06.08
tail -f flume-cmf-flume-AGENT-server02.hadoop.com.log 오류
안녕하세요! 김태욱님!파일럿 프로젝트 열공 해주셔서 제가 기분이 좋습니다. ^^*해당 로그는 이미 지나 쳤을수도 있으니, vi명령으로 최근 로그를 확인해봐 주시고요~혹시 아래 명령으로 HDFS에 파일이 정상 적재 되어 있는지 확인 부탁 드립니다.$ hdfs dfs -ls -R /pilot-pjt/collect/car-batch-log/-빅디 드림
- 0
- 2
- 191
질문&답변
2024.06.02
FileZilla 권한 거부
안녕하세요! 김태욱님!bigdata 계정은 하둡 설치후 간단하게 Sample.txt 파일 업로드에만 잠깐 사용 되는 계정입니다.말씀하신 대로 권한을 수정 하셔도 되고요, 테스트가 다 끝났다면 bigdata 계정은 이후 사용되지 않으니깐 무시하셔도 괜찮습니다.대신 이후부터는 root 계정을 사용 하는데.. bigdata계정과 같은 문제가 발생 한다면, 어떤 작업으로 인해 권한이 변경 되었는지 확인해 볼 필요는 있습니다~ -빅디 드림 ^^*
- 0
- 1
- 111
질문&답변
2024.05.30
클라우데라 접속 중 블루스크린 오류
안녕하세요! jackrkd022244님!블루스크린은 PC환경에따라 너무 다양한 원인이 있어서 정확한 답변이 어려운데요... TTVM이 정상 기동 됐는데, 이후 액션(크롬브라우져 실행 등)에서 블루 스크린이 발 생했다면..의심되는 원인은 PC의 리소스(CPU, Memory, Disk 등) 부족 문제일 확률이 높습니다.다소 번거롭더라도 사용중인 PC의 불필요한 프로그램들을 삭제 또는 미사용한 상태로, 리소스를 최대한 많이 확보해 실행해 보고나, 포맷이 필요할 수 도 있습니다. ㅠㅠ강의소개에서 설명 드렸던 실습 PC의 필요 자원은 아래와 같습니다.메모리: 7GB 이상의 여유디스크: 90GB 이상 여유(SSD 권장)-빅디 드럼
- 1
- 1
- 159
질문&답변
2024.05.17
파일질라 다운로드 오류
안녕하세요! sunj8234님!파일질라 설치시 권한에 문제가 있어 보입니다. ^^;;설치파일에서 마우스 우클릭하고 "관리자 권한으로 실행"으로 설치해 봐주세요~ -빅디 드림
- 0
- 1
- 132
질문&답변
2024.05.15
hue 설치 중 psycopg2 설치 오류
안녕하세요! 김민구님!빅디입니다. 휴일인데도 파일럿 프로젝트 진행하며 질문을 주셨네요..파일럿 프로젝트 완주를 응원합니다! ^^음...질문 주신 에러는 파일럿 VM 환경에선 잘 안나는 에러인데 발생을 했네요..주로 보안정책으로 pip 타겟 URL을 신뢰할 수 없는 사이트로 인식해 발행 합니다.여러 조치 방법이 있는데요, 제일 간단한건 pip실행중 Verification을 무시하는 겁니다. 우선 아래 내용으로 조치후 테스트 부탁드립니다.아래의 sessions.py 파일을 vi로 오픈$ vi /opt/rh/python27/root/usr/lib/python2.7/site-packages/pip/_vendor/requests/sessions.py# SSL Verification default 라는 주석 하단의 verify = True 값을 False로 변경verify = False-빅디 드림
- 0
- 2
- 211
질문&답변
2024.03.07
각 서버에 설치하는 프로그램은 어떻게 정하나요?
안녕하세요! "dali7711"님!오늘 날씨가 갑자기 쌀쌀해 졌네요...환절기 감기 조심하세요!그리고 좋은 질문 감사합니다! ^^* 각 SW의 서버 인스턴스의 설치 기준은 우선 파일럿 환경 기준으로만 설명 드리자면 간단합니다.개인의 PC환경에서 다양한 빅데이터 에코시스템들을 작동 시키기 위한 최선으로 구성한 것 입니다.결국 가상서버들의 CPU/Mem의 자원을 분산 시키되, 아키텍처의 정합성은 깨지지 않도록 구성을 한 것 입니다.예를들어 PostgreSQL은 Cloudera Manager가 사용 하게 되는데, Cloudera Manager가 Server01에 설치 되어 있기 때문에 같은 위치에 구성을 한것이고요, HBase Region 같은 경우 하둡에 의존성을 갖게 되므로 하둡의 워커노드가 3개이면 HBase리전도 3개로 맞춘것 입니다.또한 질문중 왜? PostgreSQL로 했냐고 물으셨는데요... 이또한 Cloudera Manager에서 기본으로 제공하는 DBMS가 PostgreSQL이기 때문에 설치 구성의 편의성 차원이 이유입니다. 물론 Oracle을 별도로 설치하고 Cloudera Manager와 연결을 할 수 도 있지만, 파일럿 프로젝트의 핵심은 DBMS 기술을 배우는것이 아니니깐요! 물론 실프로젝트에선 Oracle을 많이 연결해 사용합니다. ^^그런데 실제 환경에서도 이런일들이 비일비재 합니다. 물리적인 자원은 한정되고, 사업은 확장 되면서 구축해야할 시스템은 늘어 나는데, H/W 장비는 지금당장 구매해 들어오기가 어려운 상황들로, 제품에 최적화된 아키텍처 보단, 빡빡한 자원에 맞춰 아키텍처링을 할 수 밖에 없는 상황들 입니다.강의에선 "dalki7711"님처럼 궁금해 하실 분들이 있으실 것 같아서..."섹션2 - 빅데이터 실환경의 이해"에서 실제 프로젝트에선 수십대의 서버에 다양한 빅데이터 에코시스템들을 이중화 및 분산구조 등으로 성능/안정성/확장성을 고려해 배치 된다는 것은 간략하게나마 설명 드렸습니다.이때 어떤 S/W를 사용할 것이냐는 프로젝트의 목적에 따라 비용/성능/안정성/운영 등 많은 것을 고려합니다만, 의외로 현장에선 아키텍트 또는 의사결정권자 등이 경험 했던 제품으로 많이 결정 되곤 합니다.제가 파일럿 프로젝트 강의에서 Flume, Kafka, Storm, Hbase 등을 선택해 실시간 기능을 구성 했던 것 처럼요~실전 프로젝트에서 저같은경우는...사업의 요구사항을 최우선으로 하고요, 본인의 경험과 기술 트랜드 그리고 개발자/운영자들의 기술수준 등을 고려해서 아키텍처링을 하는편 입니다.아 마지막 질문중 서비스 확장에대해 물어 보셨는데요, 대부분의 실운용 시스템엔 자원을 모니터링 하는 툴들이 있게 됩니다. 시스템의 중요도에 따라 리소스의 사용률 임계치 정하는데요...중요도가 높은 시스템일 수로 임계치를 낮게 잡습니다. 예를들의 CPU/Mem 사용률이 피크시간때 80% 이상 넘는 다든지, 일평균 70%를 넘는다든지, 자원의 스파이크가 매우 빈번하게 발생 한다던지 하면 삐요삐요를 알리고, 필요시 서버를 Scale-Out/Up 하게 됩니다. 요즘엔 Cloud Native 환경을 이용해 이러한 임계치를 기준으로 Auto Scale-In/Out를 처리하기도 합니다.요약하자면 기준은 따로 없고요 시스템의 중요도와 모니터링 결과에 따라 케바케라 보시면 됩니다. ^^-빅디 드림
- 0
- 1
- 214