묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[핵집] 2024 빅데이터 분석기사(필기)_과목 1~2
수업자료 통합본 공유 요청 건
안녕하세요, 강의 잘 수강하고 있습니다.필기 1~2 및 3~4 수업자료 통합본 발송 부탁 드립니다.jinseong.choi@hyosung.com 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 작업형 2 질문 cross_val_score 질문 (2)
총 3가지 질문이 있습니다! 교차검증에서 cross_val_score 을 활용하면from sklearn.metrics import f1_score 을 활용하지 않아도 되는 건가요?(scoring='f1_macro' 라고 되어 있어서 train_test_split 과 f1_score 평가를 동시에 진행하는 방식 같은데..맞나요..?) 문제에서 평가 : Macro f1_score 라고 되어 있는데,강사님처럼 교차검증에서 cross_val_score을 활용해도 되고, train_test_split +from sklearn.metrics import f1_score 활용해도 되는건가요? 이전 강의에서f1_score 평가 설명시from sklearn.metrics import f1_scoref1 = f1_score(y_true_str, y_pred, average = 'macro')라고 알려 주셨는데, metrics 를 불러와서 f1_score을 평가하는 것은 train_test_split 을 통해 X_tr, X_val, y_tr, y_val 로 분리한 경우에만 사용할 수 있는 거죠??(2번 질문과 이어짐) ps. 친절한 강의, 답변 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 작업형 2번 cross_val_score 질문
cross_val_score 풀이에서 from sklearn.model_selection import cross_val_scorescores = cross_val_score(rf, train, target, scoring='f1_macro', cv=5)라고 써주셨는데요. from sklearn.model_selection import cross_val_scoreprint(help(cross_val_score))했더니 사진처럼 cross_val_score 활용방법이 안 뜨고 오류만 뜹니다ㅠㅠ scores = cross_val_score(rf, train, target, scoring='f1_macro', cv=5)을 전부 외우고 있어야 하는 건가요??
-
해결됨15일간의 빅데이터 파일럿 프로젝트
고사양 server03 이미지
안녕하세요고사양 pc에서는 server01, 02, 03 이 필요한 것으로 알고 있는데 혹시 server03은 어디서 받을 수 있을까요? 섹션 1~2에 업로드된 첨부파일 확인했는데 server03 이미지를 찾지 못하여 문의 드립니다!
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
Replica Placement 질문입니다.
4분 50초 경" rack 전체가 뻗는것 보다 노드 하나 뻗는 확률이 더 올라간다? "라고 해주셨는데 잘 이해가 가지 않아서 질문드립니다.제가 이해한 바로는결국 신뢰성과 가용성 둘중 하나는 포기를 해야하고 그 둘 사이의 타협적 결정을 잘 해야 한다.가용성을 위해 단일 노드에 모든 복제본을 둘 경우 속도는 빠르지만 신뢰성 보장이 어렵고 장애 대응이 불가능 하다.신뢰성을 위해 복제본을 모든 데이터 센터 혹은 많은 가상 노드에 복제해둘 경우 신뢰성은 극한으로 올라가지만 데이터를 가져오는데 시간이 너무 오래결려 가용성이 떨어진다.그래서 그 둘 사이의 타협점을 구한 것이 Replica Placement다.위처럼 이해하면 될까요??
-
해결됨15일간의 빅데이터 파일럿 프로젝트
VirtualBox-5.0.40 실행불가
VirtualBox-5.0.40윈도우에서는 실행이 안된다고 에러메시지가 뜹니다. 다른분이 질문하신 게시글에서 버츄얼박스는 '흰색남자'님의 OS(Windows 10)에 최적화된 버젼을 설치해 사용 하시면 됩니다. 라고 하셨는데 그 글도 삭제된 것 같아서요 VirtualBox-5.0.40-115130-Win다른 방안을 알려주시면 감사하겠습니다.
-
해결됨[핵집] 2024 빅데이터 분석기사(필기)_과목 3~4
[요청] 빅데이터분석기사(필기) 통합 교안 부탁합니다
안녕하세요.1-2, 3-4 강의 신청했습니다.1-2, 3-4 통합 교안 전달 부탁드립니다.감사합니다.
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
MLOps 관련 MLFLow 및 Databricks 모델 서빙
안녕하세요 강사님, 좋은 강의 감사드립니다! 요즘 MLOps 관련 model deploy 및 serving 하는 것이 더 중요해지고 있는데 관련 강의를 준비하고 계신지 궁금합니다. 처음에는 이 강의에 추가로 강의를 올리시는 것도 계획 중이신지 여쭙고 싶었으나, 해당 강의와 model을 deploy하고 serving 하는 것은 강의의 범위에서 벗어나는 것도 같네요 ㅎㅎ Databricks에서도 MLFlow 이용해서 experiment를 하는 것이 꽤 잘 되어 있는 것 같던데 혹시라도 관련 강의 준비하고 계시다면 너무 기대됩니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경 체험링크 클릭시 오류
섹션 6. 시험환경 체험링크를 클릭하면연결이 비공개로 설정되어 있지 않습니다.공격자가 dataq.goorm.io에서 정보(예: 비밀번호, 메시지, 신용카드 등)를 도용하려고 시도 중일 수 있습니다. 자세히 알아보기NET::ERR_CERT_DATE_INVALID 라고 뜨는데 어떻게 해야 하는건가요?ㅠㅠ
-
미해결15일간의 빅데이터 파일럿 프로젝트
클라우데라 ERR_CONNECTION_REFUSED 문제
안녕하세요 VM 통합 환경 구성 중입니다.현재 인텔 MAC 사용중이고 ,HOST,NAC 설정 까지 다 해주었는데 연결이 안돼서 진행을 못하고 있습니다 . ㅠ추가로 putty 접속도 안되네요.. 원인이 뭘까요??..확인 한번 부탁드립니다..++ 수정네트워크를 다음과 같이 변경후 서버 재시작하였더니이제 refused는 뜨지 않지만 time out 에러가 뜨네요 ㅠputty도 마찬가지입니다. ++ 수정 server02 는 현재 ssh 접속이 가능합니다..!정확하게 host정보를 입력한거 같은데 server01은 접속이 안되네요 ! ++ server 01 에서 바로 서비스체크 해보았습니다.클라우데라 매니저 잘 작동 중이고 ,, 리스타도 해보았는데여전히 http://server01.hadoop.com/ 치고 들어가면 refused 뜨네요 ㅜㅜ
-
미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
메타데이터 의미
강사님 안녕하세요메타데이터는 테이터의 설명 즉, 테이블에 대한 명세서 라고 정의 하는것을 봤습니다. 그런데 또 다른 의미로 원천 데이터 라는 의미로도 사용될 수 있을까요? 예를들어 overview강의에서 6:24초에 "다른 메타 데이터와 합성해서"라고 말씀 해주셔서요! 사소하지만 조금 헷갈려서 문의 드립니다!강의 잘 듣고 있습니다. 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제
import numpy as npdf['f3'] = df['f3'].replace(np.nan,0).replace('silver',1).replace('gold',2).replace('vip',3)라고 하셨는데 df['f3'] = df['f3'].fillna(0)df['f3'] = df['f3'].replace("silver", 1).replace("gold", 2).replace("vip", 3) 이렇게 해도 답이 133으로 똑같이 나오더라구요!이렇게 해도 되나용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전체 열을 한번에 주석 # 처리하는 방법이 뭔가요?
3-6. 강의에서모델 최적화를 하는 과정에서스케일러를from sklearn.preprocessing import StandardScalerscaler = StandardScaler()cols = ['age', 'bmi']train[cols] = scaler.fit_transform(train[cols])test[cols] = scaler.transform(test[cols])에서 #from sklearn.preprocessing import StandardScaler#scaler = StandardScaler()#cols = ['age', 'bmi']#train[cols] = scaler.fit_transform(train[cols])#test[cols] = scaler.transform(test[cols]) 이렇게 한번에 주석(#)처리하셨는데,어떻게 하신건가요?alt+#shift+#ctrl+# 했는데 다 안되네요ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 질문
3-4. 의 원핫인코딩에서는c_train = pd.get_dummies(c_train[cols])c_test = pd.get_dummies(c_test[cols]) 3-6. 의 원핫인코딩에서는train = pd.get_dummies(train, columns=cols)test = pd.get_dummies(test, columns=cols)라고 되어 있네요ㅠ 3-6에서도 3-4처럼train = pd.get_dummies(train[cols])test = pd.get_dummies(test[cols])로 실행해 봤는데 결과가 다르게 나오네요! 왜 3-4에서는 [cols] 라고 하고,3-6에서는 columns=cols라고 하는건가요?ㅠ
-
미해결15일간의 빅데이터 파일럿 프로젝트
managed_smartcar_status_info 테이블
안녕하세요.제가 최초 학습/실습했을 때도, 겪었던 문제인데, 계속 해결을 하지 못해 해당 문제를 여쭙습니다. [현재 문제상황]먼저 문제는, Oozie를 강제 실행했을 때, managed_smartcar_status_info 테이블은 생성되지만, 빈 테이블로, 내부에 아무 데이터가 조회되지 않는 것입니다. 제가 오타가 있을까 싶어, 테이블 삭제에 여러 날을 데이터 생성부터 재시도를 4..5번 정도 했는데, 모두 동일하게 데이터가 조회되지 않았습니다. 우선, 제가 세팅한 값과 생성되어 cat-batch-log 에 저장된 데이터의 이미지를 보여드리겠습니다.제가 작업을 실행한 것은 금일(2024-02-08)이고, 데이터 생성 시, 입력한 일자는 2022-03-22입니다. 따라서, 강의에서 말씀하신 용어를 기준으로, working_date와 biz_date는 각각, 20240208, 20220322입니다. Oozie에 task를 할당할 때는, download한 쿼리를 그대로 복사해서 붙여서 task를 정의했습니다. 이는 오타가 발생할 수 없고, 여러번 시도했었던 부분이기 때문에 해당 부분에는 에러가 없을 것으로 기대하고 있습니다. task에 대한 scheduling은 아래와 같이 구성하였습니다.Oozie를 강제 실행하였을 때, working_date에는 오늘 일자인 20240208을 입력하고, [저장] - [실행]을 했습니다. 실행 과정에서 에러는 발생하지 않았고, 로그에도 별다른 특이사항은 없었습니다. 이 후, 새로운 테이블 managed_smartcar_status_info이 생성되었음을 refresh를 통해 확인하였으나, 해당 테이블을 조회하면, 데이터가 조회되지 않는 것이 ... 일주일동안 해결하지 못하는 트러블 ...입니다.테이블을 조건절(where) 없이 조회했을 때도, 조회된 데이터가 마찬가지로 없었기 때문에 이 또한, 조건절 오타로 인해 조회되지 않는 것은 아닌 것으로 추측됩니다. [현재 확인된 부분]hdfs 쿼리를 통해 정상적으로 파일이 생성되었음을 확인했습니다.redis에서 데이터가 저장되어있음을 확인했습니다.hue를 통한 hbase 브라우저에 DriveCarInfo 내 key값을 이용하여 데이터를 조회했을 때, 조회되는 부분을 확인하였습니다. [개인적인 의견]HiveQL/그림-6.71.hql 내 작성된 쿼리를 통해 현재 제가 겪고 있는 문제를 생각해보았는데,현재 아래 두 쿼리는 조회 값이 NULL이 아니고, 충분히 많은 데이터가 조회됩니다. 그런데,select distinct car_number from smartCar_master_over18; select distinct car_number from SmartCar_Status_Info where wrk_date = '20240208';그런데, insert 내 select 부분만 추출하여 실행하면,select t1.car_number, t1.sex, t1.age, t1.marriage, t1.region, t1.job, t1.car_capacity, t1.car_year, t1.car_model, t2.tire_fl, t2.tire_fr, t2.tire_bl, t2.tire_br, t2.light_fl, t2.light_fr, t2.light_bl, t2.light_br, t2.engine, t2.break, t2.battery, t2.reg_date, substring(t2.reg_date, 0, 8) as biz_date from SmartCar_Master_Over18 t1 join SmartCar_Status_Info t2 on t1.car_number = t2.car_number and t2.wrk_date = '20240208';조회가 되지 않는다는 것을 알게 되었습니다. 위 쿼리를 조금 더 간략히 하면,select distinct t.car_number from smartcar_master_over18 t join smartcar_status_info son t.car_number = s.car_number where s.wrk_date = '20240208'; 가 되고, 이 또한 조회된 값이 없습니다. 현재 제가 학습을 하면서 이해를 하기론, smartcar_status_info 데이터는 flume에 의해 입수된 로그 데이터이고, smartcar_master_over18는 특정 조건에 의해 redis에 저장된 일부 데이터로 알고 있는데, 이렇게 되면,smartcar_master_over18 이 smartcar_status_info 에 포함되는 관계가 필연적으로 되어야하는게 아닌가하는게 제 생각입니다. 만약 제 생각이 맞다면, 로그가 잘못 생성되었다는 뜻인데, 혹시 강사님께선 제가 생각하는 것 외에 확인해야할 부분이 있다고 생각하신다면, 조언해주시길 부탁드립니다. 항상 친절한 가르침 감사합니다.즐거운 연휴 보내시고, 새해 복 많이 받으시길 바랍니다.감사합니다. """(마음의 소리)많이 바쁘시겠지만, 가능하다면 오늘 해결 방법 및 조언을 듣고, 긴 연휴.. 프로젝트를 마무리 및 정리를 하고 싶습니다... !! ㅠㅠ """
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시계열 데이터 수업 자료 어디에?
시계열 데이터를 다루는 수업을 현재 보고 있는데, 관련 자료가 어디에 있나요?제가 일일히 쳐서 하기가 어려워서 데이터 프레임을 받고싶은데,,, 어디에 있는지 못찾겠어요.
-
미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
kkma() 실행시 kernel dead 현상이 발생합니다.
선생님께서 알려주신대로.java > jpype > konlpy 설치를 마치고그 다음 진도를 진행하려 하는데kkma = Kkma()를 실행하는 순간 kernel dead 메시지가 나면서더이상 실행이 안됩니다. googling을 통해서 여러 해법을찾아 보았지만, 해결이 안되고 있는데요... 도움 부탁드립니다.jupyter_notebook의 config 파일 생성 후... buffer_size 도10000000000 으로 상향 조정하는 등의 방법을 써도 해결되지가 않습니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
Cloudera에서 식별되는 HDFS, HBase 에러
안녕하세요지난 2월 1일, Ooize를 통해 table을 create, alter, insert에 대한 task 정의하고, workflow를 실행하고, 아래와 같은 쿼리를 실행했습니다.SELECT * FROM MANAGED_SMARTCAR_STATUS_INFO WHERE BIZ_DATE = '20220201' LIMIT 10;,그러나, 중간의 파일명이 꼬였는지, 조회값이 나오지 않았습니다(제가 자투리 시간을 이용하여 공부하다보니, 20220130, 20220131, 20220201에 대한 log 파일이 모두 존재한 상황이었습니다. 해서, 맨 처음 flume 단계부터 다시 실행하기 위해 실행되는 모든 service를 종료하고, cloudera를 다시 실행하였더니, 첨부된 사진과 같이 HDFS와 HBase에 에러가 감지 되었습니다. 현재 shell을 통해 확인하니, HDFS는 에러가 있었음에도 정상적으로 파일을 저장하였지만, HBase는http://server02.hadoop.com:8888/에 접속이 되지 않아, 이후 공부가 진행을 하지 못하는 상황입니다... 무엇이 문제인지와 해결방법에 대해 알려주시면, 감사하겠습니다. P.S. 요즘 너무 많은 에러를 겪고, 이걸 스스로 해결을 하지 못하는 경우가 너무 많아 의지가 많이 약해지네요.. ㅠㅠ 주말에 리프레시 하고.. 다음주 월요일부터 다시 화이팅하겠습니다 ..
-
미해결[핵집] 2024 빅데이터 분석기사(필기)_과목 1~2
통합강의안요청
안녕하세요 통합 강의안 전달 부탁드립니다. ybb5462@naver.com 입니다^^
-
미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
설문조사 주관식 데이터 처리방법 문의
이전에 고객 설문데이터를 가지고 보고서를 만들었던 경험이 있습니다.객관식은 전체 응답기준으로 엑셀로 매크로를 이용하여 그래프를 만들면 되는데문제는 주관식입니다.주관식은 요약을 보고서에 담아야 되어서, 전체를 읽어보고 전체 의견요약을 하고,긍정의견, 부정의견을 나누고 그에 대한 요약을 작성을 일일이 사람이 전체를 읽어서 처리를 합니다.건수가 작으면 혼자 하면 되는데 20만건 데이터 처리는 혼자는 하기 힘들고 여러명이 나눠서 해야만 됩니다. 데이터가 많을 경우 ChatGPT로 요약을 해보니 최대 처리할 수 있는 데이터 크기가 32k까지 밖에 처리가 되지 않아 몇%만 샘플링해서 요약하는 방법밖에 없었습니다. 그럼 샘플링에 따라서 고객의견이 정확하게 반영이 되 지않아 결국은 여러명이 수작업으로 진행했습니다. 자연어 처리로 자동으로 긍정, 부정을 분류까지는 가능할것도 같은데 분류된 데이터 가지고 긍정의견의 요약, 부정의견의 요약을 딥러닝으로 해결이 가능할까요?아니면 어떤 좋은 방법이 있을까요?