이야기를 나눠요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Linearregression error
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 시 숫자가 아닌 true false로 결과가 나와요
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Xgbboost 결과가 다르게 나와요
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜덤포레스트 결과가 다르게 나와요
랜덤포레스트 결과가 다르게 나와요
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
사후 검정 투키, 본페로니 식
사후 검정 투키, 본페로니 식 외워야 하나요?시험에서 사후검정도 해야하나요?
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
공부방법 질의드립니다.
정처기 실기 준비한다고 빅분기 실기 준비가 늦었는데요....인강 결제하고 공부한지 3일차인데, 작업형1 모의문제를 푸는데 멘탈이 탈탈 털려버렸어요 ㅜㅜ...나름 열심히한다고 온갖 함수부터 달달 외우고는 있는데 응용이 전혀 되질 않아서 모의문제를 혼자 힘으로 1도 못풀었어요..계속 gpt로 코드 해석보면서 보고있는데, 이대로 계속 진도를 나가는게 맞는지 모르겠네요...계속 지웠다 썼다 반복하고는 있는데, 단순히 답을 외우게 되는 것 같아서 나중에 응용이 될까 모르겠네요..이해가 안 가더라도 계속 진도를 나가고 회독을 하는게 맞는 건가요 ?
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 성별예측 문제
https://dataq.goorm.io/exam/116674/체험하기/quiz/4여기서 하는 성별예측 문제에서 import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# print(train.shape, test.shape)# print(train.info())# print(train.isnull().sum())# print(test.isnull().sum()) #결측치 처리 (환불금액)train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)# print(test.isnull().sum())# print(train['성별'].value_counts()) #인코딩target = train.pop('성별')train = pd.get_dummies(train)test = pd.get_dummies(test)#검증 데이터 분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)# print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=0)rf.fit(X_tr, y_tr)pred = rf.predict_proba(X_val)# print(pred) from sklearn.metrics import roc_auc_scoreroc = roc_auc_score(y_val, pred[:,1]) #예측 및 파일생성pred = rf.predict_proba(test)submit = pd.DataFrame({ "pred":pred[:,1]})submit.to_csv("result.csv", index=False)# print(pd.read_csv("result.csv"))이렇게 코딩을 했는데 예측 및 파일 생성에서 pred = rf.predict_proba(test) 여기 부분이 오류가 뜨는데 왜 그런가요 ㅠㅠ > Makefile:6: recipe for target 'py3_run' failedmake: *** [py3_run] Error 1Traceback (most recent call last): File "/goorm/Main.out", line 43, in <module> pred = rf.predict_proba(test) File "/usr/local/lib/python3.9/dist-packages/sklearn/ensemble/_forest.py", line 674, in predict_proba X = self._validate_X_predict(X) File "/usr/local/lib/python3.9/dist-packages/sklearn/ensemble/_forest.py", line 422, in validateX_predict return self.estimators_[0]._validate_X_predict(X, check_input=True) File "/usr/local/lib/python3.9/dist-packages/sklearn/tree/_classes.py", line 407, in validateX_predict X = self._validate_data(X, dtype=DTYPE, accept_sparse="csr", File "/usr/local/lib/python3.9/dist-packages/sklearn/base.py", line 437, in validatedata self._check_n_features(X, reset=reset) File "/usr/local/lib/python3.9/dist-packages/sklearn/base.py", line 365, in checkn_features raise ValueError(ValueError: X has 73 features, but DecisionTreeClassifier is expecting 74 features as input.이렇게 뜹니다,,
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제2
안녕하세요. 좋은 강의 감사드립니다.덕분에 잘 배우고 있습니다. 문제 2.주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함.그리고 30% 미만, 20% 이상인 결측치가 있는 컬럼은 최빈값으로 값을 대체하고'f3'컬럼의 'gold' 값을 가진 데이터 수를 출력하세요! 문제2를 대하고 순간 다음과 같은 고민을 했었습니다.1번을 수행하여 'f1'컬럼의 결측치 행을 삭제한 후 2번을 하려니 'f3'컬럼의 결측치 갯수가 18개만 남더군요.그럼 18개는 최초 데이터 100개의 20% 미만일까?그렇지 않다. 'f1'컬럼 결측치를 제거한 후 데이터 갯수 69개의 20%~30%(14~20)에 해당한다.그렇다면 'f3'컬럼의 최빈 값은 'f1'컬럼의 결측치를 제거하기 전의 값을 사용해야할까 아니면 결측치 제거 후의 값을 사용해야 할까?결과적으로는 어떤 방식으로 하던 답은 56으로 일치했지만 주어진 데이터에 따라 다른 값이 나올 수도 있을 것 같습니다.혼돈을 없애기 위해 문제 2의 문항 순서를 바꾸면 어떨까요?30% 미만, 20% 이상인 결측치가 있는 컬럼은 최빈값으로 값을 대체하고주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함. 'f3'컬럼의 'gold' 값을 가진 데이터 수를 출력하세요!
-
15일간의 빅데이터 파일럿 프로젝트
수강기간 연장
안녕하세요 강사님,유익하고 좋은 강의를 만들어주셔서 감사드립니다.수강하지 못한 부분들이 많이 있는데 수강기간 연장을 요청 드리고 싶습니다ㅜㅜ
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[1유형]
안녕하세요.1유형은 부분점수가 있다고 하는데값을 출력하고 그 때마다 제출 버튼을 눌러야지 채점이 되는건가요?1유형에도 문제가 3개 있으면제출 버튼을 3번 누르면 되는 건가요? 2유형은 마지막에 파일 생성하면 끝이 나는 건가요?3유형도 궁금합니다!!
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
맥북으로 공부
안녕하세요 강사님올해 말 실기 시험 목표로 강의를 수강 중인 학생입니다. 강의 수강 중 문득 걱정이 되는게 있어서 문의 드립니다. 맥북 단축키 같은것도 알려주시고 당장 수강하는데는 별 문제없다고 생각하는데, 시험장에 맥북을 들고 갈 순 없는 노릇이니.. 혹시 맥북으로 공부해 갔을때 발생할 수 있는 문제와 그에 대처방법이 혹시 있을까요?
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 연장
안녕하세요 강의 수강생인데요 ㅠ 이번 실기 치르는데 제가 작년부터 강의를 결제해서 듣고 있어서요 혹시 다음주까지 연장할 수 있는 기능이나 방법이 있을까요 ?
-
빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
BERTopic 분석 방법
안녕하세요 선생님제가 LDA분석방법으로 연구를 진행중인데 이 LDA분석 방법의 단점을 개선한 방법으로 딥러닝 방식인 BERTopic 분석 방법이 최근 등장해서 연구논문에 조금씩 등장하는걸 확인했습니다.그래서 이 분석 방법에 흥미가 생겨 어떻게 할 수 있는지 인터넷, 책 등을 아무리 찾아봐도 직접적으로 연구에 어떻게 적용해서 하는 건지, 딥러닝 방식이라 학습시키는 데이터(말뭉치)는 또 어떻게 준비하는 건지.. 도통 모르겠고 도움을 받을 수 있는 길이 없는거 같아서 답답한 마음에 한번 여쭤봅니다.혹시 연구논문에 적용가능한 BERTopic 분석 방법에 대한 강의를 올려주실 계획은 없으실지 궁금합니다!
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
계속 진도를 빼는 게 맞을까요? 나을까요?
안녕하세요비전공자 직장인입니다.퇴근후 딴짓 님 강의를 열심히 듣고 있습니다. 현재 작업형2 모의문제 2를 혼자서 풀고 있는데,단순한 결측치 찾고, 샘플 찾고, 그런 것들은 하겠는데이거를 모델링 하는 거에서부터 사실 멘붕입니다. 작업형1 모의문제를 풀 때도 똑같이 강의를 듣던것보다 더 어려워서 멘붕이 왔었습니다. 일단은 모르겠는 부분은 인지한 상태로 다시 반복하겠다는 의지로 계속 강의를 듣는 게 맞겠죠? 반복이 답이겠죠??
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 듣고
강의를 한번 쭉 듣고나서는 이 강의 기출을 반복하면되나요???합격하신 분들은 이 강의만 반복적으로 돌려서 합격하셨다는건지아님 얼른 듣고 추가적으로 더 무엇을 했다는것인지무엇을 해야하는지 궁금합니다.
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
꼭 암기해야하는 코드나 파트...
선생님, 강의 열심히 보고 있는데제가 5월 중순부터 시작하면서 조금 일찍 시작했는데도 불구하고암기 할 게 너~~~~~~무 많아서 큰일입니다 ㅠㅠ 단권화 시키려고 실기용 교재를 샀는데정말 정말 이것만큼은 꼭! 외우고 가야하는 코드나 문법같은거를 정리해주실 수 있나요? (강의나...파일로) 사실 고득점 합격은 바라지도 않고 60점 턱걸이로라도 너무 붙고싶습니다!
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이번 실기일까지 강의를 듣고 싶어요.
삭제된 글입니다
-
실리콘밸리 엔지니어와 함께하는 Redis
강의 내용 정리 후 포스팅 문의
안녕하세요 해당 강의를 듣고 주관적인 견해를 포함하여 강의 내용을 정리 후에 퍼블릭한 블로그에 포스팅하고 싶은데, 괜찮을지 문의드립니다 ! 물론 게시글 상단에 해당 강의 링크와 강의 내용을 참고하여 작성했다는 코멘트는 포함할 예정입니다.
-
[무료]기초 텍스트마이닝: 앱 리뷰 분석 with 파이썬(40분 완성)
웹크롤링 강의
안녕하세요 선생님빅데이터 분석에 관심이 있어 파이썬을 1도 모르는 상태에서 시작해 현재 선생님의 강의를 통해 많은 도움을 받고 있습니다.현재 텍스트 마이닝 분석 방법으로 쓴 논문들을 보면 쇼핑몰 댓글 부터 해서 각종 SNS(페이스북, 인스타그램 등)의 댓글을 분석한 논문들을 많이 살펴볼 수 있는데 현재 파이썬 초보로서 데이터를 수집하는 과정(웹크롤링)이 제일 중요하고도 어려운 것 같습니다.현재 텍스톰이나 빅카인즈 같은 웹사이트를 이용하는 것 말고 파이썬 으로 다양한 데이터를 직접 웹크롤링 해서 데이터를 수집하는 방법을 집중적으로 다룬 강의는 거의 찾아보기 어렵더라구요..ㅠㅠ블로그 등에 검색해보면 코드가 공개된 것도 있지만 여기저기 코드 방식이 다 다양하고 막상 적용해서 실행해보면 또 에러 생기고 이유는 모르겠고 답답하더라구요. SNS 채널 및 쇼핑몰 댓글 등을 웹크롤링 하는 과정을 하나하나 다 보여주는 강의가 있으면 좋겠다고 생각하고 있는데 혹시 이렇게 여러 채널의 웹크롤링 과정만 다룬 강의를 올려주실 계획은 없으신지요?
-
15일간의 빅데이터 파일럿 프로젝트
클라우데라 CCA 자격증 관련 문의
클라우데라 CCA 자격증 관련 문의강사님 안녕하세요? 강의를 듣다 하둡 관련 자격증을 찾아보니 CCA 자격증이 있던데 취득했을시 관련분야 취업에 우대를 해주는지 궁금합니다. 정보가 적어 여기에 문의 드립니다.