묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
괄호들?... 그리고 따옴표들?...
어떤 건 '를 쓰고 어떤건 "를 쓰는데 상관 없다고 하셨었나요?그리고 df[DateTime인지, 'DateTime'인지 헷갈려요ㅠㅜ]따옴표는 언제 쓰는 건가요?... 그리고 함수 대소문자는 다 외워야하는 건가요?ㅠㅠ Timedelta고 TimeDelta 아니구요 그쵸?... 규칙이 있나요? 넘 헷갈려요 혹시 {}, [], ()의 차이도 알려주실 수 있으실까요? 언제 쓰는 건지 헷갈립니다. []는 번호나 어레이?를 쓸때이고 df.loc[7] 이렇게..요?{}는 어레이가 여러개 들어가는 데이터(?)를 쓸 때 묶음 표시이고()는 함수라는데 loc는 함수가 아닌건가요? ㅠ.ㅠ... 무작정 외우기에는 넘 헷갈려유 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
1-2 강의 슬라이싱 연습 질문 있습니다.
안녕하세요^^ 혹시 저 마지막 앞 단어 문제에서 마지막 앞이니까 뒤에서 2번째로 생각하고 혹시 listbox[-2]이렇게 제가 쓴 것처럼 해도 상관없을까요? ㅠㅠ 선생님이 [7:8], [7:-1], [-2:-1]로 답 풀이해주신건 다 이해가 가는데 그냥 -2로만 하면 안되나 궁금해서요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-4 강의 스케일링 로그 변환 예시에서 궁금사항 있어요
안녕하세요^^error 원인을 모르겠어서 print문이 왜 틀린지 궁금해서 올립니다. 바로 위와 아래 시각화는 다 잘 되는데 왜 중간에 로그변환 전후 확인에서 선생님과 다르게 에러가 뜨는지 모르겟어요.데이터합치기 #분리한데이터 다시 합침에서도 하는데 같은 에러가 뜨는데 왜series가 안불러와지는지 모르겠습니다 ㅠㅠ 맨 처음부터 다시 다 실행해봐도 다른건 다 잘되는데 같은 이유로 에러가 뜹니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3 강의 수업자료
수업자료 data.csv가 어딨나요?위 강의들 자료를 봐도 X_train, X_test들만 불러오는데,,
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
베이스라인(baseline)의 정의가 궁금합니다.
강의를 듣다보면 baseline이라는 단어를 여러번 언급하시는데정확히 무슨 뜻인지 모르겠습니다 ㅠㅠ 강의를 꼼꼼히 듣는다고 들었는데 어디서 놓친지 모르겠네요 ㅠㅠ검색해도 안나오니 답답해서 여기 문의드립니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제 3
test와 train데이터가 아닌,X_test, X_train, y_test, y_train으로 할 때에 검증데이터와 훈련데이터를 어떻게 나누는지가 헷갈립니다ㅠㅠ훈련값에 id를 포함하지 않고, 타겟값에 y_train을 전체 넣는 건지, 혹은 타겟값에 y_train 중 'output'만 넣어야하는지 궁금합니다..!!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중분류 데이터 확률값 질문있습니다!!
안녕하세요 선생님 평가지표 강의 다중 분류 확률값에 대해 질문 있습니다.'ovo' 방식 roc_score_ovo = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovo') print("ROC AUC (OvO):", roc_score_ovo) # 'ovr' 방식 roc_score_ovr = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovr') print("ROC AUC (OvR):", roc_score_ovr)확률값을 구할때는 pred_proba에서 어떤 확률값을 구하는지 pred.proba[:,1] 이렇게 지정해줬던거 같은데 다중확률에서는 이렇게 안하는건가요??# 다중분류 데이터(확률값) y_true_str = pd.DataFrame(['A', 'B', 'C', 'A', 'B']) # 실제값 y_pred_proba = pd.DataFrame([[0.2, 0.5, 0.3], [0.7, 0.2, 0.1], [0.4, 0.3, 0.3], [0.4, 0.1, 0.5], [0.1, 0.8, 0.1]], columns=['A', 'B', 'C']) # 예측값(각 클래스 확률) # 인코딩된 순서와 확률 컬럼 순서가 같인지 확인 print("y_true의 원-핫 인코딩된 컬럼 순서:", y_true_onehot.columns) print("y_pred_proba의 컬럼 순서:", y_pred_proba.columns)2 . 실제 문제를 풀 때는 pred_proba값이 배열 형태로 되어 있어 컬럼값이 지정이 안되어 있을텐데 이 때는 컬럼 순서가 같은지 어떻게 확인을 해야 하는 건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님 csv 파일을 결론내고 다시 읽어보았더니 계속 price가 소수점으로 나오네요 ㅠ
import pandas as pdtrain = pd.read_csv("train.csv")test = pd.read_csv("test.csv")train.isnull().sum()train =train.drop(["name", "host_name", "last_review"], axis=1)train["reviews_per_month"] = train["reviews_per_month"].fillna(train["reviews_per_month"].mean())test =test.drop(["name", "host_name", "last_review"], axis=1)test["reviews_per_month"] = test["reviews_per_month"].fillna(test["reviews_per_month"].mean())cols = train.select_dtypes(include = "object").columnsfrom sklearn.preprocessing import LabelEncoderfor col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop("price", axis =1 ), train["price"], test_size=0.1, random_state=2022)from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor()rf.fit(X_tr, y_tr)pred = rf.predict(X_val)pred = rf.predict(test)submit = pd.DataFrame({"id":test['id'], "price": pred})submit.to_csv("990906.csv", index=False) csv를 읽었더니 id price34323697 259.0129927138 115.78 이런식으로 price가 소수점으로 나오는데 어디 코드에서 틀린걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 시험자에서 제출할때
마지막 부분에서 저의 코드는 pred = rf.predict(test)submit = pd.DataFrame({ 'index': test.index, 'target': pred})submit.to_csv("수험번호.csv" , index = False)인데 여기서 submit.to_csv까지만 적고 제출해도 되나요?? 추가적으로 강의 코드를 보면.....rf.fit(X_tr, y_tr)pred =rf.predict(X_val) pred=rf.predcit(test)submit = .... 이런 코드에서 pred 가 2개 중복인데 어떻게 해석해야하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에러가 계속 뜨는데 뭘까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
크롬 버전 문제 질문드립니다.
안녕하세요. 크롬 버전이 115 이상이면 드라이버가 없는데 어떻게 진행할 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 분류문제 관련 문의드립니다...!
작업형 2유형에서 베이스라인으로 데이터 삭제, 라벨 인코딩, 원핫 인코딩 3가지를 시행 후 정확도가 높은 것을 선택하여 최종 제출했는데요! 반드시 이 3가지를 모두 시행해야만 하는건지 궁금합니다..!! 예를 들어 1가지를 시행했을때 정확도가 몇% 이상 나왔을때 그냥 그대로 제출해도 되는건지 이런 기준이 있는건지 궁금합니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시계열데이터 관련 질문
안녕하세요 시계열 데이터 강의까지 봤는데요질문드립니다. 질문1. [시계열데이터1 강]13:08 부근..DateTime4 를 날짜형식으로 변환할때 1) print(df['DateTime4'])2) df['DateTime4'] = pd.to_datetime(df['DateTime4'], format='%d %m %Y H:M:S')3) print(df['DateTime4'])저는 처음에 2)와 같이 작성했는데요 그런데 강의 영상에서도 설명해주시길 format='%d %m %Y H:M:S'을 쓰지 않고 해야 오류없이정상적으로 되네요 ? 시간 분, 초가있을때는 HMS를 넣어줘야 하는거아니었나요?? df['DateTime4'] = pd.to_datetime(df['DateTime4'], format='%d %m %Y H:M:S') 이렇게쓰면 오류 가나오는데? 굳이 포맷을 사용하면서 에러가 안뜨게하려면 어떻게 작성해야하나요?질문2. 데이터프레임에서 특정 열을 날짜형식으로 바꾸고 특정 년도를 추출하라고 했을때정석적인 방법은 알려주신 to_dateTime~ 을 쓰고 dt.year 를 하는것이겟지만 year이 아니라 문법을 모르는 어려운것을 물어볼때 dt.?? 부분이 모르는게 나와 수틀렷을때 쓸수잇는 방법을 알아두는게 좋을것같아서요 -- 날짜변환쓰지않고 데이터프레임상태에서 특정 열에 있는 object 데이터를 object 형식 그대로 왼쪽에서부터 몇글자만 추출하려면 어떻게 하면 될까요? 날짜 메뉴 기타0 2023.10.23(금) 짬뽕 맛없어1 2021.05.24(수) 짜장면 맛있어 예를들어 df 데이터가 위와 같을때 때 2021을 그대로 뽑는다면(df.loc[1,'날짜'])[0:4)이렇게 쓰면 2021이 그대로 추출되는데요 한개의 칸을 특정해서 추출 하는게아니라 날짜 열을 전부 추출하려면 어떻게 해야할까요? 0 20231 2021이렇게 추출하고싶습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정규성 검정, 등분산성 검정 in 가설검정, 분산분석
실제 시험 볼 떄, 정규성 검정과 등분산성 검정을 시행하는 코드를 써야하나요?제 생각으로는 그냥 정규성 검정과 등분산성 검정을 해서 정규성의 유무와 등분산성의 유무만 판단 후, 다시 코드를 지우고분산분석이나 가설검정 코드만 써주면 될것같은데... 어떻게 해야할까요? 정규성, 등분산성을 검정했다~라는 것도 표현하기 위해 정규성 검정 코드, 등분산성 검정 코드를 써야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5-2 강의 내용 관련 질문있습니다.
안녕하세요. 선생님. 5-2 강의 내용 중 잘 이해가 되지 않는 것이 있어 질문드립니다.train.nunique()를 통해 나타난 컬럼 중 name, host_name, last_review, host_id 데이터를 삭제하신 이유가 궁금합니다.nunique()함수는 그 컬럼값 중 고유값이 몇 종류나 되는지 알려주는 것으로 알고 있는데, 그 값과 결측치의 개수가 서로 상관이 있어서 그런것인가요?가령, name같은 데이터는 강의에서 거의 전체 데이터 개수와 nunique함수를 통해 나타난 개수가 별로 차이가 나지 않을 만큼 많기에 지운다고 말씀하셨는데, 이 부분이 잘 이해되지 않습니다.
-
해결됨15일간의 빅데이터 파일럿 프로젝트
휴 설치 에러 yum install scl-utils
yum install centos-release-scl 까지는 설치가 됐는데utils 부분에서 에러가 나네요 ㅠㅠ 어떻게 해결하나요? 그런데 python27은 정상적으로 설치가 됐어요.. 문제없는건가요? 추가로 휴 설치 이후 HBase 탭에서 DriverCarInfo에 들어왔는데 실시간 적재 데이터가 하나도 없는데 실시간 적재 데이터를 다시 수행해야 하는 건지 아니면 데이터가 날라간건지 궁금합니다 .. ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
EDA 데이터 합치기에서 만약 id 순서가 다르거나, 데이터 개수가 다르면 어떻게 합치나요? 시험에서 그런 경우도 있을까요?
데이터를 합칠 때 수업 내용을 보면 ID를 빼고 그냥 합치는 것 같던데 (제가 이해한게 맞다면요.) 혹시 데이터 개수가 다르거나 ID 순서가 다르면 어떻게 해야하나요? 혹시 시험에서 그런 경우도 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
groupby 실행시 오류가 발생해요
주피터 노트북(터미널로 numpy, pandas 설치완료)으로 df.groupby('원두').mean() 실행했는데 오류가 발생해요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수업노트 colab 링크??
선생님 수업노트에 colab 링크 남겨주셨다고 하는데 어디있는지 잘 모르겠습니다. 지금 일일이 치는 중이라 알아두면 좋을 것 같아요 어디있는지 알려주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df로 굳이 설정해야하는건가요??
저는 df 말고 members = pd.read_csv("members.csv")로 쓰고 싶은데 상관없나요??