묻고 답해요
150만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
순위 정보를
불러오고 있어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Wilcoxon 검정 시 양측 검정?
강의에서 Wilcoxon 검정 시 단측 검정만 나왔는데, 양측 검정은 어떻게 하나요?
-
미해결[리뉴얼] 처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part1]
pandas 라이브러리의 quotechar 인자에 대해 질문드립니다
EDA 기본 패턴 적용을 위한 pandas 관련 문법 활용1(업데이트) 강의에서,pandas 라이브러리로 csv 파일 읽기에 다음과 같은 예문이 나오는데요.doc = pd.read_csv("파일명", encoding="utf-8-sig", quotechar=",")구분자는 delimiter 인자를 사용하는 것으로 알고 있었는데, quotechar를 사용하신 이유가 궁금합니다. delimiter와 quotechar의 차이가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 생성코드 실제 시험환경 문의
# 데이터 생성(먼저 실행해 주세요) import pandas as pd import random random.seed(2022) df = pd.DataFrame() for i in range(0, 5): list_box = [] for k in range(0, 200): ran_num = random.randint(1,200) list_box.append(ran_num) df[i+2000] = list_box df = df.T df.to_csv("data.csv", index=True)이렇게 가장먼저 데이터생성하는 코드가 디폴트값으로 적혀있는데, 실제 빅분기시험에서도 이렇게 첫 스타트를 끊는 부분은 저희가 처음부터 별도로 코딩을 하지않아도되는건가요? 실제 시험에서는 어떻게 진행되는지 궁금하네요... 처음부터 문제 읽자마자 데이터 생성을 하고 시작해야하는건지 아니면 데이터 생성코드가 입력되어있으면 그냥 코드실행바로 누르고 시작하는건지 알려주세요
-
해결됨파이썬 주식 매매 봇으로 주식시장 자동사냥하기
미국 주식 분봉 데이터를 얻기 위한 방법은 없나요?
한국투자증권의 api에서는 해외주식의 경우 1달까지만 분봉 데이터를 제공한다고 나옵니다. 미국 주식 분봉 데이터를 얻기 위한 방법은 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
종자와 비료의 p밸류값
8:42에서 종자의 p밸류값은 7.254117e-10비료의 p밸류값은 1.835039e-03으로 나오는데요.둘다 귀무가설을 기각하여 '토마토수'에 영향을 준다는 사실은 이해를 했습니다. 궁금한 점은 p밸류값이 종자가 비료보다 훨씬 수치가 작은데 그렇다면 '종자'가 '비료'보다 토마토수에 더 영향을 끼친다고 해석해도 괜찮은가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델링및평가(분류) 17:30초 지점 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요모델링및평가(분류) 17:30초 지점에서검증용 데이터 분리를 설명하기에 앞서그 위에 문제2가 있는데문제2가 검증용 데이터분리와 연관되나요.즉, 검증용 데이터분리는 문제1에 연장인지 문제2에 해당하는지를 묻습니다.
-
미해결파이썬 주식 매매 봇으로 주식시장 자동사냥하기
5.1.2 강의내용이 5.1.1 강의내용이랑 중복되는거 아닌가요?
내용이 같은거 아닌가 싶어서요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
CV error
CV를 사용하였는데 하기와 같은 오류가 등장했습니다 : --> 98 raise InvalidParameterError( 99 f"The {param_name!r} parameter of {caller_name} must be" 100 f" {constraints_str}. Got {param_val!r} instead." InvalidParameterError: The 'scoring' parameter of cross_val_score must be a str among {'f1', 'jaccard_micro', 'positive_likelihood_ratio', 'adjusted_rand_score', 'jaccard_weighted', 'homogeneity_score', 'average_precision', 'precision_weighted', 'rand_score', 'roc_auc_ovr', 'roc_auc_ovr_weighted', 'precision', 'explained_variance', 'jaccard_macro', 'recall_macro', 'f1_macro', 'normalized_mutual_info_score', 'precision_samples', 'neg_root_mean_squared_log_error', 'r2', 'neg_negative_likelihood_ratio', 'precision_micro', 'neg_max_error', 'mutual_info_score', 'precision_macro', 'f1_micro', 'v_measure_score', 'completeness_score', 'neg_mean_squared_error', 'accuracy', 'neg_brier_score', 'recall_samples', 'jaccard_samples', 'neg_root_mean_squared_error', 'neg_mean_absolute_percentage_error', 'jaccard', 'f1_samples', 'matthews_corrcoef', 'neg_median_absolute_error', 'neg_mean_gamma_deviance', 'recall_micro', 'neg_mean_absolute_error', 'neg_log_loss', 'roc_auc_ovo_weighted', 'd2_absolute_error_score', 'roc_auc', 'adjusted_mutual_info_score', 'recall', 'recall_weighted', 'balanced_accuracy', 'f1_weighted', 'top_k_accuracy', 'roc_auc_ovo', 'neg_mean_squared_log_error', 'fowlkes_mallows_score', 'neg_mean_poisson_deviance'}, a callable or None. Got 'f1-macro' instead.제가 작성한 코드도 함께 공유 드립니다 : import pandas as pd train=pd.read_csv('train.csv') test=pd.read_csv('test.csv') train=train.drop('ID', axis=1) test_id=test.pop('ID') print(train.shape, test.shape) print(train.head()) print(test.head()) print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) y=train.pop('Segmentation') print(y.info(), y.shape) y=y-1 int_cols=train.select_dtypes(exclude='object').columns train[int_cols].corr() cat_cols=train.select_dtypes(include='object').columns print(train[cat_cols].describe(include='object')) print(test[cat_cols].describe(include='object')) for i in cat_cols: train[i]=train[i].astype('object') test[i]=test[i].astype('object') for i in cat_cols: print(train[i].value_counts()) print(test[i].value_counts()) from sklearn.preprocessing import RobustScaler scaler=RobustScaler() for i in int_cols : train[i]=scaler.fit_transform(train[[i]]) test[i]=scaler.transform(test[[i]]) from sklearn.preprocessing import LabelEncoder le=LabelEncoder() for i in cat_cols: train[i]=le.fit_transform(train[i]) test[i]=le.transform(test[i]) print(train.head()) print(test.head()) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val=train_test_split(train, y, test_size=0.2, random_state=2025) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) from sklearn.ensemble import RandomForestClassifier rf=RandomForestClassifier(n_estimators=50, max_depth=7, random_state=2025) rf.fit(X_tr, y_tr) y_pred_rf=rf.predict(X_val) from lightgbm import LGBMClassifier lgbm=LGBMClassifier(random_state=2025) lgbm.fit(X_tr, y_tr) y_pred_lgbm=lgbm.predict(X_val) from xgboost import XGBClassifier xgb=XGBClassifier(random_state=2025) xgb.fit(X_tr, y_tr) y_pred_xgb=xgb.predict(X_val) y_pred_xgb=y_pred_xgb+1 from sklearn.metrics import f1_score print(f1_score(y_val, y_pred_rf, average='macro')) print(f1_score(y_val, y_pred_lgbm, average='macro')) print(f1_score(y_val, y_pred_xgb, average='macro')) from sklearn.model_selection import cross_val_score scores=cross_val_score(rf, train, target, scoring='f1-macro', cv=5) print(scores) print(scores.mean())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
XGBClassifier 사용 에러
XGBClassifier 를 사용해서 target을 분류하려고 하는데, 아래와 같은 에러가 나타납니다 : ValueError: Invalid classes inferred from unique values of y. Expected: [0 1 2 3], got [1 2 3 4]LabelEncoder를 사용해서 processing 도 다 했고, LGBMClassifier랑 RandomForestClassifier는 다 잘 돌아가는데 XGBClassifier만 저런 오류가 나타나네요;;; 참고를 위해 지금까지 작성한 코드 하기로 공유 드립니다 : import pandas as pd train=pd.read_csv('train.csv') test=pd.read_csv('test.csv') train=train.drop('ID', axis=1) test_id=test.pop('ID') print(train.shape, test.shape) print(train.head()) print(test.head()) print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) y=train.pop('Segmentation') y=y.astype('object') y=y.astype('category') print(y.info(), y.shape) int_cols=train.select_dtypes(exclude='object').columns train[int_cols].corr() cat_cols=train.select_dtypes(include='object').columns print(train[cat_cols].describe(include='object')) print(test[cat_cols].describe(include='object')) for i in cat_cols: train[i]=train[i].astype('object') test[i]=test[i].astype('object') for i in cat_cols: print(train[i].value_counts()) print(test[i].value_counts()) from sklearn.preprocessing import RobustScaler scaler=RobustScaler() for i in int_cols : train[i]=scaler.fit_transform(train[[i]]) test[i]=scaler.transform(test[[i]]) from sklearn.preprocessing import LabelEncoder le=LabelEncoder() for i in cat_cols: train[i]=le.fit_transform(train[i]) test[i]=le.transform(test[i]) print(train.head()) print(test.head()) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val=train_test_split(train, y, test_size=0.2, random_state=2025) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) y_val=y_val.astype('category') y_tr=y_tr.astype('category') from sklearn.ensemble import RandomForestClassifier rf=RandomForestClassifier(n_estimators=100, max_depth=5, random_state=2025) rf.fit(X_tr, y_tr) y_pred_rf=rf.predict(X_val) from lightgbm import LGBMClassifier lgbm=LGBMClassifier() lgbm.fit(X_tr, y_tr) y_pred_lgbm=lgbm.predict(X_val) from sklearn.metrics import f1_score print(f1_score(y_val, y_pred_rf, average='weighted')) print(f1_score(y_val, y_pred_lgbm, average='weighted')) from xgboost import XGBClassifier xgb=XGBClassifier() xgb.fit(X_tr, y_tr) y_pred_xgb=xgb.predict(X_val)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
model fit 할 때 unknown label 오류
강의에서 나온 내용 중 pd.get_dummies를 제외하고 동일하게 했는데 RandomForestClassifier로 모델링을 하려고 하니 아래와 같은 오류가 나타납니다 : Unknown label type: unknown. Maybe you are trying to fit a classifier, which expects discrete classes on a regression target with continuous values.
-
미해결금융데이터 분석을 위한 판다스 활용법
영상에서 보이는 게 안보이는 문제
안녕하세요.동영상 강의대로 진행 중이였는데, nbextension칸, cluster칸이 안보이고요, 또, table of contents 같은 아이콘도 안뜹니다. 해결 방법이 있나요? 또, 확장 프로그램 설치할 때 jupyter contrib nbextension install --user 을 아나콘다 프롬프트에 입력을 했는데,ModuleNotFoundError: No module named 'notebook.nbextensions'이라고 뜨네요. 해결 방법 알려주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리하기 문의드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요라이브러리 및 데이터불러오기 20분지점 주어진 데이터 분리하기 train=pd.read_csv("train.csv")test=pd.read_csv("test.csv") 가 주어졌습니다. 이게 어느 단계에서의 작업이며, 데이터를 왜 분리하는지, 어떤 데이터를 분리하는지에 대해 전반적인 설명이 없어서 지금의 학습과정을 이해할 수 없습니다.train과 test가 주어졌다면 타겟레이블을 생성하는 과정이 아닐까 추측해 봤지만,여기서는 income을 삭제했는데 왜 삭제했는지이해가 안 갑니다. 설명을 바랍니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
가독성을 높이는 임시변수명 정하는 방법 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의고사 풀어보기 6분 38초 지점 문의입니다. 위에서 2번의 a는 “data1-2.csv”를 저장하기 위해 생성한 아무 의미 없는 임시변수인지. 종전에 df로 저정하던 것을 a로 바꾼 이유가 있는지. 어떤 의미를 지니는지. 여기서는 (1)data1-2.csv의 데이터프레임을 의미한다고 보고 5번에 a는 “data1-2.csv”에서 임의로 선택한 ['s1','s2','s3','s4','s5','s6'] 컬럼명만 저장한 즉 (2)data1-2.csv에서 -> ['s1','s2','s3','s4','s5','s6'] 컬럼명만 남긴 결과값을 담은 임시변수명인지. 그럼 (1)과 (2)의 의미가 다른데 임시변수명 a로 동일하여 혼란스러워 가독성 문제도 야기되어 보입니다. 이어서 6번 (3)a=a[cols]에서 변수 a는 5번값 a['s1','s2','s3','s4','s5','s6'] 컬럼명을 담은 a와 무엇이 다른지? 같은 의미가 아닌지. 질문은 원데이터에서 1차 가공 후 2차 데이터를 뽑고 2차 데이터에서 3차 가공 후 3차 데이터를 뽑는다면 처음과 마지막에 저장하는 변수를 동일하게 할 것인가 달리 할 것인가. 무엇이 가독성이 좋은가에 관한 질문 같습니다. 일단 이러든 저러든 상관 없는 것이라면무엇이 가독성이 좋은 변수 저장 방식인지 여쭤봅니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cols 변수 문의 드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의고사 풀어보기 6분 지점에서 cols 변수에 대해서도 단순한 임시 변수가 아닌 일부 조건을 담은 변수인 경우에는 구분해서 설명이 되면 좋겠어요. 적어도 자신이 임의로 만든 변수와 외부에서 일정 조건을 포함한 변수를 가져다 쓰는 경우에는 이를 구분해줄 필요가 있습니다. 아니 구분해줘야 한다고 생각을 합니다. 이게 결과값을 저장하기 위해 임시로 폴더명을 정한 건지, 이미 고정된 의미를 가진 파일 명을 포함하고 있는건지 구분을 못하면 개념을 이해 못하고 있는 것이 됩니다. 전자에 해당한다고 판단하여 cols 라는 이름을 따라서 쓰지 않고 임의로 바꿀 경우에는 학습자가 혼란스러워지겠죠.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cond에 대한 개념 정리를 부탁드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의고사 풀어보기 3분지점에서 cond를 설명하셨는데요 변수?라고 하면서 동시에 조건문?이라고도 하셨어요. 2가지 의미에 대한 정리된 개념을 듣지 못했습니다.cond라는 것이 변수고 함수( )는 아니지만 조건식을 만드는 함수의 성격도 동시에 지닌 것인지 여부가 궁금합니다. cond=a['target']==0 지점을 놓고 보면cond는 위치상 결과값을 담기 위한 임시변수에 해당하지만 "설명"에서는 조건을 준다고~ 설명을 하여 이 코드를 작성하는 목적이 1) 저장하는 행위인지 2) 조건식을 부여하기 위한 것인지 3) 둘 다의 의미를 동시에 포함하고 있는지... 개념의 중첩현상으로 해석이 모호합니다. 뒤의 a[cond]와 a=a[cond]를 보면 cond가 임시변수임에는 맞는 것 같습니다.정리를 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Print 코드
시험칠때에는 모든 부분에 print를 써야 하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Timedelta 질문입니다
영상에서 나오는 100일째의 경우days=99를 사용하셨는데100일 이후 이면days=100으로 쓰면 되는 거죠?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3의 문제 7번 3:30초지점 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의문제3의 문제 7번 3:30초지점(문제) index "2001" 데이터(행)의 평균보다 큰 값의 수와 index 2003 데이터(행)의 평균보다 작은 값의 수를 더하시오.문제를 보면 하단에 2001이 아닌 2003이 들어가야 하지 않나요? 검토 및 설명을 바랍니다.
-
미해결비트코인 선물거래 자동매매 시스템(저자직강)
데이터 수집하기 코드가 강의자료 어디에 있나요?
강의 자료가 과제별로 안되어있어서 따라가기가 쉽지 않네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
axis=0, axis=1 개념 정리했습니다. 검토바랍니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 작업형1 모의고사2 2분지점 문제4에서 정리했습니다. axis=0 (기본값) → 행을 따라 연산, 열을 기준으로 결과 반환sum(axis=0): 각 열(Column)의 합계 계산count(axis=0): 각 열별 NaN 제외 개수 반환drop(axis=0): 행(Row) 삭제 axis=1 → 열을 따라 연산, 행을 기준으로 결과 반환sum(axis=1): 각 행(Row)의 합계 계산count(axis=1): 각 행별 NaN 제외 개수 반환drop(axis=1): 열(Column) 삭제연산(sum, count 등)은 axis=0이면 열 기준, axis=1이면 행 기준으로 수행되고, 반면에 삭제(drop)는 반대로 axis=0이면 행 삭제, axis=1이면 열 삭제가 됩니다. 이 내용이 맞는지 검토 바랍니다.맞다면 (sum, count 등)과 달리 삭제(drop)시에는 반대로 적용되는지가 궁금합니다.
주간 인기글
순위 정보를
불러오고 있어요