묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test data 결측치 채우는 이유?
이렇게 X_test도 fillna로 결측치를 없애주셨는데제가 정확히 어느강의에서 들은건지는 기억이 안나나test data는 말그대로 테스트용이기 때문에 가공하면안된다라고 기억하고있습니다.그런데 결측치를 채우는 이유가 뭘까요?테스트데이터는 정확히 어느정도까지 가공이 되는지가 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 pop 함수
train = train.drop['ID']target = train.pop['target']test_ID = test.pop['ID'] 작업형2에서 위의 코드들을 쓰시는데, 정확히 이 코드들은 어느 단계에서 쓰는걸까요?1) 피처 엔지니어링 전2) 피처 엔지니어링 후, train / validation 데이터 분리 전
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문
1) 수치형 변수만 활용2) 수치형 변수 & 범주형 변수 모두 활용 (라벨인코딩, 원핫인코딩) 두 가지 방식을 알려주셨는데, 질문이 있습니다.각 방식을 사용하고 평가를 해보았을 때, 1)의 방식으로 했을 때 모델의 성능이 더 좋아지는 것을 확인하였다고 한다면, 실제 시험 시 모델 성능이 더 좋은 1)의 방식으로 제출해야 하는 걸까요, 아니면 보다 심화 버전인 2)의 방식으로 제출해야 하는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형(작업형2)
4회 기출 유형(작업형2)까지 수강하였을 때, 제가 이해한 내용은 다음과 같습니다. <모델의 성능을 평가하는 방법>데이터 분리 (X_tr, X_val, y_tr, y_val) → 모델 학습 & 하이퍼 파라미터 튜닝 → 평가 (f1 score, roc_auc_score 등) 하이퍼 파라미터 튜닝의 값을 조절해가며 평가 점수 확인데이터 분리 없이, 모델 학습 & 하이퍼 파라미터 튜닝 → 교차검증 (cross_val_score) 이때 질문드립니다.제가 이해한 대로, 모델의 성능을 평가하는 방법이 위의 2가지가 있는게 맞을까요?강사님이 영상에서 교차검증을 사용한 이유는 문제에서 평가 방식을 '평가: Macro f1-score'라고 제시해주었기 때문인가요?혹시 실제 시험 상황에서 평가 방식을 제시해주지 않는다면, 위의 2가지 방법 중 어떤 것을 사용해도 상관이 없는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3-2 문제 6번에서
섹션3-2 문제 6번에서 아래와 같이 풀면 왜 정답이 달라지는지 알 수 있을까요??? 어느 부분을 수정하면 될까요?? import pandas as pd df = pd.read_csv("members.csv") # 제거 전 views 표준편차 std_before = df["views"].std() df["age"] = df["age"] == round(df["age"], 0) df["age"] = df["age"] > 0 # 제거 후 views 표준편차 std_after = df["views"].std() round(std_before + std_after, 2)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Wilcoxon 검정 관련 질문
안녕하세요, 강의 복습 중 Wilcoxon 검정 관련질의사항이 있어 질문 남깁니다. 단일표본 검정에서 wilcoxon 검정 시stats.wilcoxon(df['무게'] - 120, alternative='less')-120을 사용해서 진행이 되었는데요. 대응표본에서는 - 부호가 아닌df['before'], df['after'] 나열식 혹은df['before'] - df['after'] 둘다 동일한 결과값을얻는 것 같아 단일표본도 동일하게 df['무게'], 120 으로 입력 하였더니 오류가 발생하더라고요.통계 개념이 약해서인지 단일표본은 안되고 대응표본은되는게 이해가 안되서 질의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-2 작업형 1 모의문제2 문제4
4-2 작업형 1 모의문제2 에서 문제 4 에서 df = df.select_dtypes(exclude="O").columns 말고 df = df.select_dtypes(exclude="O") 로 해서 풀어도 맞게 푸는거죠? object 타입 칼럼을 제외시키는 것 = 거기에 딸린 데이터들도 같이 제거하는 것 이라고 생각해서 df = df.select_dtypes(exclude="O")로만 해서 풀고 결과는 같게 나왔거든요.이게 문제가 없다면 간략한 방식으로 접근하고 싶은데, 확인차 문의글 남깁니다. 확인 부탁드립니다. 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 3회 작업형2 예측부분 오류
몇 번을 봐도 선생님과 동일하게 코드를 작성했는데 이부분에서 ValueError가 나네요 ㅠㅠ혹시 어디부분 코드 수정 필요한지 알려주시면 감사하겠습니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 결측치 채울 때 기준데이터
피처 엔지니어링 강의 시작부분 데이터 전처리 로직 관련 질문입니다.데이터전처리 X_test 결측치를 채울 때 클래스, 국가의 경우 X_test의 최빈값을 사용하고, 나이나 주당 근무시간은 X_train 평균을 사용하는데 어떤건 X_train을 사용하고, 어떤건 X_test를 사용하는 이유가 있는걸까요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 5번 질문
안녕하세요 선생님!작업형1 모의문제 2번의 문제5를 풀고 있는데,다른 인강에서 알려준 syntax로 코딩하는데 이렇게 하니 outlier 검출이 안되더라구요.문법적으로는 오류가 없어 보이는데 혹시 이 syntax는 틀린 걸까요?? q1 = np.quantile(df['views'], 0.25) q3 = np.quantile(df['views'], 0.75) iqr = q3-q1 print(iqr) lower = q1 - iqr*1.5 upper = q3 + iqr*1.5 outliers = (df['views'] < lower) | (df['views'] > upper) sum_out = sum(outliers) print(sum_out)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4회 작업형 2 오류(샘플수)
# 라이브러리 불러오기import pandas as pd # 데이터 불러오기train = pd.read_csv("train.csv")test = pd.read_csv("test.csv") # EDAtrain.shape, test.shapetrain.head()test.head()train.info()train.isnull().sum()train['Segmentation'].value_counts() # 변수값 처리target = train.pop('Segmentation')train = train.drop('ID', axis=1)test_id = test.pop('ID') # 피처엔지니어링train = pd.get_dummies(train)test = pd.get_dummies(test) # 데이터분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_tr = train_test_split(train, target, test_size=0.2, random_state=2024)X_tr.shape, X_val.shape, y_tr.shape, y_tr.shape>> ((5332, 28), (1333, 28), (1333,), (1333,)) # 모델구축 및 평가from sklearn.ensemble import RandomForestClassifierfrom xgboost import XGBClassifierfrom sklearn.metrics import f1_score [에러부분] 샘플갯수가 안맞다고 하는거 같은데 해결방법을 모르겠어요.rf = RandomForestClassifier(random_state=2024) rf.fit(X_tr, y_tr) pred = rf.fit(X_val) print(f1_score(y_val, pred))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
.str이 생각이 안날때 찾는 방법 있나요?
string 값을 슬라이스 하는게 .str인데..이게 생각이 안날때 help같은 걸 사용해서 찾는 방법이 있을가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의고사 풀어보기 (columns명 추출)
작업형1-2s1, s2, s3, s4, s5, s6, 컬럼의 행(row)별 합을 구하고 그 합이 0.1보다 큰 값의 수를 구하시오풀이를 보면 문제에서 요구하는 컬럼명을 아래와 같이 수기로 입력하여 cols에 대입하였는데요.cols = ['s1', 's2', 's3', 's4', 's5', 's6']수기로 입력하지 않고 컬럼명을 추출하는 방법이 있는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형2)
RandomForestClassifier 에서pred=r.predict_proba(X_val)[:,1] 로 적혀있는데이전 회차까지는 (X_val)까지로만 공부했는데이번 문제에서는 [:,1]이 추가된 이유가 뭔지 궁금해요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict, predict_proba 차이
3-5 classification 강의 학습중인데,predict, predict_proba 차이가 잘 이해가 되지 않습니다.어떤 경우에 따라서 두 함수를 나누어쓰는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩에서 X_train을 쓰는이유?
제가 이해한게 맞다면 원핫인코딩은 범주형 데이터에 쓰는 것이기 때문에기존에 n_train, c_train으로 각각 나누고라벨인코딩은 c_train으로 le.fit_transform을 하였습니다.그런데 왜 원핫인코딩은 갑자기 X_train으로 하는것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 6번
소수점 제거를 위해서 round( , 0) 사용하는 풀이 알려주셨는데요 % 연산자로 나머지가 0이 아닌 조건 걸어서 풀어도 상관 없을까요?# your code import pandas as pd df = pd.read_csv('members.csv') print(df.shape) cond1 = df['age'] <=0 df = df[~cond1] print(df.shape) cond2 = df['age'] %1 !=0 df = df[~cond2] print(df.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출 작업형 2 질문입니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 이 부분에서 왜 갑자기 y_true 가 쓰이는지 이해가 잘 가지 않습니다 ! rmse 에 대한 설명도 부탁드립니다. from sklearn.metrics import mean_squared_error def rmse(y_true, y_pred): return mean_squared_error(y_true, y_pred)**0.5
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오징어게임 접속 불가
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요분명히 가입하여 접속했었는데요오늘 들어가니 아이디 비번이 모두 틀리다고 나옵니다.접속이 안되고 있습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이 강의가 비전공 초짜 대상 맞나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요빅분기 실기 준비중입니다. 결제전에 초심자용이라고 해서 들어왔습니다.그런데 처음 변수부터 변수 설명을 안 해주시네요.개념을 좀 설명 하고 나서 들어가야 비전공 초짜 대상 강의 아닌가요?각각의 변수를 왜 사용하는지 개념부터 알고 들어가야 하는데바로 진행하시니 이걸 왜 하는지 이해 못하면서 따라가다 멈추고 유튜브 영상에서 도움받아가면서 보고 있습니다. 이 강의가 비전공자 초짜 대상 맞나요?