묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-2 작업형 1 모의문제2 문제4
4-2 작업형 1 모의문제2 에서 문제 4 에서 df = df.select_dtypes(exclude="O").columns 말고 df = df.select_dtypes(exclude="O") 로 해서 풀어도 맞게 푸는거죠? object 타입 칼럼을 제외시키는 것 = 거기에 딸린 데이터들도 같이 제거하는 것 이라고 생각해서 df = df.select_dtypes(exclude="O")로만 해서 풀고 결과는 같게 나왔거든요.이게 문제가 없다면 간략한 방식으로 접근하고 싶은데, 확인차 문의글 남깁니다. 확인 부탁드립니다. 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 3회 작업형2 예측부분 오류
몇 번을 봐도 선생님과 동일하게 코드를 작성했는데 이부분에서 ValueError가 나네요 ㅠㅠ혹시 어디부분 코드 수정 필요한지 알려주시면 감사하겠습니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 결측치 채울 때 기준데이터
피처 엔지니어링 강의 시작부분 데이터 전처리 로직 관련 질문입니다.데이터전처리 X_test 결측치를 채울 때 클래스, 국가의 경우 X_test의 최빈값을 사용하고, 나이나 주당 근무시간은 X_train 평균을 사용하는데 어떤건 X_train을 사용하고, 어떤건 X_test를 사용하는 이유가 있는걸까요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 5번 질문
안녕하세요 선생님!작업형1 모의문제 2번의 문제5를 풀고 있는데,다른 인강에서 알려준 syntax로 코딩하는데 이렇게 하니 outlier 검출이 안되더라구요.문법적으로는 오류가 없어 보이는데 혹시 이 syntax는 틀린 걸까요?? q1 = np.quantile(df['views'], 0.25) q3 = np.quantile(df['views'], 0.75) iqr = q3-q1 print(iqr) lower = q1 - iqr*1.5 upper = q3 + iqr*1.5 outliers = (df['views'] < lower) | (df['views'] > upper) sum_out = sum(outliers) print(sum_out)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4회 작업형 2 오류(샘플수)
# 라이브러리 불러오기import pandas as pd # 데이터 불러오기train = pd.read_csv("train.csv")test = pd.read_csv("test.csv") # EDAtrain.shape, test.shapetrain.head()test.head()train.info()train.isnull().sum()train['Segmentation'].value_counts() # 변수값 처리target = train.pop('Segmentation')train = train.drop('ID', axis=1)test_id = test.pop('ID') # 피처엔지니어링train = pd.get_dummies(train)test = pd.get_dummies(test) # 데이터분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_tr = train_test_split(train, target, test_size=0.2, random_state=2024)X_tr.shape, X_val.shape, y_tr.shape, y_tr.shape>> ((5332, 28), (1333, 28), (1333,), (1333,)) # 모델구축 및 평가from sklearn.ensemble import RandomForestClassifierfrom xgboost import XGBClassifierfrom sklearn.metrics import f1_score [에러부분] 샘플갯수가 안맞다고 하는거 같은데 해결방법을 모르겠어요.rf = RandomForestClassifier(random_state=2024) rf.fit(X_tr, y_tr) pred = rf.fit(X_val) print(f1_score(y_val, pred))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
.str이 생각이 안날때 찾는 방법 있나요?
string 값을 슬라이스 하는게 .str인데..이게 생각이 안날때 help같은 걸 사용해서 찾는 방법이 있을가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의고사 풀어보기 (columns명 추출)
작업형1-2s1, s2, s3, s4, s5, s6, 컬럼의 행(row)별 합을 구하고 그 합이 0.1보다 큰 값의 수를 구하시오풀이를 보면 문제에서 요구하는 컬럼명을 아래와 같이 수기로 입력하여 cols에 대입하였는데요.cols = ['s1', 's2', 's3', 's4', 's5', 's6']수기로 입력하지 않고 컬럼명을 추출하는 방법이 있는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형2)
RandomForestClassifier 에서pred=r.predict_proba(X_val)[:,1] 로 적혀있는데이전 회차까지는 (X_val)까지로만 공부했는데이번 문제에서는 [:,1]이 추가된 이유가 뭔지 궁금해요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict, predict_proba 차이
3-5 classification 강의 학습중인데,predict, predict_proba 차이가 잘 이해가 되지 않습니다.어떤 경우에 따라서 두 함수를 나누어쓰는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩에서 X_train을 쓰는이유?
제가 이해한게 맞다면 원핫인코딩은 범주형 데이터에 쓰는 것이기 때문에기존에 n_train, c_train으로 각각 나누고라벨인코딩은 c_train으로 le.fit_transform을 하였습니다.그런데 왜 원핫인코딩은 갑자기 X_train으로 하는것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 6번
소수점 제거를 위해서 round( , 0) 사용하는 풀이 알려주셨는데요 % 연산자로 나머지가 0이 아닌 조건 걸어서 풀어도 상관 없을까요?# your code import pandas as pd df = pd.read_csv('members.csv') print(df.shape) cond1 = df['age'] <=0 df = df[~cond1] print(df.shape) cond2 = df['age'] %1 !=0 df = df[~cond2] print(df.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출 작업형 2 질문입니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 이 부분에서 왜 갑자기 y_true 가 쓰이는지 이해가 잘 가지 않습니다 ! rmse 에 대한 설명도 부탁드립니다. from sklearn.metrics import mean_squared_error def rmse(y_true, y_pred): return mean_squared_error(y_true, y_pred)**0.5
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오징어게임 접속 불가
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요분명히 가입하여 접속했었는데요오늘 들어가니 아이디 비번이 모두 틀리다고 나옵니다.접속이 안되고 있습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이 강의가 비전공 초짜 대상 맞나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요빅분기 실기 준비중입니다. 결제전에 초심자용이라고 해서 들어왔습니다.그런데 처음 변수부터 변수 설명을 안 해주시네요.개념을 좀 설명 하고 나서 들어가야 비전공 초짜 대상 강의 아닌가요?각각의 변수를 왜 사용하는지 개념부터 알고 들어가야 하는데바로 진행하시니 이걸 왜 하는지 이해 못하면서 따라가다 멈추고 유튜브 영상에서 도움받아가면서 보고 있습니다. 이 강의가 비전공자 초짜 대상 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형1), 문제2
len(df) * 0.8 df = df.iloc[:80] df.isnull().sum() std1 = df['f1'].std() print(std1) #std1 = 20.574853076621935 m = df['f1'].median() # 중앙값은 68 df['f1'] = df['f1'].fillna(m) df.isnull().sum() #결측치채워진것 확인 std2 = df['f1'].std() print(std2) print(abs(std1-std2)) 2회기출유형(작업형1) 문제2를 따라하다가, 질문드립니다. 위와 같이 해서 17.010788646613268 17.010788646613268 0.0이렇게 std1 과 std2 값이 같게 나왔는데..제가 주석처리한것보면 처음에는 제대로 나왔었거든요.처음에 80%데이터 iloc에 80을 그냥 숫자로 적은것과 관련이있는가싶은데, 설명부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
공식예시문제 작업형2 에러코드
공식예시문제 작업형2 에러코드 문의 드립니다. [파일첨부]import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv") train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)# print(train.isnull().sum()) # 수치형 데이터 전처리cols = ['총구매액', '최대구매액', '환불금액', '방문일수', '방문당구매건수', '주말방문비율', '구매주기']from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()train[cols] = scaler.fit_transform(train[cols])test[cols] = scaler.fit(test[cols])# print(train.head()) # 오브젝트형 데이터 전처리cols = train.select_dtypes(include='O').columnstrain = pd.get_dummies(train, columns=cols)test = pd.get_dummies(test, columns=cols)print(train.head()) # 데이터 분리 from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop('성별', axis=1), train['성별'], test_size=0.2, random_state=2024) # 모델&평가from sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import roc_auc_scorerf = RandomForestClassifier(random_state=2024, max_depth=7, n_estimators=200)rf.fit(X_tr, y_tr)pred = rf.predict_proba(X_val)[:, 1]print(roc_auc_score(y_val, pred))# 0.6882619421394 여기까지는 에러없이 평가까지 잘되는데...#제출pred = rf.predict_proba(test)이걸 넣으면 아래처럼 에러가 떠요. 뭐가 문제일까요...ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에어비엔비 가격 문제 중 오브젝트 컬럼 삭제 관련 문의입니다.
오브젝트 컬럼을 인코딩 하지 않고 삭제해도 성능에는 지장이 없나요?추가로 test에는 id를 쓸거라 pop으로 빼논 이유는저장해야되는 값에 id를 요구해서 그런건가요?test에 id값이 있으면 안되는 이유나 오류가 나는 이유가 train값이랑 컬럼이 동일해야 해서인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출문제 원핫인코딩 관련 질문입니다.
원핫인코딩 시, 만약에 test 데이터에 train에서 포함하지 않은 값이 있어 컬럼이 하나 더 생기는 상황이 발생한다면레이블인코딩으로 진행해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1번 공부하다가 질문이 있어 남깁니다.
안녕하세요. 작업형 1번 공부하다가 의문점이 있어 질문 남깁니다.혹시 작업형 1번을 풀 때, 중간에 csv 파일을 제출하고 해당 csv 파일을 불러와서 다시 작업을 이어가도 괜찮을까요?예를들어 행이 1~100까지의 DataFrame이 있는데 결측치 처리를 한다고 20개의 행을 날려서 80개의 행만 남았습니다. 근데 행이 중간중간 날라가서 index 번호를 보니까 0 1 2 4 6 7 8 10 이렇게 군데 군데가 비어있습니다. for문을 사용할 때, 해당 DataFrame을 loc으로 처리하면 중간에 비어있는 index 번호 때문에 오류가 납니다. 그래서 이렇게 결측치 처리된 csv 파일을 중간에 to_csv로 보내고, 해당 파일을 다시 불러오면 index가 0~80까지 이쁘게 나오더라고요. 혹시 이러한 방법이 문제가 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문 판다스기초1에서..
DataFrame.drop() takes from 1 to 2 positional arguments but 3 were given열 삭제 부분에서 axis = 1 실행할땐 잘 되었는데 앞을 생략해서 1만 쓰고 다시 해서 이런 오류가 뜹니다. 어떻게 할 수 있을까요?