묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형1), 문제2
len(df) * 0.8 df = df.iloc[:80] df.isnull().sum() std1 = df['f1'].std() print(std1) #std1 = 20.574853076621935 m = df['f1'].median() # 중앙값은 68 df['f1'] = df['f1'].fillna(m) df.isnull().sum() #결측치채워진것 확인 std2 = df['f1'].std() print(std2) print(abs(std1-std2)) 2회기출유형(작업형1) 문제2를 따라하다가, 질문드립니다. 위와 같이 해서 17.010788646613268 17.010788646613268 0.0이렇게 std1 과 std2 값이 같게 나왔는데..제가 주석처리한것보면 처음에는 제대로 나왔었거든요.처음에 80%데이터 iloc에 80을 그냥 숫자로 적은것과 관련이있는가싶은데, 설명부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
공식예시문제 작업형2 에러코드
공식예시문제 작업형2 에러코드 문의 드립니다. [파일첨부]import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv") train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)# print(train.isnull().sum()) # 수치형 데이터 전처리cols = ['총구매액', '최대구매액', '환불금액', '방문일수', '방문당구매건수', '주말방문비율', '구매주기']from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()train[cols] = scaler.fit_transform(train[cols])test[cols] = scaler.fit(test[cols])# print(train.head()) # 오브젝트형 데이터 전처리cols = train.select_dtypes(include='O').columnstrain = pd.get_dummies(train, columns=cols)test = pd.get_dummies(test, columns=cols)print(train.head()) # 데이터 분리 from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop('성별', axis=1), train['성별'], test_size=0.2, random_state=2024) # 모델&평가from sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import roc_auc_scorerf = RandomForestClassifier(random_state=2024, max_depth=7, n_estimators=200)rf.fit(X_tr, y_tr)pred = rf.predict_proba(X_val)[:, 1]print(roc_auc_score(y_val, pred))# 0.6882619421394 여기까지는 에러없이 평가까지 잘되는데...#제출pred = rf.predict_proba(test)이걸 넣으면 아래처럼 에러가 떠요. 뭐가 문제일까요...ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에어비엔비 가격 문제 중 오브젝트 컬럼 삭제 관련 문의입니다.
오브젝트 컬럼을 인코딩 하지 않고 삭제해도 성능에는 지장이 없나요?추가로 test에는 id를 쓸거라 pop으로 빼논 이유는저장해야되는 값에 id를 요구해서 그런건가요?test에 id값이 있으면 안되는 이유나 오류가 나는 이유가 train값이랑 컬럼이 동일해야 해서인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출문제 원핫인코딩 관련 질문입니다.
원핫인코딩 시, 만약에 test 데이터에 train에서 포함하지 않은 값이 있어 컬럼이 하나 더 생기는 상황이 발생한다면레이블인코딩으로 진행해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1번 공부하다가 질문이 있어 남깁니다.
안녕하세요. 작업형 1번 공부하다가 의문점이 있어 질문 남깁니다.혹시 작업형 1번을 풀 때, 중간에 csv 파일을 제출하고 해당 csv 파일을 불러와서 다시 작업을 이어가도 괜찮을까요?예를들어 행이 1~100까지의 DataFrame이 있는데 결측치 처리를 한다고 20개의 행을 날려서 80개의 행만 남았습니다. 근데 행이 중간중간 날라가서 index 번호를 보니까 0 1 2 4 6 7 8 10 이렇게 군데 군데가 비어있습니다. for문을 사용할 때, 해당 DataFrame을 loc으로 처리하면 중간에 비어있는 index 번호 때문에 오류가 납니다. 그래서 이렇게 결측치 처리된 csv 파일을 중간에 to_csv로 보내고, 해당 파일을 다시 불러오면 index가 0~80까지 이쁘게 나오더라고요. 혹시 이러한 방법이 문제가 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문 판다스기초1에서..
DataFrame.drop() takes from 1 to 2 positional arguments but 3 were given열 삭제 부분에서 axis = 1 실행할땐 잘 되었는데 앞을 생략해서 1만 쓰고 다시 해서 이런 오류가 뜹니다. 어떻게 할 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3 작업형1 모의고사 풀어보기 1-3 문제 질문드립니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요~섹션3 작업형1 모의고사 풀어보기 1-3 문제에서 '고유한 값'이 가장 많은 칼럼을 구하라고 했는데, 고유한 값이라는게 중복 데이터가 아닌 값들의 갯수를 구하는 건가요? 지금 이해가 안가는게 뭐냐면, nuique함수를 쓰면 고유한 값의 갯수가 400 이상 되는데, 실제로 data의 크기는 (5,31)니까 고유한 값은 최대 5개 이상 안되는거 아닌가요?? nuique가 어떤 값을 의미하는지 잘 모르겠습니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라이브러리 및 데이터 불러오기 그리고 EDA 데이터 합치기 나누기
라이브러리 및 데이터 불러오기 그리고 EDA 강의를 듣고있는데, 데이터를 나누고 합치는데 그 기준은 무엇인가요? 강의 끝부분에서 x_train, y_train 데이터를 합치고, train 을 x,y 로 나누던데 어떤 기준으로 합치기를 하고 income만 남기고 왜 또 나누는건지 감을 못잡겠습니다. 데이터를 힙치고 나눠야한다는 기준은 어떤 기준을 잡아서 실행해야 할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라이브러리 및 데이터 불러오기 그리고 EDA 강의 합치기 나누기
라이브러리 및 데이터 불러오기 그리고 EDA 강의를 듣고있는데, 데이터를 나누고 합치는데 그 기준은 무엇인가요? 강의 끝부분에서 데이터를 합치고, 나누던데 어떤 기준으로 합치기를 하고 income만 남기고 왜 또 나누는건지 감을 못잡겠습니다. 데이터를 힙치고 나눠야한다는 기준은 어떤거로 잡아서 실행해야 할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-6 문제에서 iloc
문제 : T1-6. 결측치 제거 및 그룹 합계 Expected Questionshttps://www.kaggle.com/agileteam/py-t1-6-expected-questions 문의 내용 : 'city가 경기이면서 f2가 0'인 조건에 만족하는 f1 값을 구할 때df.iloc[0, 0]["f1"] 이 아니라 왜 df.iloc[0]["f1"] 이렇게 입력해야 하는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 데이터 전처리에 대해
예를 들어 회귀분석에서 설명변수 표준화, 이상치 처리, 반응변수 로그변환 등 전처리를 통해 모델 성능을 높일 수 있잖아요.전처리에 따라 계수추정치, p value가 달라질 수 밖에 없는데, 계수추정치와 p value를 묻는 문제에서는 전처리한 결과를 바탕으로 정답 작성하면 오답처리 되나요?3유형은 정답이 있다고 들었습니다. 사람마다 전처리 과정이 다 다를텐데 정답이 있을 수 있다는게 잘 이해가 안돼요. 아니면 3유형은 무조건 전처리 없이 풀어야 하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리(결측치 채울때 궁금한점)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요! 공부하다 궁금한 점이 있어 질문드립니다.데이터 전처리할때, 수치형 변수 스케일링은x_train의 값으로 scaler.transform(test)만 하는것으로 이해를 했습니다! 그런데 결측치 처리를 할때에는 train은 train의 값으로test는 test의 값으로 채우는데.. 수치형 변수 처리할때처럼 train값으로 test 값을 처리하는 것이 아니라, 결측치는 각 데이터 셋의 값으로 채우는것이 맞을까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sum(), len(), count() 각각 언제 사용되는지 차이가 궁금합니다
합계, 길이, 개수 이런식으로 문제에 명시되지 않고 데이터 수를 구하여라 이런 식으로 적혀있을 때, sum이 사용된 적도 있고 len이 사용된 적도 있는데 sum(), len(), count() 각각 언제 사용되는지 궁금합니다수치형, 범주형에 따른 사용 가능 여부 차이도 있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3-3 문제 8번에서
views가 세번째로 큰 city(도시) 이름을df.iloc[2,0] 가 아닌 df.loc[2,0] 로 출력하면 오류가 나는 이유가 무엇인가요??왜 loc로는 안되는지 궁금합니다! 또, iloc는 해당 숫자를 미포함하는걸로 이해하고 있는데 3번째인 대구를 출력하기 위해 왜 df.iloc[3,0] 가 아니라 df.iloc[2,0] 가 입력되는지 모르겠습니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[6회 기출] 작업형 1.3문제에 대해 질문드립니다.
월평균을 구해야하는 데선생님께서는 뒤에 sum() / 12를 하셨는데 이거를 그냥 mean()으로 구해도 되는걸까요?! 그리고 sum() / 12와 mean()은 둘다 평균을 구하는 코드 일까요.?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3유형에서 가설검증 결과를 제출할 때
print("귀무가설 기각") 라고만 작성해도 되나요? "귀무가설 기각. 약물을 복용한 그룹과 복용하지 않은 그룹의 평균 체온은 유의미한 차이가 없다" 이런 식으로 가설 내용도 함께 기재해야 하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
nothon 노트 질문
Notion 노트는 어떻게 다운로드 또는 같은 notion으로 페이지 복사를 할 수 있나여??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
len과 sum의 차이
조건에 len을 쓰면 조건 값의 길이가 아닌 전체 행의 길이가 나오는데 len은 sum과 같이 조건식 계산 출력이 안되나요??조건의 합을 구하려면 sum만 가능한가요?print(sum(df['qsec'] >0.5)) -> 9print(len(df['qsec'] >0.5)) -> 32
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
'행'과 '인덱스'는 같은 개념이라고 봐도 될까요?
loc , iloc를 따질 때 '행'과 '인덱스'를 같은 개념이라고 생각하고 풀어도 상관없을까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립표본검정강의
독립표본 검정 강의 예시에서 보면 두집단 A,B에 대해 2가지 방법을 아래와 같이 설명 하셨는데, 결론이 상이한것이 질문입니다.방법 1: shapiro-wilk 정규성 검증 을 통해 A집단이 정규성을 띄지 않는 다는 것을 알았고, 비모수 검증으로 mannwhiteyu 검정을 통해 그룹별 차이가 없다로 결론방법2: levene 검증을 통해 분산이 동일 하지 않다를 알고,ttest_ind에 equal_var=False 옵션을 추가해서 검증 후, B그룹 평균점수가 더 높다라는 결론 -> 데이터가 동일한데 결론이 달라서 이해가 안갑니다