묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1, 모의문제1의 문제3 질문있습니다!
안녕하세요!f3의 결측치를 변환할 때 .replace()와 .map()을 알려주셨는데요, 두 개의 차이가 궁금해서 질문드립니다! 아래는 제가 푼 풀이 과정인데 결과는 133이 나오더라고요!# f3의 결측치를 0으로 변환 # dt['f3'].isnull().sum() # 변환 전 28개 dt['f3'] = dt['f3'].fillna(0) # dt['f3'].isnull().sum() # 변환 후 0개 # silver를 1, gold는 2, vip는 3으로 변환 a = {"silver" : 1, "gold" : 2, "vip" : 3} dt['f3'] = dt['f3'].replace(a) # 총 합 구하기 print(int(sum(dt['f3'])))강의를 보니 .replace()는 앞에서부터 하나씩 순차적으로 변환되고.map()은 딕셔너리를 사용해 일괄 변환된다고 하셨는데, (제가 이해한 게 맞을까요..?)제가 푼 풀이 과정은 딕셔너리를 만들어서 replace로 변환한 거라 이것도 맞는 과정인지, 우연의 일치인지 궁금합니다!ㅠㅠ 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원 분산 분석 링크가 동작하지 않아요.
이원 분산 분석의 아래 링크가 없다고 나옵니다.노트북(빈칸): https://bit.ly/3ZFv4IZ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5-1 강의 내용 문의드립니다
안녕하세요 선생님! 5-1 수업에서 이해가 되지 않는 부분이 있어서 문의글 남깁니다.이 부분에서 보시면 print 문은 4개인데,결과로 나오는 값은 5개(블럭 표시 되어있는 부분)더라구요..!제가 실행했을 때의 값과 비교해보니 순서대로 정확도(0.96668~), 정밀도(0.94444~), 재현율(0.843511~), F1(0.89112~) 값이 출력된 것 같은데요,마지막 값(0.87169~)은 어떤 문장의 결과일까요?ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
주말일 경우 "주말"로 표시되게끔 하고 싶어요.
df['is주말'] = df['DateTime3'].dt.dayofweek >= 5 이 다음에 주말일 경우 "주말"로 표시되게끔 하려면 어떻게 함수를 만들어야 할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
y_train은 왜 필요한거예요? ㅠㅠ
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요라이브러리 및 데이터 불러오기 강의에서 X_train, X_test는 왜 필요한지 알겠습니다. 근데 y_train은 왜 필요한거예요? target(label)이라고 생각하면 될까요? 즉, 이게 맞는지 아닌지 판단하는 기준이라고 생각하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-2 type1 작업형1 6번 문제 문의드립니다.
안녕하세요, 수강생입니다.학습 중에 궁금한 사항이 있어 문의글 남깁니다. 문제6 (데이터는 members.csv)'age' 컬럼의 이상치(소수점 나이와 음수나이, 0포함)를 제거하고제거 전 후의 views 컬럼 표준편차를 더하시오 (최종 결과 값은 소수 둘째자리까지 출력, 셋째자리에서 반올림) [ 풀이 코드 ]# 풀이 import pandas as pd df = pd.read_csv("members.csv") r1 = df['views'].std() cond = df['age'] <= 0 # print(df.shape) df = df[~cond] # print(df.shape) # print(df.shape) cond = df['age'] == round(df['age'],0) df = df[cond] # print(df.shape) r2 = df['views'].std() print(round(r1 + r2, 2))답은 : 8420.69 가 나왔고, [ 저의 코드 ]import pandas as pd df = pd.read_csv('members.csv') # print(df.head()) # print(df['age']) r1 = df['views'].std() df['age'] = df['age'] > 0 df['age'] = df['age'] == round(df['age'],0) r2 = df['views'].std() print(round(r1+r2, 2))저의 답은 8341.72 가 나왔는데.... 저의 질문은 'age' 컬럼의 이상치를 제거하면 제거한 값을 'age' 컬럼에 그대로 덮어쓰고 코드를 작성하는게 맞을 것 같은데 풀이는 cond 라는 변수로 받고 전체 df 데이터에 이상치 제거 값을 덮어쓰셨더라구요.어떠한 차이가 있는지 궁금합니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
transform 이해가 안돼요
cols = ['neighbourhood_group', 'neighbourhood', 'room_type'] from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) train[cols]마지막에 train[col]이 아니고 train[cols]에 담긴게 이해가 안돼요 cols에서 꺼내서 col에 담았고.. for문 아래에도 col에 담았는데 왜 최종적으로는 cols에 담긴거예요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test 예측에서 에러는 뭘까요...
(사진)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
n_estimators 와 max_depth 를 튜닝 하지 않고, random_state 만 줬는데
평가가 0.81 정도 나왔어요. n_estimators 와 max_depth 별도로 하지 않고 random_state 만 줘도 될까요 ? n_estimators 와 max_depth 까지 외우려니 버거워서요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립성검정 <-> 단일표본검정 문제 구분방법
질문1카이제곱검정적합도검정독립성검정 3가지 강의를 듣다보니 그전 카테고리 강의인 독립표본검증과 문제가 유사해보이는데 어떨때 독립표본검정으로 판단하고 ttest를 쓰고 어떨때 적합도검정 or 카이제곱검정을 쓰는지요? 독립표본검정도 서로다른 두 집단이 관련있는지 보는것이었고 독립성검정이나 적합도검정도 문제가 비슷해보이는데요.. 질문2. 카이제곱검정이랑 단일표본검정도 문제가 비슷하게 느껴집니다..구분하는 방법이 있을까요? t
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
윌콕슨 검정 질문입니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 무게에서 - 120을 뺀 이유가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df = df.drop('칼로리', axis=1) 실행이 안돼요ㅠㅠ
Quiz 가장 마지막 문제에서 df=df.drop('칼로리', axis=1) 이렇게 해도 칼로리 컬럼 삭제가 되지 않고 아래처럼 뜹니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파일에 data.csv가 새로고침해도 안뜹니다.
파일에 data.csv가 새로고침해도 안뜹니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2. 3회기출
선생님 안녕하세요.(target)TravelInsurance가 train안에 있고 test에는 없는데 이럴때 전처리를 할때 풀이를 보면 drop, pop를 안하시고 넘어가셨는데 안해도 되는걸까요? 만약에 안해도 된다면 언제 안해도 되는건지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-3 age 컬럼 평균값으로 채울 때 질문
3-3 강의에서 age 컬럼 결측치를 평균값으로 채울 때 value값이 X_train age 평균값으로 채운다고 되어있습니다. 제 X_test 평균값으로 채우는게 아닌 X_train 평균값으로 채운 이유가 궁금합니다. value = int(X_train['age'].mean()) X_train['age'] = X_train['age'].fillna(value) X_test['age'] = X_test['age'].fillna(value)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅데이터 분석기사 (2회): 기출유형-작업형2 관련 질문있습니다.
안녕하세요 수강중에 궁금한 게 생겨서 문의 남깁니다!빅데이터 분석기사 (2회): 기출유형-작업형2에서 데이터를 보면,X_train 애들중에서도 .. 사실 범주형인데 수치형인척 하는 애들이 있잖아요? (Cost_of_the_Product, Discount_offered, Weight_in_gms 말고는 사실상.. 범주형이라고 생각했습니다.) 얘네는 범주형으로 바꾸지 않아도 되나요? 검색을 해보니까 비닝을 통해 한다던데........ 수업시간엔 배운 기억이 없어서요.. 근데 이런 경우 꽤 많지 않나요? 타이타닉도 좌석 class 관련 column은 위와 같은 경우라고 생각하는데.. 예..결론적으로는 범주형은 get_dummies나 label encoding을 통해 수치화 시켰던거 같은데 그 역은 안 하는 이유가 궁금합니다! (적으면서 든 생각은 범주형을 수치화시킨다음 모든 수치화된 columns들을 한번에 돌리는거라 그런건가 싶긴한데) 2. EDA를 통해 얻은 통찰(?) 들을 어떻게 써먹을 수 있나요? 그니까.. Travel Insurance를 예측하는 문제에서 "a,b,c라는 항목이 낮게 나오고, d,e,f라는 항목이 높게나오면 -> Travel Insurance가 있을 확률이 높을것이다." 라는 가설을 classification에서 어떻게 활용할 수 있나요? ++이전에 https://www.dataq.or.kr/에서 예시 문제를 직접 푸는 과정에서, 문제 풀고-> 중간에 답 입력하고 -> 다시 풀러갔을 때 리셋이 됩니다. 이게 맞나요?예를들어 작업형 1 -1)을 문제 화면에서 풀고 -> 1- 1) 정답 입력하러 가고 -> 1-2)를 풀러 다시 문제화면을 갔을 때 1-1때 풀었던 것들이 다 리셋되어 있더라구요.. 중간 저장 같은 버튼도 없던데 실제 시험에서도 그런가요?2. 이상치 관련 문제에서 등호 여부는 어떻게 되나요? 예를 들어(Q1 – 1.5 IQR) 보다 작거나 (Q3 + 1.5 IQR) 보다 큰 데이터는 이상치로 처리한다. << 고 할 때 이상치라고 판단한 부분을 X <= Q1 - 1.5 IQR라고 하나요 X < Q1 - 1.5IQR이 맞나요? 궁금증이 생겼던 문제에서는 둘다 결과에 영향이 없긴하던데 .... 예.. 등호 여부가 궁금합니다공지사항을 이제 확인했는데 7회 준비 스터디 방 이제 못들어가나요 ㅠㅠ? https://discord.gg/SvrjKuuN 매번 장문의 질문인데 명쾌하게 답변해주셔서 감사합니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
csv 파일 가져올 때 오류
import pandas as pddf = pd.read_csv('members.csv') 실행하려고하면 nicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 36: invalid start byte 해당 오류가 계속 뜹니다 ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Date6 변환오류메시지가 떴는데, 이유를 모르겠어요.
Date6 변환할 때 오류메시지가 나왔습니다.Date5할때와 동일하고, 뒤에 format만 붙였고, 선생님 강의랑 똑같은데 어떤 부분이 잘못된걸까요ㅠㅠ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 환경 질문입니다.
안녕하세요. 강의 들으며 코랩으로 코딩하고 있는데 데이터프레임 볼때 약간 열이 길면 밑으로 열들이 나와서 파악하기 힘드네요. 가로 스크롤이 생겨도 옆으로 모두 출력되었으면 하는데. 코랩 환경 찾아봐도 저는 세팅을 못 찾았습니다. 혹시 옆으로 쭉 가로 스크롤이 생겨도 볼수 있는 옵션이 뭔지 알려주시면 도움이 될것 같습니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨인코딩 원핫인코딩 질문드립니다.
라벨인코딩이랑 원핫인코딩의 경우 X_train의 데이터 타입확인 시 object 형 컬럼이 있을때만 시행하는게 맞는걸까요?만약 전체 컬럼이 int형 또는 float 형일때는 안해줘도 되는건가요?만일 X_train 데이터에는 object 컬럼이 없는데 X_test 데이터에는 object 컬럼이 있어도 라벨인코딩 또는 원핫인코딩을 시행해줘야되는걸까요?추가적으로 데이터 분리의 경우 언제 사용해주는건가요?? 작업형 2유형에서 무조건적으로 사용해줘도 문제없는건지 아니면 사용할 조건이 있는건지 궁금합니다 ㅠㅠ