묻고 답해요
144만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의문제 4번 행단위로 합한 값이 3000보다 큰 값 데이터 수 구하
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요이렇게 작성해도 답은 같게 나오는데 이렇게 풀어도 될까요?import pandas as pd pd.read_csv('members.csv') df=pd.read_csv('members.csv') cut = df.select_dtypes(include='object').columns #exclude도 있다 df= df.drop(cut,axis=1) df = df.fillna(0) df.head() df = df.sum(axis = 1) sum(df > 3000)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3번 2018-01 과 dt.year/month 차이점
df['date_added']=pd.to_datetime(df['date_added'])a=df['date_added']=='2018-01'b=df['country']=='United Kingdom'df[a&b] 이렇게 하면 3이 나오는데 이유가 무엇일까요? 2018-01로 필터는 되는거같은데 차이점이 있는지 궁금합니다. dt.year/month 각각 나눠줘야만 정답출력되는건지도요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수치형, 범주형 데이터 분리 기준
선생님 어떤 문제풀이에서는 데이터에 수치, 범주형 데이터가 섞여 있어도 분리하지 않고 어떤 문제에서는 따로 분리해서 전처리 하시는데 혹시 기준이 있을까요?그리고 만약에 범주형 데이터를 레이블인코딩으로 cols = train.select_dtypes(include = 'object') ,, for col in cols 이런식으로 셀렉트 디타입으로 반복문을 사용할 거라면굳이 수치형, 범주형을 나눌 필요가 없는건가요??
-
해결됨파이썬 증권 데이터 수집과 분석으로 신호와 소음 찾기
pd.concat(result.tolist()) 오류 문의
5.1 업종 테마주 수집.ipynb 진행 과정에서pd.concat(result.tolist()) 에서InvalidIndexError: Reindexing only valid with uniquely valued Index objects가 발생하는데, inplace=True를 추가 또는 다양한 방법으로 해결하려 해도 해결이 되지 않습니다.이전 다른 분들도 같은 오류가 나서 문의를 하였는데 해결이 되었나요? 참고로, 테스트 하는 과정에서 get_item_info 함수 안의finance_info = tables[3].iloc[:, [0, -1]]finance_info.columns = [0, 1]item_info.append(finance_info)문장을 주석처리 하면 pd.concat(result.tolist()) 부분이 정상적으로 처리가 되고 있습니다. 원인과 해결 방법을 알려 주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T2-5. Insurance Forecast (Regression) 질문
y= y_train['charges'] # X_train.info() object : sex, smoker,region # X_train.isnull().sum() --> 결측값 없음 X_train.head(2) drop_col = ['id'] train_drop = X_train.drop(columns=drop_col) test_drop = X_test.drop(columns=drop_col) #원핫인코딩 X_train_dummies = pd.get_dummies(train_drop) X_test_dummies = pd.get_dummies(test_drop) #train_test_split from sklearn.model_selection import train_test_split x_tr,x_val,y_tr,y_val = train_test_split(X_train_dummies,y,test_size=0.33, random_state = 42) #랜포 from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit(x_tr,y_tr) pred = model.predict(x_val) #평가 from sklearn.metrics import mean_squared_error,r2_score,mean_absolute_error import numpy as np print("rmse", np.sqrt(mean_squared_error(y_val,pred))) print("r2_score",r2_score(y_val,pred)) print("mae", mean_absolute_error(y_val,pred)) #저장 answer = model.predict(X_test_dummies) result = pd.DataFrame({'id': X_test.id, 'charges' : answer}) result.to_csv('00000.csv', index = False) output = pd.read_csv("00000.csv") print(output.head(2)) 선생님 안녕하세요. 지금 코드 틀 외워서 하나하나 문제 풀어보고 있습니다.. 작년에 회귀문제에서 된통 당한 이후로 꼼꼼히 보고 있는데 아직 확신이 서지 않습니다 ㅠㅠ 혹시 여기서 코드 오류가 있을까요..?더불어 T2-5의 경우 결측치도 없고, object도 별로 없어서 get_dummies로 해결했는데T2-4처럼 결측치도 많은데다가 object도 많이 있으면 어떻게 해야할지도 잘 모르겠습니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
shapiro 검정을 하는 경우, 반드시 정규성을 따르지 않는 것 아닌가요?
현재 독립표본검정 - 단일표본검정, 대응표본검정까지들었습니다. 문제에 '정규분포에 따른다'는 말이 없으면shapiro 검정을 통해 정규분포를 따르는지, 아닌지부터 따져야 하는데 현재 강의의 예는 정규분포를 따르지 않는 것만 있는 것 같아서 확인 차 여쭙습니다. shapiro 검정 결과 정규분포를 따를 때에는문제에 정규분포를 따른다고 할 때와 같이 wilcoxon이 아닌 ttest로 검정하는것 맞을까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-35번 (2)문제 질문드립니다.
선생님 안녕하세요. T1-35 2번문제 풀다가 질문있습니다.이렇게 풀때, 정답이 아무리해도 10580.0이 나오는데 어디 부분이 잘못되었을까요? new = df[df['Feedback'].str.contains('제품')] new.groupby('Category')['Feedback'].size() #서비스 df['OrderDate'] = pd.to_datetime(df['OrderDate']) df['ArrivalDate'] = pd.to_datetime(df['ArrivalDate']) df['배송시간(분)'] = (df['ArrivalDate'] - df['OrderDate']).dt.total_seconds()/60 answer = new[new['Category'] == "서비스"]['배송시간(분)'].mean() answer
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션10. 예시문제 작업형3에서 오즈비 질문 드립니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요~ 작업형3에서 오즈비에 대해 질문드립니다. 한 단위가 아닌, 두 단위로 오즈비를 증가시킬 때는 exp( exp ( -0.3539) ) 로 하면될까요? 여기선 하나의 독립변수에 대해서만 오즈비를 구하라고 되어있는데, 만약 2 개의 독립변수에 대한 오즈비를 구하라고하면 어떻게 구하나요?? 이건 이론적으로 가능한건지 잘모르겠어서 질문드립니다.. 다시 말하면 오즈비는 하나의 독립변수에 대해서만 적용이 가능한건가요? 아니면 여러개의 독립변수를 고려하여 구할 수 있는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실전연습 작업형 1-3 문제 에러
마지막 부분 에러났는데,, 실제 강의에서도 에러이던데,, 이유가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2 신버전 문의드립니다.
안녕하세요 예시문제 작업형2 신버전 풀어보았는데평가값은 0.615pred는 아래와 같이 나왔는데 맞게나온걸까요? 그리고 아래와 같이 풀어보았는데혹시 아래와 같은 풀이에서 #원핫인코딩과 레이블인코딩을 넣을수있을까요?넣으려면 어떤 문장으로 넣어야될까요? (오류가 뜨더라구요ㅠ) #아니면 굳이 인코딩 안하고 아래처럼 제출해도될까요?#데이터불러오기import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# 확인/전처리/분리/모델/평가/예측/저장# roc_auc(pred=predict_proba) / 양성(1)값=남자/ 분류모델#확인# print(train.shape, test.shape)#print(train.head())#print(test.head())# print(train.info())# print(test.info())# print(train.isnull().sum())# print(test.isnull().sum()) #전처리(결측값제거/문자제거/인코딩)##결측값제거train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)##문자제거cols=train.select_dtypes(include='object').columns #문자만colstrain = train.drop(cols,axis=1) #문자제거test = test.drop(cols,axis=1)##인코딩 #분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop('성별',axis=1), train['성별'], test_size=0.2, random_state=2022) #모델from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier()model.fit(X_tr,y_tr)pred = model.predict_proba(X_val) #평가from sklearn.metrics import roc_auc_scoreprint(roc_auc_score(y_val, pred[:,1])) #예측pred = model.predict_proba(test)submit = pd.DataFrame({ 'pred':pred[:,1]}) #저장submit.to_csv('28381.csv', index=False)print(pd.read_csv('28381.csv'))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자주 활용되는 판다스 예제 퀴즈 2번 질문 (오류발생)
선생님과 같이 한것 같은데, 원두 컬럼 내 결과값이 아래와 같은 이유가 뭘까요... 못찾겠습니다 이유를ㅠ조언 부탁드립니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 처음 시작할떄!!
시작할때 이부분은 실제 시험환경에서도 제가 직접 입력해야 하는 부분인가요???아니면 주어지는 부분인가요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 2회 작업형1
선생님! 2번 문제에서 결측치를 중앙값으로 바꾸기 전의 표편과 바꾼 후의 표편 차를 구하라는 문제에서 만약 결측치를 바꾸기 전 표편을 구하지 못한채로 결측치 처리를 해버렸다면 시험상황에서는 다시 원 데이터로 어떻게 돌아갈 수 있나요,,?(시험환경에서는 코랩처럼 '이전셀 실행' 기능을 쓸 수가 없는데)drop같은 함수를 써서 원래 데이터를 일부 삭제 시켰다가 실수가 생겨 다시 복구해야하는 상황에서도 어떻게 해야하는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
유형별 제출방법 문의
시험 회차가 증가함에 따라 제출 방법이 조금씩 달라진 것 같은데요. 유형1, 유형3의 경우,코딩화면 제출버튼은 없어지고 별도 답안제출 화면에 정답만 입력하는게 맞는지요?그렇다면 코딩 중간에 있는 print()문을 주석(삭제) 처리할 필요도 없는건지요?유형2의 경우도 코딩 중간에 있는 print()문을 주석(삭제) 처리 필요 없는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션10- 예시문제 작업형2(신버전) 문의
안녕하세요 섹션10- 예시문제 작업형2(신버전)아래 풀이에서 어떤것이 잘못됬는지 알 수있을까요ㅠ? # 출력을 원하실 경우 print() 함수 활용# 예시) print(df.head())# getcwd(), chdir() 등 작업 폴더 설정 불필요# 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가#데이터불러오기import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# 확전분모평예정# roc_auc(pred=predict_proba) / 양성(1)값=남자/ 분류모델#확인# print(train.shape, test.shape)# print(train.head())# print(test.head())# print(train.info())# print(test.info())# print(train.isnull().sum())# print(test.isnull().sum())#전처리(결측값제거/문자제거/인코딩)#결측값제거# print(train.isnull().sum())train['환불금액'] = train['환불금액'].fillna(0)# print(train.isnull().sum())test['환불금액'] = test['환불금액'].fillna(0)#문자제거cols=train.select_dtypes(include='object').columnscols# print(train.info())train = train.drop(cols,axis=1)# print(train.info())test = test.drop(cols,axis=1)#cols = ['회원ID', '총구매액', '최대구매액', '환불금액', '방문일수', '방문당구매건수', '주말방문비율', '구매주기']#target = train.pop('성별') #pop=성별을 target에 대입하고 나머지를 drop#인코딩train = pd.get_dummies(train, columns=cols)test = pd.get_dummies(test, columns=cols)#분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop('성별',axis=1), train['성별'], test_size=0.2, ramdom_state=2022)#모델#pred=predict_probafrom sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier()model.fit(X_tr,y_tr)pred = model.predict_proba(X_val)print(pred)print(pred[:,1])# #평가from sklearn.metrics import roc_auc_scoerprint( roc_auc_scoer(y_val, pred[;,1]) ) --실제,예측# #예측pred=model.predict_proba(test)predsubmit = pd.DataFrame({ 'pred': pred[:,1]})submit# #저장submit.to_csv('result.csv', index=False)print(pd.read_csv('result.csv'))# 사용자 코딩# 답안 제출 참고# 아래 코드는 예시이며 변수명 등 개인별로 변경하여 활용# pd.DataFrame변수.to_csv("result.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션10 예시문제 작업형 1번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요. 섹션10 예시문제 작업형 1번 질문있습니다.캐글에서 하던대로 하다보니 식이 강의에서 알려주시는 것에 비해 짧아졌는데요. import pandas as pddf = pd.read_csv("data/mtcars.csv") from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()df['qsec'] = scaler.fit_transform(df[['qsec']])#print(df['qsec']) cond = df['qsec'] >0.5print(sum(cond)) 이렇게 해도 9가 나오는데, 이렇게 풀어도 괜찮나요?좋은 강의 항상 감사드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회기출 작업형2유형 강의 에서 수치형 범주형
안녕하세요. 4회기출 작업형2유형 강의에서basic방법과 intermediate 방법이 있는데실제 시험에서는 수치형 데이터만 활용(basic)해서 해도 되나요?범주형 데이터가 있다면 범주형 데이터도 활용 해야할까요?...ㅠ 안그러면 점수를 낮게 받을까요?..ㅠ 이 강의회차에서는 basic방법이 성능이 더 좋게 나왔는데수치형만 쓸지수치형과 범주형 둘다 활용할지 어떻게 판단해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 2번 문제
안녕하세요 : ) 좋은 강의 잘 보고 있습니다. 다름이 아니라 시험 때 분류 / 회귀 랜덤 포레스트 활용하는게 안전할까요? 분류시 AdaBoostClassifier 사용하니까 랜포 보다 조금 더 좋은 성능 보이던데 혹여나 더 높은 성능 좋은 모델 했다가 과대 적합으로 떨어질까봐 걱정되네요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님 질문이 있습니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 랜덤포레스트 학습과정 중에from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier()model.fit(X_tr, y_tr)pred = model.predict_proba(X_val)[:,1] roc_auc를 학습하기위해pred = model.predict_proba(X_val)[:,1]해당코드를 사용하셨는데[:,1] 부분이 이해가 잘안되어 질문드립니다. 인덱스 전체/ 1번 칼럼까지 범위를 설정하는 이유가 있을까요?아니면 제가[:,1] 의미를 위처럼 잘못 이해하고 있는거라면 짚어주시면 감사하겠습니다.
-
해결됨실전도커: 도커로 나만의 딥러닝 클라우드 컴퓨터 만들기
섹션 7-3, dev container 관련 질문
선생님 안녕하세요좋은 강의 감사합니다. 섹션 7의 세번째 강의, python의 위한 도커 의 13:25 에서바로 torch를 pip으로 설치하지 않고도 바로 import torch를 할 수 있는 이유는azure vm을 만들때 선택한 size인 nc4as_t4_v3 4 vcpus 에 기본적으로 torch가 깔려있기 때문인가요 (즉, 만약 gpu를 사용하지 않는 다른 환경을 고르면, torch가 안깔려 있어서 pip 으로 깔아야 하는 것인가요) cpu만 사용하는 size인 Standard D2s v3 (2 vcpus, 8 GiB memory) 로 가상환경을 만들었는데, 여기서는 ipynb 파일에 !pip install torch를 해도, import torch를 하면 torch가 없다고 나오는데, 혹시 이 이유를 아실까요..ㅠ