묻고 답해요
144만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형 2 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 예시문제 작업형2번을 풀고 강의를 보고 궁금한점이 생겨 질문드립니다. 우선 아래는 제가 작성한 코드입니다.# 출력을 원하실 경우 print() 함수 활용 # 예시) print(df.head()) # getcwd(), chdir() 등 작업 폴더 설정 불필요 # 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가 import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv") # 사용자 코딩print(train.info())train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)# train['환불금액'] = train['환불금액'].fillna(train['환불금액'].mean())# test['환불금액'] = test['환불금액'].fillna(test['환불금액'].mean()) train = train.drop(columns = '회원ID')test_id = test.pop('회원ID')X = train.iloc[:,:-1]y = train.iloc[:,-1] from sklearn.model_selection import train_test_splitX_tr , X_val , y_tr , y_val = train_test_split(X,y,test_size = 0.2 ,random_state=42)print(X_tr.shape, X_val.shape , y_tr.shape ,y_val.shape) # X_tr, X_val를 명시적으로 복사본 생성X_tr = X_tr.copy()X_val = X_val.copy() from sklearn.preprocessing import LabelEncoderle_col = ['주구매상품','주구매지점']le = LabelEncoder()for i in le_col:X_tr.loc[:, i] = le.fit_transform(X_tr[i])X_val.loc[:, i] = le.transform(X_val[i])test.loc[:, i] = le.transform(test[i]) from sklearn.ensemble import RandomForestClassifierfrom xgboost import XGBClassifierfrom sklearn.metrics import roc_auc_score rf = RandomForestClassifier(random_state = 42,n_estimators=100, # 트리의 개수max_depth=7, # 트리의 최대 깊이min_samples_split=10, # 내부 노드를 분할하기 위한 최소 샘플 수min_samples_leaf=4, # 리프 노드에 있어야 하는 최소 샘플 수max_features='sqrt', # 각 트리를 분할할 때 고려할 최대 피처 수bootstrap=True) # 부트스트래핑 사용 여부 rf.fit(X_tr,y_tr)pred = rf.predict_proba(X_val) # xgb = XGBClassifier(random_state=42,use_label_encoder=False, eval_metric='logloss')# xgb.fit(X_tr,y_tr)# pred = xgb.predict_proba(X_val)print(roc_auc_score(y_val,pred[:,1])) pred = rf.predict_proba(test)[:,1]submit = pd.DataFrame({'pred' : pred})submit.to_csv('result.csv',index=False)print(pd.read_csv('result.csv')) # rf# 0.6435519983529352# rf 하이퍼# 0.6732206123306826# xgb# 0.624477786070292# 답안 제출 참고# 아래 코드는 예시이며 변수명 등 개인별로 변경하여 활용# pd.DataFrame변수.to_csv("result.csv", index=False) Q1)우선 강의중 라벨인코딩시 오브젝트 컬럼의 unique값 중 test에는 있고 train에는 없다면 test와 train을 합쳐서 라벨인코딩 후 나눠야 한다고 말씀해주셨는데요. 방식은 알겠으나 그렇게 되면 data leakege 현상이 있을수 있어 과적합 위험도 있지 않나요? Q2) xgb에는 라벨인코딩기능이 자동탑제된걸로아는데 오브젝트타입 컬럼의 unique값중 test에는 있고 train에는 없는경우에도 작동이 되나요? Q3) # X_tr, X_val를 명시적으로 복사본 생성 X_tr = X_tr.copy() X_val = X_val.copy()이 부분은 오류가 떠서 gpt에게 물어보고 수정 한 것인데요 왜 copy를 적용해야 오류가 안뜨는지 설명해주실수있나요? 지피티가 해주는 설명은 이해가 잘안되네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3 파일불러오기 오류 해결 방안
import pandas as pddf=pd.read_csv("members.csv") 강의처럼 똑같이 불러왔는데 아래 오류가 발생할경우 어떻게 해결하면되나요? --------------------------------------------------------------------------- FileNotFoundError Traceback (most recent call last) <ipython-input-1-f7b7bdb7966f> in <cell line: 3>() 1 # your code 2 import pandas as pd ----> 3 df=pd.read_csv("members.csv") 4 5 4 frames/usr/local/lib/python3.10/dist-packages/pandas/io/common.py in get_handle(path_or_buf, mode, encoding, compression, memory_map, is_text, errors, storage_options) 857 if ioargs.encoding and "b" not in ioargs.mode: 858 # Encoding --> 859 handle = open( 860 handle, 861 ioargs.mode, FileNotFoundError: [Errno 2] No such file or directory: 'members.csv'
-
미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
크롤링 데이터를 웹으로 보여주고 싶습니다.
안녕하세요?? 강의를 엄청 잘 듣고 있는 수강생입니다.다른게 아니라 크롤링한 json 데이터를 웹(스프링이나 스프링부트)에서 화면에 표현하고 싶은데 어떻게 하면 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3-3 문제7
강의 섹션3-3 문제 7번에서df = pd.read_csv("data.csv", index_col="Unnamed: 0")부분에서 index_col="Unnamed: 0"은 어떤 의미를 나타내나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
상관관계 T 검정시 차이
상관관계 T검정시에 위와같이피어슨/스피어맨은 귀무가설 기각, 켄달타우는 귀무가설 채택의 유의수준으로 나오는데 이 현상은 어떻게 보아야하는걸까요? 어떤 차이로 인해서 이렇게 유의수준이 갈리게 되는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
공부법 질문드려요!
강의 순차적으로 들으면서코랩에서 복습하고 있긴한데, 이렇게 계속 반복하면 되는걸까요?예를들어 요약정리집이나 이런것들이 있으면 좋겠는데실습환경에서 코드 쓰고, 실행하고 이런것만 반복하다보니큰 틀에서의 개념이 명확해 지지가 않아서요! 혹시 제가 못 찾는걸까요 자료를 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리 후 의사결정나무 실행 시 오류
# 의사결정나무 from sklearn.tree import DecisionTreeClassifier dt = DecisionTreeClassifier dt.fit(X_tr[cols], y_tr) pred = dt.predict_proba(X_val[cols]) 강의 순서대로 잘 따라하고 있었는데,y 인자가 없다는 오류가 나옵니다
-
미해결처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part3]
주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문
안녕하세요 선생님주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 Model Evaluation Test: LinearRegression 에 관하여 질문드립니다.predict_bikecount함수에서 , y_train 값을 casual_log 와 registered_log로 둔게 아닌 그냥 count 값으로 바로 사용했을때 predict값의 배열중에 음수 값으로 리턴 되는 것들이 있습니다. [코드 예시]X_train = df_train[ml_columns].copy()y_train = df_train['count'].copy()X_test = df_test[ml_columns].copy() LiRe = LinearRegression()LiRe_model = LiRe.fit(X_train, y_train)LiRe_model.predict(X_test) 리턴값 : array([-64.76111758, -55.17545696, -50.25089772, ..., 259.71536368, 271.23511233, 266.73978586])LinearRegression 뿐만아닌 Random Forest Regressor 같은 다른 모델을 사용 할 때도 count값을 log변환 하지 않고 바로 예측하게 되면 음수값이 예측되는데요.."kaggle 에서 rmsle로 scroing값을 제출 해야한다고 규칙이 정해져있어" log로 예측값을 변환한 후 처리하는 줄 알았는데, 그것보다 앞서 이런 회귀모델은 전부 내부적으로 처리될때 그냥 계산을 (로그변환을 하지 않고)하게되면 음수로 나오기 때문에 log처리를 해야하는건지... 정확하게 이해가 되지 않네요어떤 이유에서 바로 count (log처리를 하지 않고) 를 예측하게 되면 음수가 리턴 되는건가요?? - 본 강의 영상 학습 관련 문의에 대해 답변을 드립니다. (어떤 챕터 몇분 몇초를 꼭 기재부탁드립니다)- 이외의 문의등은 평생강의이므로 양해를 부탁드립니다- 현업과 병행하는 관계로 주말/휴가 제외 최대한 3일내로 답변을 드리려 노력하고 있습니다- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3에 로지스틱회긔모형 질문입니다.
7회때 코딩하던 짬바로 호기롭게 갔다가 광탈했었네요...아무리 dir help 기능 믿고 가더라도 분류, 분석 등 언제 어느 것을 사용해야하는지 충분히 몸에 익혀야되겠더라고요... 7회때 작업형3에서 사용된 로지스틱회귀모형 문제는 강의 중에서는 7회 체험링크와 7회 실제 2번문제에만 있는건가요? 7회부터 다시 복기해보려하니 못 본거 같은 기억이... 나네요.. 다시 강의를 완독해야겠찌만import statsmodels.api as sm logit = sm.Logit(종속변수, 독립변수) 위 방법과 강의의 아래 방법이랑 같은 방법인가요?from statsmodels.formula.api import logit
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1. 문제3
왜 아래와 같이 풀면 총합이 맞지 않는지 알 수 있을까요??import pandas as pd df = pd.read_csv("members.csv") # df.head() df = df.dropna(subset = 'views') df["f3"] = df["f3"].fillna(0) df["f3"] = df["f3"].replace('silver',0).replace('gold',2).replace('vip',3) sum(df["f3"]) 또 어떨 때는 sum(df["f3"])이라고 작성하고 어떨 때는 df["f3"].sum()으로 작성하는지 차이점도 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
디스코드 스터디
디스코드 스터디 링크가 안들어가지는데 마감된걸까요??시험 한달전 참여할 수 있는 스터디는 따로 없는지 궁금합니다참여하고 싶습니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
양측검정, 단측검정 유의수준
안녕하세요~대응표본검정 강의 관련 문의 드립니다.귀무가설 기각여부는 양측검정과 단측검정 모두 유의수준 0.05 를 기준으로 판단하나요? 아니면 양측검정은 0.025, 단측검정은 0.05 를 기준으로 판단해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-3 type1 7번 문제
혹시 명령어를 다음과 같이 작성해도 될까요?답은 202로 동일하게 나왔습니다.df['mean'] = df.mean(axis=1) print(sum(df.loc[2001] > df.loc[2001,'mean']) + sum(df.loc[2003] < df.loc[2003,'mean']))
-
해결됨[파이토치] 실전 인공지능으로 이어지는 딥러닝 - 기초부터 논문 구현까지
7강 폴더 만들
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 폴더 만드는 부분에서 directory_create('x/x')를 하게 되면 x에 어떤 이름을 넣어도 다 이미 만들어졌다고만 뜨고 실제 드라이브 들어가면 아무것도 폴더가 생성이 안되었는데, 왜 그런건지 잘 모르겠어요. 그리고 현재 디렉토리 위치 설정하는 것도 이런 오류가 발생하는데, 구글 드라이브 마운트 할 때는 잘 됐었는데 이런 오류가 발생하네요..! cd/~ 의 코드를 실행하면 현재 디렉토리를 cd/~에서 ~에 해당하는 디렉토리로 이동해주는게 아닌가요? 아래 사진은 현재 드라이브 디렉토리 경로입니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구버전 영상은 건너뛰어도 될까요?!
혹시 커리큘럼중에 위의 사진처럼 구버전은 안듣고 건너뛰어도 되는걸까요?
-
미해결파이썬 알고리즘 문제풀이 입문(코딩테스트 대비)
K번째 큰 수
안녕하세요! 궁금한 부분이 있어 질문 드립니다! for i in range(n): for j in range(i+1, n): for m in range(j+1, n): res.add(a[i]+a[j]+a[m]) 해답 코드가 위와 같은데, range를 n까지 설정해주는 이유가 무엇인가요? 저는 i의 범위를 n-2, j의 범위를 n-1로 설정해주어야 한다고 생각했습니다. 문제에서 주어진 '같은 숫자의 카드가 여러장 있을 수 있다' 때문인가요?? n장의 카드를 가지고 있는 경우니깐 i,j,m이 모두 n인 경우가 나올 수 없는것 아닌가 싶어서 여쭤봅니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의문제 3 훈련율
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 저는 먼저 혼자 풀어보고 강의를 보는식으로 공부를 하는 중입니다. 베이스라인만 작성하여 아무처리 하지않고 데이터 분리후 (test size = 0.15 , random_state=2022) 최대한 영상과 똑같이 모델 훈련을 하였는데요스코어가 roc , auc , f1모두 자꾸 스코어가 1점으로 나와서 훈련율의 문제인가 싶어 런타임을 재실행하거나 그래도 자꾸 1로나오더라구요 그런데 훈련율 파라미터인 max_samples를 0.5로해도 1로 나오던게 0.01로 하니 인강과 비슷한 점수로 from sklearn.metrics import roc_auc_score, accuracy_score , f1_score model = RandomForestClassifier(random_state=2022,max_depth =5,max_samples =0.01 ) model.fit(X_tr,y_tr) pred = model.predict(X_val) pred_proba = model.predict_proba(X_val) print('roc:',roc_auc_score(y_val,pred_proba[:,1]),'\n' , 'accuracy:',accuracy_score(y_val,pred),'\n', 'f1:',f1_score(y_val,pred),'\n')>>>roc: 0.9712121212121212 accuracy: 0.8648648648648649 f1: 0.8717948717948718이렇게 나오더라구요 뭐가 문제인걸까요...? 데이터 전체갯수가 300개가 되지않아 과적합된것같단 생각은있는데 인강에서는 저랑 똑같이 진행했는데도 불구하고 점수가 잘나와서 의문이네요 ㅠㅠ
-
해결됨코딩테스트 [ ALL IN ONE ]
VS Code 사용법
안녕하세요.훌륭한 강의 잘 듣고 있습니다. 코테가 처음이고, VS Code 또한 처음 사용하다보니Break point 찍는 지점, .py 생성 등 모든 것이 익숙치않고 헷갈리네요.코테 연습할 때 VS Code를 효율적으로 사용할 수 있는 방법에 대한 강의는 찍으실 생각 없으실까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원분산분석 C() 질문 있습니다.
안녕하세요. 강의 수강 중 질문이 있어 글 남깁니다.________________________________________________________첫 번째 질문이원 분산 분석 5분 30초 즈음, 모든 변수에 C()로 감싸주는게 차라리 속 편하다고 하셨는데, 만약 독립변수 중에 범주형이 아닌 수치형 변수에다가도 C()로 감싸주어도 될까요?+ 인프런 AI 댓글을 보고, 결론을 요약해보았습니다.이원 분산 분석에서1. object형 + 범주형 특성 => 앞에 C()를 붙인다.2. int/float형 + 범주형 특성 => 앞에 C()를 붙인다.3. int/float형 + 범주형 특성 X => 앞에 C()를 붙이지 않는다.요약한 내용이 맞을까요?________________________________________________________두 번째 질문또한 이원 분산 분석이 아니라, 일원 분산 분석에서 독립 변수가 범주형 변수면 C()로 감싸주어야 할까요?________________________________________________________세 번째 질문예시문제 작업형3 /로지스틱 회귀 강의 중 7분 12초 즈음에,model = logit("Survived ~ C(Gender) + SibSp + Parch + Fare", data=df).fit()부분에 SibSp 와 Parch는 수치형이지만 범주형 특성을 띄고 있는데, 이 부분에는 C()를 왜 안하는건지 여쭤보고 싶습니다! 감사합니다!
-
해결됨파이썬 API 마스터! FastAPI
async, await 질문
안녕하세요.비동기처리 관련하여 질문드립니다.async 키워드가 비동기로 처리하기 위한 함수의 선언이고 실제 비동기 처리가 이루어져야 하는 부분은 await 키워드를 붙여주는데 여기서 await 설명해주실 때 헷갈리는 부분이 있어서요. 비동기는 코드를 순차적으로 기다리지 않고 작업이 완료되지 않아도 그 다음 코드를 실행하는 방식이고, 여기서 await 키워드는 해당 작업이 끝나는 걸 기다리게 하는 키워드로 알고 있는데 설명해 주실 때 해당 함수가 끝날 때까지 현재 함수를 일시 정지한다.고 하셨는데 여기서 해당 함수는 뭐고 현재 함수는 뭘 말하는 건가요 ? 해당 함수는 await 키워드가 붙은 작업을 의미하고 현재 함수는 이 await 작업을 포함하고 있는 함수를 의미 하나요 ? 그리고 만약 이게 맞다면 await 키워드가 붙은 작업이 실행되는 동안 그 작업이 포함된 함수가 아닌 다른 작업들은 수행이 되는 거죠 ? (쓰레드가 따로 생성되서 처리되는 걸로 아는데 이게 맞는건지 ...)자바스크립트 쪽에서 async / await 관련된 설명들을 좀 보면 await 키워드를 쓰면 비동기가 강제적으로 동기 처리가 되어 코드가 순차적으로 수행된다고 표현하는 글들이 종종 있던데 fast api 에서도 같은 개념인가요 ? 비동기 처리를 위해 작성한 코드인데 강제 동기 처리가 된다는 게 이해가 안갑니다.감사합니다.