묻고 답해요
147만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
순위 정보를
불러오고 있어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 질문드립니다.
시험환경 예시문제를 보면 '독립성 검정을 실시했을 때 카이제곱 통계량은 ?'과 같이, 7회, 8회 문제에도 카이제곱인지, 로지스틱 회귀모형 등, 어떤 방법을 사용하라고 나왔었나요 ?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pd.get_dummies 할때 df를 통으로 넣어야 한다고 하셨는데
"train = pd.get_dummies(train) 로 사용해 주세요 train = pd.get_dummies(train[cols]) 를 사용하면 train에 기존에 있던 수치형은 삭제되고 없습니다."라는 무서운 답변을 방금 발견해서 아 맞다 세상에 하고 질문드리는데요 X_traintest_concat = pd.get_dummies(X_traintest_concat, columns=['fuelType'])같이 하면 fuelType 컬럼만 원핫되고 다른 애들은 남아있는 거 맞죠? ㅠㅠㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[기출2회 작업형2] 분류문제 (주어진 데이터 3개)
기출 2회 작업형2 문제가 로지스틱 회귀로 분류문제라 랜포를 이용해서 풀이를 하려고 하는데요. 주어진 데이터가 3개라서 concat을 이용해서 X_train과 y_train을 train으로 합쳐서 하려고 하는데 잘 안됩니다ㅜtrain = pd.concat([X_train, y_train['Reached.on.Time_Y.N']], axis=1) train.head(1)이 코드에서 'Reached.on.Time_Y.N' 이 컬럼만 없고 나머지는 있어서 얘만 합쳐주는 건가요? # 데이터 불러오기 import pandas as pd test = pd.read_csv("X_test.csv") X_train = pd.read_csv("X_train.csv") y_train = pd.read_csv("y_train.csv") #주어진 데이터 3개라서 2개로 만들기(train합치기) train = pd.concat([X_train, y_train['Reached.on.Time_Y.N']], axis=1) train.head(1) # 3. 탐색적 데이터 분석(EDA) print(train.shape) #1490 print(test.shape) #497 print(train.info()) print(test.info()) print(train.head(3)) print(test.head(3)) print(train.isnull().sum()) print(test.isnull().sum()) print(train['Reached.on.Time_Y.N'].value_counts()) # 4. 데이터 전처리 print(train.info()) # 오브젝트형 있네?->인코딩하자 # print(train.shape, test.shape) train=pd.get_dummies(train) test=pd.get_dummies(test) # print(train.shape, test.shape) # print(train.info()) train = train.drop('ID', axis=1) test_id = test.pop('ID') test.head() # 5. 검증용 데이터 분할 *XXYY로* from sklearn.model_selection import train_test_split target = train.pop('Reached.on.Time_Y.N') X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=7) print(X_tr.shape, y_tr.shape, X_val.shape, y_val.shape) # 6. 검증 데이터 머신러닝 학습 및 평가 - 호출, 학습, 예측 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=7) rf.fit(X_tr,y_tr) pred = rf.predict_proba(X_val) from sklearn.metrics import roc_auc_score roc_auc = roc_auc_score(y_val, pred[:,1]) print('roc_auc:',roc_auc) # 7. 예측 및 결과 파일 생성 pred=rf.predict_proba(test) print(pred[:10]) submit = pd.DataFrame({ 'ID': test_id, 'Reached.on.Time_Y.N': pred[:,1] }) submit.to_csv('result.csv',index=False) # 제출파일 확인 pd.read_csv('result.csv') pd.read_csv('result.csv').shape꿀팁 영상 보고 주어진 데이터가 3개일 경우를 정리해본건데 코드가 많이 길지만 결과 나올 수 있게 코드 손 봐주시면 감사하겠습니다TT
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출8회 3유형 1-2 번 문제 변수 5만틈 증가
np.exp(coef* 5) 라고 작성하셨는데,5만큼 증가는 +5 아닌가요?? *5 는 곱하기 5 아닌가용?,,, *= + 라는 뜻인가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train, test 범주형 컬럼의 고유값이 같은지 확인하는 코딩은 없나요
19개 종류를 다 비교 하기 쉽지 않습니다.그리고 만약 train에 없는 고유값이 test에서 있으면 데이터를 합친다고 했는데, 범주형을 합쳐서 인코딩 한 다음에 다시 분리 할때는 loc, iloc 사용하나요? 그래서 처음 shape의 데이터 크기로 똑같이 맞춰야 하는거죠?예를 들면 train.shape (6118,10) test.shape (1724,9) 라면 처음에 concat를 통해 6118+1724 로 해서 범주형 인코딩 하고 다시 원래 대로 크기를 쪼개야 하는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
max 사용법
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요가장 큰 값을 정수로 반올림하여 출력할 때, 이 2개 모두 사용해도 상관 없을까요?print(round(max(result))) print(round(result.max()))
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 학습 문의
랜덤포레스트 딱 하나만 공부하고 시험 쳐도 괜찮을까요?여러 모델 학습법을 비교해서 우수 성능을 채택하는 것이 아니라서 결과적으로는 작업형2 만점을 못받을 수 잇을거 같긴한데,내일이 시험이라 합격선만 딱 목표여서 그렇습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
탐색적 데이터 분석에서 뭘 캐치해야하는지 모르겠어요
EDA를 할때 무엇을 알아내서 전처리를 해야하는지 너무 헷갈려요결측치가 있는지 없는지 보고, 칼럼 갯수확인하고, 트레인과 테스트셋의 카테고리 수 비교 ? 이런것만하면될까요 ㅠㅠ.. 아직 EDA에서 전처리로 연결하는 감을 못잡겠어요..(큰일났어요...)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2_평가지표
작업형 2가 드뎌 정리된 듯하면서도 아직 어렵습니다ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
C() 적용범위
C()는 무조건 일원 이원 분산분석에서만 적용되나요? 다중 선형회귀나 앞부분 강의에서는 별도로 C()를 확인하지 못해서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩, 스케일링, 수치형, 범주형 관련 문의
안녕하세요!시험이 코앞으로 다가온 시점에서...순차적으로 강의를 듣고 있는데데이터 전처리(결측치/이상치 제거) 이후에학습모델에 적용하기 위해수치형 데이터들은 스케일링을, 범주형 데이터들은 인코딩을 해서 train 데이터를 만드는 것으로 이해하였습니다. 그다음 평가(예측)를 위해서 모델에 적용할때ans = (y_test['income'] != '<=50K').astype(int) 와 같이타겟값을 바꿔야하는 경우와평가모델별로 predict, predict_proba 를 사용하는 경우가정해져 있는건지 이 부분이 헷깔립니다 ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출2 작업형1
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요# your code import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv") df.head(3) df = df.sort_values('views',ascending=False).head(10) df r1 = 9690.0 df.iloc[:10,-1] = r1 cond = df['age'] >=80 print(df[cond]['views'].mean())안녕하세요 10번째 최소값을 r1= 9690.0 으로 지정 후 df.iloc[:10.-1] = r1로 지정후 결과를 냈더니 9690.0으로 나오는데 왜그런걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3
작업3을 위한 원포인트 레슨은 혹시 없을까요? 물론 범위가 광범위하다는 건 알지만, 그래도 혹시:::::
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 시
print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape)train = pd.get_dummies(train[cols]) test = pd.get_dummies(test[cols])아래처럼 cols로 범주형 칼럼을 인덱싱해서 넣지않고 위처럼해도 되나요? 수치형은 건드리지 않고 범주형에 대해서만 인코딩하기에 cols를 따로 하지 않아도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱 회귀분석 범주형변수 인코딩
안녕하세요,예시문제 작업형 3번의 2번 문제 풀이에서 질문있습니다!여기에서 로지스틱회귀 분석을 위해 범주형 변수 중 인코딩이 되지 않은 Gender 변수에 C(Gender)를 붙이셨더라구요혹시 인코딩되지 않은 변수의 앞에 C를 붙이는 것이 필수로 수행되어야하는것일까요?제가 궁금해서 C를 붙이지 않고 모델썸머리를 출력하고 값을 비교해봤는데 모든 표값이 같기는 했습니다.만약, 필수로 C를 붙여주어야한다면 로지스틱회귀분석 뿐만아니라 분산분석(일원/이원)에도 모두 붙여주어야 할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀분석과 분산분석에서 ols
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 헷갈리는 부분이 있어 질문드려요.회귀분석에서 ols사용시는 ols("종속변수~독립변수1+독립변수2+독립변수3"...) 같은 형태로 사용하고다중분산분석 ols에서는 ols("종속변수~독립변수1*독립변수2*독립변수3"...) 이렇게 사용해야하는 것이 맞을까요?회귀분석 : +, 다중분산분석:*
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 제출할때요 질문드려요
마지막에result.to_csv("result.csv",index=False)실행누르고나서 제출만 누르면따로할건없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험에서 pandas 표준편차 사용이 표준인건가요?
numpy 표준편차랑 pandas표준편차가 다르다고 하셨는데pandas 표준편차가 시험 표준인걸까요?import를 안하고도 사용할 수 있는 numpy 표준편차가 훨씬 접근하기 편해보이는데 왜 pandas로 쓰라고 하시는지 알 수 잇을까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리 및 피처엔지니어링 단계에서 데이터 분할 관련
전처리 및 피처엔지니어링 단계에서 범주형 컬럼과 수치형 컬럼을 굳이 4개의 데이터로 나누지 않고var1 = ['A', 'B', 'C'] (범주형 컬럼 리스트)var2 =['D', 'E', 'F'] (수치형 컬럼 리스트) from sklearn.preprocessing import MinMaxScaler, LabelEncoder col = train.select_dtypes(exclude='O').columns cols = train.select_dtypes(include='O').columns scaler = MinMaxScaler() train[col] = scaler.fit_transform(train[col]) test[col] = scaler.fit_transform(test[col]) # 범주형 변수 인코딩 for i in cols: le =LabelEncoder() train[i] = le.fit_transform(train[i]) test[i] = le.transform(test[i])이런식으로 해도 될까요? 추가적으로 수치형 데이터의 스케일링은 필수가 아닌가요?(일부 회차에서 수치형 데이터는 스케일링하지 않아서 여쭤봅니다!)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리시 궁금한점
데이터 전처리 강의 내용 중에X_train 데이터와 X_test 데이터의 결측치를 동일하게 채워주라고 말씀해주셨고,X_train의 행삭제는 가능하지만 X_test의 행삭제는 하면 안된다고 말씀해주셨습니다. 이렇게 되면 X_train에서 결측치가 있다고 행삭제를 해버리면X_test에서는 결측치가 있는 행이 그대로 남아있을텐데X_train의 행삭제로 결측치를 해소하는 방법이 어떤 의미가 있는지 이해가 잘 되지 않아 문의드립니다.
주간 인기글
순위 정보를
불러오고 있어요