묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 예시문제(구버전)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요(b)풀 때, 문제에서 정규성에 대한 말이 없는데 정규성 검정을 하지 않고 바로 ttest_rel을 써도 되나요? (c) 답안의 경우 0.0006, 귀무가설을 기각하고, 대립가설을 채택한다. 라고 쓰면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
마지막 csv 결과파일 만들 때 문제점
위에는 다 똑같이 따라했고, 마지막에 저런 오류가 뜨는데 무슨 문제일까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
formula.api logit 범주형변수
안녕하세요. 로지스트회귀분석 formula.api 에서 logit 을 사용할 때,예를들어 성별 F, M 을 C()로 묶어주면 여자성별은 사라지는데, 1.여기서 다른 변수들은 고정되어있고, 여성에 비해 남성의 오즈비를 구하려면 어떻게 해야하나요?2. 예측값을 넣을때model.predict() 를 사용하라고 배웠습니다. 안에는 새로운 데이터를 넣고, 근데 이 새로운 데이터를 기존 주어진 데이터 프레임의 한 행에서 가져와서 넣고, 예측확률을 구하는 것은 어떻게 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
T2-1. 타이타닉 문제 질문있습니다.
저는 지금까지 작업형2 모든 유형의 문제를 object컬럼은 라벨인코딩을 했습니다.이번에도 라벨인코딩을 하려고 보니 오류가 나서 이전에 질문을 드렸고,X_train과 X_test의 데이터 수가 달라 있는 오류라고 설명해주셨습니다. 그래서 X_train과 X_test의 object 컬럼에 nuniqe, describe, velue_counts등의 함수를 적용하여 확인해보았습니다.근데 'Embarked'컬럼은 X_train과 X_test내 데이터 종류 수와 종류도 동일한데, 라벨인코딩을 적용하려하니 계속 이런 오류가 뜹니다.Encoders require their input to be uniformly strings or numbers. Got ['float', 'str']오류가 뜨는 원인과 왜 'Embarekd'컬럼을 drop했을 때는 모델이 잘 적용되는지가 궁금합니다.일단 밑에는 제가 'Embakred'컬럼을 drop한 코딩입니다. # EDA # X_train.info() # X_test.info() # drop & pop : PassengerId(pop) # 추가 삭제 : Cabin, Embarked, Ticket, Name # 결측치 : Age-수치형(결측값 중간값으로 채움), Cabin!!-범주형(얘는 원래 최빈값으로 채우려다가.. 값이 너무 많아서 삭제함) # 범주형 : Sex(라벨), Embarked!!(), Ticket!!, Name!!, Cabin!!(얘네 셋은 원래 라벨인코더 하려다가, train과 test의 nunique값이 달라서 삭제함), # 수치형 : Pclass, SibSp, Parch, Fare, Age(로버스터스케일러) # y_train.info() : PassengerId, Survived X_train = X_train.drop(columns = ['Ticket', 'Name', 'PassengerId', 'Cabin', 'Embarked']) X_test = X_test.drop(columns = ['Ticket', 'Name', 'Cabin', 'Embarked']) X_test_id = X_test.pop('PassengerId') y_train = y_train.drop(columns = ['PassengerId']) X_train['Age'] = X_train['Age'].fillna(X_train['Age'].mean()) X_test['Age'] = X_test['Age'].fillna(X_test['Age'].mean()) from sklearn.preprocessing import RobustScaler num = ['Pclass', 'SibSp', 'Parch', 'Fare', 'Age'] scaler = RobustScaler() X_train[num] = scaler.fit_transform(X_train[num]) X_test[num] = scaler.transform(X_test[num]) from sklearn.preprocessing import LabelEncoder cols = ['Sex'] encoder = LabelEncoder() for col in cols : X_train[col] = encoder.fit_transform(X_train[col]) X_test[col] = encoder.transform(X_test[col]) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(X_train, y_train, test_size = 0.2, random_state = 2022) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier() model.fit(X_tr, np.ravel(y_tr)) pred = model.predict(X_val) from sklearn.metrics import accuracy_score accuracy_score(y_val, pred) pred = model.predict(X_test) pd.DataFrame({'PassengerId' : X_test_id, 'Survived' : pred}).to_csv('00000.csv', index = False) pd.read_csv('00000.csv') X_train.shape, X_test.shape, y_train.shape
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링 방법 3에서
def 안 만들고 하는 방법은 없을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀분석, 분산분석 범주형 변수
선생님 안녕하세요, 3유형 공부하다가 궁금한 점이 있어서 질문남깁니다.선형회귀분석에서 독립변수가 범주형일 경우에 원핫인코딩 처리를 안하고, C( )처리를 안해도 자동으로 인코딩이 되는건가요??반면에 anova에서는 꼭 C ( )를 붙여야 범주화변수 처리가 되나요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문 문제 해결되었습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요. 영상에 나온 코드와 함께 보다가 다른 기출 코드 복원 참고 후, 6회 기출 복원 코드 풀이에 대해 질문이 있어 게시글을 남깁니다.1. 영상에 나온 복원 문제1. 연도별로 총 범죄 건수(범죄유형의 총합)의 월평균 값을 구한 후 그 값이 가장 큰 연도를 찾아, 해당 연도의 총 범죄 건수의 월평균 값을 출력하시오. (반올림하여 정수로 출력) 2. 다른 복원 문제2. 다음 월별 범죄를 기록한 데이터로, 연도별 월평균 범죄 건수를 구하고, 가장 범죄가 많이 발생한 연도의 월평균 범죄 건수를 구하시오.6회 복원 문제로 약간 문제가 달라서 그런가 코드가 다르더라고요,,다른 복원 문제 코드로 영상에 나온 데이터로 구했는데 풀이와 값도 달라서어떤식으로 문제의 의미를 해석해서 코드를 작성해야 할지 모르겠습니다. Q. 가장 많이 발생한 건수의 해당 월평균을 구하라는 말은, 많이 나온 년도를 구한 후에 해당 월별 평균 값이 답이 아닌가요? 답변주시면 감사하겠습니다 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
anova table 문의
학습코드에 따라 아래 코드로 출력하니 검정통계량과 pvalue값이 소수점 2자리까지만 표시됩니다. 혹시 4자리나 그이상 소수점까지 표시하도록 하는 방법은 없나요..?from statsmodels.stats.anova import anova_lm from statsmodels.formula.api import ols model = ols('토마토수 ~ C(종자) + C(비료) + C(종자):C(비료)', data=df).fit() anova_lm(model)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
둥분산 분석 문의
일원분산 분석시 정규성 만족, 등분산 불만족시 -> 어떤 분석을 사용하나요? 비모수 검정을 사용하나요? 정규성 검정1) 정규성 만족, 등분산 만족시 - > 일원분산분석2) 정규성 만족, 등분산 불만족시 -> 어떤 분석을 사용하나요? 3) 정규성 불만족 -> 비모수검정 Kruskal 검정
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션13. 작업형2에서 데이터 합치기
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요.만일, 아래와 같이 라벨인코딩과 원핫인코딩을 수행했다면,,데이터 다시 합치기를 할 필요가 없는 것이지요?이유는, 분리하지 않고 범주형/수치형 data만 취해서 인코딩을 진행했기 때문에,,,,이게 맞을까요? # 라벨인코딩 cols = ['Employment Type','GraduateOrNot', 'FrequentFlyer', 'EverTravelledAbroad'] from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) # 원핫인코딩 cols2 = ['Age','AnnualIncome', 'FamilyMembers', 'ChronicDiseases'] train[cols2] = pd.get_dummies(train[cols2]) test[cols2] = pd.get_dummies(test[cols2])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분류 회귀 모델 검증데이터 질문입니다!
분류 모델과 회귀 모델이 각각 어느정도 데이터 예측 값이 나와야 만족하고 제출할 수 있을까요? 최소한의 기준이라도 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작3 회귀분석 범주형데이터처리
이경우 회귀분석에 범주형 데이터가 있는데 from statsmodels.formula.api import ols model = ols('매출액 ~ 광고비 + C(유형)', data=df).fit() print(model.summary()) 이렇게 써도 된다구 하셨죠??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼 파라미터 관련 질문드립니다.
랜덤포레스트로 2유형 준비중인데요! 강의에서 설명해주신 max_depth 와 n_estimators 두개를 사용하면서 문제를 풀어보니 변동폭이 10 정도 안팎으로 났던것 같습니다. 만약에 하이퍼 파라미터까지 썻는데도 랜덤포레스트로 돌렸는데 성능평가 결과가 50% 미만이면 어떤 방식으로 해결해야할까요...?? 다른 것을 사용해야 하나요? 아니면 어쩔수 없을까요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print 에서 자꾸 에러가 나요..
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이있었는지 검색해보세요안녕하세요. 타이타닉 데이터로 로지스틱 회귀를 해보고있는데... print 문에서 자꾸 에러가 나요...왜..그런걸까요?;;
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출-2유형 macro-f1 score 관련
안녕하세요. 4회 기출문제의 macro f1-score 관련하여 질문드립니다.문제 풀이에서는 교차검증으로 macro f1-score를 구하는 것으로 나왔는데요from sklearn.model_selection import cross_val_scorescores = cross_val_score(rf, train, target, scoring='f1_macro', cv=5) 1) 이 과정이 기존의 model_selection, train_test_split -> 평가 스코어 확인대신에 하는 과정이라고 이해하면 될까요?그리고 macro- f1 score라고 하면 위처럼 train test split을 생략하고 cross_val_socre 코드를 사용하며 되는것인지 궁금합니다. 검색해도 잘 나오지 않더라고요;; 아래 macro f1이라고 하면 아래 2)번 설명이 많이 나옵니다^^;; 2) 그렇다면 기존에 이진분류에서 알려주신 아래 코드는 macro -f1 score가 아니라 그냥 f1 score가 나오는 것인가요? 이 방법을 사용하면 문제 의도에서는 틀린것인지 궁금합니다.(※ 이 질문을 올리고 계속 공부하다보니 6회 기출에서도 f1-macro를 사용하라고 나오는데, 6회 풀이에서는 아래와같이 코딩하셨더라구요. 4회와 6회의 차이점이 무엇인지도 궁금합니다. ) from sklearn.metrics import f1_scoreprint(f1_score(y_val,pred, average='macro') 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨 인코딩 관련 질문입니다!
test데이터에 있는 변수가 train에 없을 경우 데이터를 합쳐야한다고 말씀해주셨습니다.test데이에 있는 변수가 train에 있는지 없는지를 확인할 수 있는 코드는 뭐가 있을까요?print(train['칼럼'].value_counts())print(test['칼럼'].value_counts()) 이 두개로 비교하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신버전)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 train.describe()를 찍어봤을 때, 총구매액과 최대구매액의 최솟값이 음수로 나오던데 이 부분은 전처리 하지 않아도 큰 문제는 없을까요? 음수인 값을 0으로만 바꿔줬더니 0.67로 성능이 조금 더 좋아지긴 하더라고요..! 그냥 원본데이터 그대로 제출하는 것이 좋을지, 이 부분도 음수인 값들만 처리해준 다음에 성능만 높아진다면 처리하는 게 좋을지 궁금합니다.좋은 수업 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
dir 사용 문의
좋은 강의 감사드립니다. dir로 목록 찾을때 python문제인지 아니면 원래 출력이 가변적으로 되는지 모르겠습니다. Base 코드from statsmodels import statsprint(dir(stats))초기에는 anova, multicomp이 보이지 않습니다. 1. 실행 후 제거from statsmodels.stats import anovafrom statsmodels.stats import multicomp 0번 코드 실행 -> 1번 코드 실행(실행 후 지우기)-> 0번 코드 실행 이렇게 하면 print(dir(stats)) 실행 시 초기에 출력이 안되던 anova, multicomp가 보이는데 왜 그런지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
일원분산분석 scipy 와 ols
선생님 ols로 보여주실 때는 일렬 표로 재구조화 해주셨는데 재구조화 없이 scipy로 하는 것은 어려운지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-3 type1 9번 문제
subscribed 컬럼을 str[6:7] month로 분리 해서 계산 했는데 다른 값이 나와요 .df['month'] = df['subscribed'].str[6:7] df = df.groupby('month').count() print(df.sort_values('subscribed').index[0]) 잘 분리 되는 거 까지 봤는데 왜 계산 할 때 달라질까요 ? 날짜 데이터가 아니라 그룹바이 할 때 부터 계산이 달라 질까요 ?