묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
한 가지 방법 풀기
한 가지 방법으로 풀기로 문제를 풀었을 때는 ID 값이 없는데 Pred 값만 제출해도 되는걸까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ndarray로 바뀐 사유가 궁금합니다..
Labels in y_true and y_pred should be of the same type. Got y_true=[0 1] and y_pred=['0' '1']. Make sure that the predictions provided by the classifier coincides with the true labels.이런 문장이 뜨던데 accuracy_score(ans, pred) 중 pred가 numpy.ndarray 배열이 된 것 같거든요..잘 따라한 것 같은데 선생님이 한건 바로 accuracy_score를 바로 볼 수 있고, 제거는 못보여 지네요..pd.DataFrame(pred) 사용해서 해결하긴 했는데,, numpy배열로 바뀐 사유가 궁금합니다. y_train['income'] = y_train['income'].str.replace(">50K", '1') y_train['income'] = y_train['income'].str.replace("<=50K", '0') y_train['income'].astype(int)from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier() rf.fit(X_train[list], target) pred = rf.predict(X_test[list]) submit = pd.DataFrame( { 'id' : X_test['id'], 'income' : pred } ) submit.to_csv("1111.csv", index = False) y_test.head() (y_test['income']=='>50K').astype(int)from sklearn.metrics import accuracy_score y_test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/data_atype_y/y_test.csv") ans = (y_test['income'] == '>50K').astype(int) pred = pred.astype(int) accuracy_score(ans, pred)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
(y_test['income']=='>50K').astype(int) 관련
(y_test['income']=='>50K').astype(int) 로 코딩하면 바로 0 혹은 1의 값으로 바로 변경되던데요. 만약 3개 이상의 target 값이 있을경우 astype(int) 하게되면 0, 1, 2 로 3개가 생기는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df.iloc를 사용시 범위 설정문의
안녕하세요 6회 기출문제 3번을 풀다가 궁금한점이 생겨서 문의 드립니다. 아래와 같은 데이터가 있을 때 '날짜'와 '경찰서 명'은 object 입니다. 위 데이터에서 '강력범죄' 부터 '교통범죄'까지 데이터를 행으로 총합을 구할 시에 아래와 같이 iloc를 설정을 한다고 풀이와 강의에 나와있습니다. df['총범죄건수'] = df.iloc[:, 1 : -1].sum(axis =1)여기에서 iloc 에서 '-1' 이라고 설정하는 것은 제일 끝 열까지 설정하는 것이 아닌지요?그러면 '경찰서명'까지 선택이 되어야하는데 로그를 찍어보면 '강력범죄'~'교통범죄'까지 나오는 것을 확인할 수있습니다. 강의에서는 iloc는 0부터 세기 때문에 바로 전까지 값의 열이 선택된다고 알려주셨고, -1로 하면 끝의 열을 나타내는 것이고 -2를 하면 끝열 바로 전 열을 선택하는 것이라고 알려주셔서 알고있습니다. 그런데 위에 데이터에서는 왜 -1을 해도 '경찰서명'까지가 안나오는 것인지 문의드립니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
keyerror
한 셀에 푸는 연습을 하고 있는데 갑자기 KeyError: 'TravelInsurance'가 뜹니다. 왜일까요? 그리고 시험장에서 한 셀에서 모두 실행할 때 전처리 작업 모두 print()붙이면서 각각의 값을 도출해야하는지 print없이 값만 확인해도 되는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
테스트 데이터 전처리 시 범주형, 수치형에 따른 차이가 있나요?
위와 같이 작성해주신 코드를 보는 중 의문이 생겨 질문 남깁니다!train 데이터를 전처리할 때에는 train데이터의 최빈값, 중앙값, 평균으로 결측치를 대체하는데 반해,test 데이터 전처리 시 범주형 데이터는 test 데이터의 최빈값으로 대체/ 수치형 데이터는 train 데이터의 평균, 중앙값으로 대체하고 있습니다. 왜 test 데이터 처리 시 train/test 데이터 모두 다 사용하나요? 일관성 있게 하나만 사용해서는 안되는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의문제 3 문제 8
df.groupby(['city','f2']).sum().reset_index() 이 코드문을 작성했을떼 id, f3과 같은 문자열 데이터도 같이 들어가서 선생님께서 하신 코드와 다르게 나옵니다. 그래서 따로 숫자형 데이터만 묶어서 그룹을 만든 다음 해결을 하긴 했는데, 선생님과 똑같이 했을땐 왜 같게 안나오는건지, 버젼이 바뀐건지 궁금해 여쭤봅니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ANOVA 질문드립니다
안녕하세요,독립표본검정 시 정규성을 만족하나 등분산성을 만족하지 않는 경우 equal_var = False라는 파라미터를 추가한다고 가르쳐주셨는데요,분산분석에서도 정규성은 만족하였으나 등분산성을 만족하지 않는 경우 추가해야 하는 조건이 있는지 문의드립니다.학습에서 정규성을 만족하지 않을 경우 kruskal-wallis 비모수검정을 활용한다고 말씀해주셨는데, 등분산성을 만족하지 않는 경우는 설명이 되지 않은 듯 해서요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
MinMaxScaler 에러
안녕하세요. MinMaxScaler하는데 qsec을 인지하지 못했다는 에러가 뜨네요. 어떤 부분이 잘 못 되었는지 알 수 있을 까요?자료는 df=pd.read_csv("mtcars.csv")코드를 통해 내려받아서 head확인하였습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RandomForestRegressor 실행할때 마다 성능평가값이 달라집니다.
RandomForestRegressor 실행할때 마다 성능평가값이 달라집니다.반복해서 실행하니, 처음보다 유의미하게 수치가 낮아졋습니다.강의에서는 스케일링 한거 보다 베이스라인이 성능평가가 더 낫다고 하는데, minmaxsclaler 를bmi 만 한 성능평가 수치가 가장 좋습니다.질문1) 랜덤포레스트는 원래 돌릴때마다 성능이 좋아지나요? 질문2) 시험환경에서는 랜덤포레스트를 반복해서 실행하면 안되나요? (성능평가 결과가 좋아져서 신뢰성 하락이 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
세션 6-1) 모델 & 평가 문의
안녕하세요? 선생님.모델 평가 시에, 랜덤포레스트/레이블인코딩/원핫인코딩을 모두 돌려보시더라고요..실제 시험에서도 이렇게 진행을 해서 최적의 값을 찾는지, 아니면 유사하다면 하나로 암기해서 시험을 치뤄도 되는지 문의드리고 싶습니다. 정확도가 얼마 이상 나오는 모델이라는 기준이 따로 없어 궁금합니다 😄
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
컬럼리스트 반복실행시 오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print 시 float, int
문제 1번의 답은 float형이고 2,3번이 답은 int형인 것을 보고 궁금한 점이 생겼습니다. 1번 답 역시 3261.0 으로 Int로 나타낼 수도 있는 값인데, 실제 시험 볼 때에 출력되는 데이터타입도 고려해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀계수 중 가장 큰 값 구할 때 상수항도 포함해야 하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요케글 https://www.kaggle.com/code/agileteam/t3-regression-py 이 주소의 문제 1번에서 회귀계수 중 가장 큰 값을 구하라고 하였는데, 상수항도 포함인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험장 환경 질문입니다.
안녕하세요 강의 노트북을 통해 colab에서 빈칸을 채우다 보면 자동완성 기능으로 힌트를 제공받는데요, 시험장 환경에서도 동일하게 자동완성으로 힌트가 제공되는것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sum 사용시 numeric_only=True
안녕하세요 선생님,새소식에 이제 sum 사용시 numeric_only=True 작성이 필요하다고 했는데sum을 사용하는 모든 항목에서 아래와 같이 사용하면 되는건가요?sum(numeric_only=True) 간단하게 합계를 구할때도 .sum(numeric_only=True)로 작성을 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
가설검정 유의수준
안녕하세요, 혹시 가설검정 (ttest, correlation, anova) 에서 유의수준 0.05가 아닌 0.01, 0.10 등으로 수정하고 싶을 경우 어떤 파라미터를 추가하면 될지 문의드립니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6-1 sort_values를 통해 눈으로 확인한 후 print문으로 정답을 도출해도 될까요?
# sort_values를 통해 눈으로 확인한 후 print문으로 정답을 도출해도 될까요? a=pd.to_datetime(df['출동시간']) b=pd.to_datetime(df['도착시간']) df['seconds']=(b-a).dt.seconds df.groupby('소방서')['seconds'].mean().sort_values(ascending=False) print(round(4839.533333/60))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수강 연장 문의
안녕하세요~수강이 11월 25일 만료인데 11월 30일까지 연장 가능할지 문의드립니다.seraut@naver.com
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
한가지 방법으로 풀기 오류
ValueError: The feature names should match those that were passed during fit. Feature names unseen at fit time:Feature names seen at fit time, yet now missing: 원핫인코딩 후 타겟 설정후 한가지 방식으로 풀기와 동일하게 진행했는데pred=model.predict(test) 위와 같은 문제가 발생되는데 이유가 무엇일가요? 실제시험때는 문제없었거든요 원인 및 답변 방안 문의드립니다 train=pd.get_dummies(train)test=pd.get_dummies(test)from sklearn.model_selection import train_test_splittarget=train.pop('TotalCharges')X_tr, X_val, y_tr, y_val = train_test_split(train,target,test_size=0.2,random_state=0)print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)from sklearn.ensemble import RandomForestRegressormodel=RandomForestRegressor(random_state=0)model.fit(X_tr,y_tr)