묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의문제 3번 3개의 파일로 풀었을 때
안녕하세요, 선생님!작업형 2 모의문제 3번을 풀고 있는데 강의에서 2개의 파일이 있는것으로 공부한 후 3개의 파일이 있는 것으로 혼자 풀어봤는데요. 첫번째 사진처럼 warning이 나오는 것 이외에는 마지막에 테스트도 90. ... 으로 나오고 에러사항이 없었는데 그럼 된것일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
dir/help/__all__ 사용법
sklearn 설명해주실때 dir/help/__all__ 사용법 알렺쉰거같은데 혹시 어느 강의인지 알수있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-9 질문
쌤 안녕하세요! 항상 빠른 답변 감사드립니다.날숨에 재력 들숨에 건강 얻으세요.. 캐글 T1-9 문제 풀다가 궁금한 점이 있어 문의드립니다표준화해서 scaler = StandardScaler()까지는 이해를 했는데요.fit 시키는 과정에서 왜 df['f5']가 아닌 df[['f5']] 이렇게 괄호가 두번 나오는 건가요? ㅠ하나로 묶는거면 [df['f5']]도 아니고 왜 괄호가 두번 나오는지.. 잘 모르겠어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링할 때 리턴되는 데이터 타입 질문 드려요.
스케일링할 때 아래처럼 컬럼을 넣을 때와 그렇지 않을 때가 리턴 타입이 다르네요.넣으면 DataFrame 타입이 리턴되고, 아니면 ndarray 타입이 리턴 되던데요..꼭 컬럼을 붙여줘야 DataFrame이 리턴되나요?n_test[cols] = scaler.transform(n_test[cols]) n_test = scaler.transform(n_test) c_train = pd.get_dummies(c_train) 결과랑 concat할 때 오류가 발생해서 여쭤 봅니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가부분에서 rmse(y_test['charges'], pred)를 썼는데
수험자는 알 수 없는 영역이긴 하지만 pred부분에 np.exp(pred)로 넣어야 정확한 평가가 되는게 아닐까요? 17000이 넘는 너무 터무니없는 값이 나와 생각해보니 로그 스케일을 제거해야 정확한 값이 나오지 않는가 싶어서요. np.exp(pred)로 평가를 해보니 4686 정도로 양호한 결과가 나오는 거 같아 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱 회귀에 sklearn과 statsmodels 두가지가 있던데, 언제 어떤걸 써야 할까요?
안녕하세요.로지스틱 회귀에 아래의 두가지 모듈이 있던데, 변수의 계수값은 두 모듈 모두 사용이 가능하다고 하셨는데 sklearn 모듈에선 어떻게 변수의 계수값을 보나요?(작업형3 부분을 계속 보다가 작업형2에 로지스틱 회기 모델 사용 부분을 보니 또 다 까먹었네요.. ㅠㅠ)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원분산분석
이원분산분석 진행시 데이터가 정규성을 만족하지 않으면 분석이 불가능 한가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문 드립니다.
안녕하세요, 수강생입니다. 선생님 노트북 작업형2 문제 중 type2-ex의 백화점 구매 데이터를 활용한 문제와 type2-2nd의 2회 기출 문제 풀이를 보다가 궁금한 점이 생겨서 이렇게 문의글 남깁니다. 두 문제 모두 X_train, X_test, y_train 이렇게 3개의 데이터셋이 주어졌는데 전체 풀이에서는 검증데이터 분리하는 train_test_split에서만 각각의 X_train, y_train['target'] 값만 활용해서 풀이한 것으로 이해했습니다. 하지만 type2-2nd 2회 기출에서는 중간 풀이 과정에 X_train, y_train을 concat으로 합쳐서 중간에 설명을 하셨더라구요~ 물론 풀이에서는 concat으로 합친 데이터를 활용해서 작업된 것 같지는 않은데 혹시 train 데이터 합치는 과정이 반드시 필요한가요? 작업형2 기출 문제들을 학습하면서 데이터셋이 train과 test로 주어질 때와 X_train, X_test, y_train 이렇게 3개가 주어질 때 검증 데이터 분리하는 train_test_split에서만 구분해서 풀이하면 될 것 같은데요. 제가 혹시나 놓치고 있는 부분이 없는지 조언해주시면 감사하겠습니다!!!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 관련 질문입니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 작업형1 모의문제1 강의에서 문제2번 중 '해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함' 문장에 대해 질문입니다. df = df.dropna(subset=['f1'])이 답인데,왜 df[‘f1’] = df[‘f1’].dropna() 는 불가능한지 궁금합니다. ㅠㅠㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이진분류 target값에 문자
선생님 혹시 이진분류는 타겟값이 숫자일수도 있고 문자일수도 있는 건데 만약 문자일 경우는 학습을 시키기 전에 반드시 숫자로 인코딩이나 replace변경을 하지 않고 실행해도 되는지 궁금합니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
object명의 컬럼 없애버리는 코드 실행
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요5-1 작업형2 모의문제 7:26 에서안녕하세요. object명의 컬럼 아예 없애버리는 방법으로4-2 작업형1 모의문제 4번에서 풀었던 방식처럼코드를 이렇게 실행하면 안되는걸까요?# object명의 컬럼을 아예 없애버리기 cols = train.select_dtypes(exclude = 'object').columns cols train = train[cols] train.head()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험 2유형 문제 질문
안녕하세요, 체험사이트 2유형 문제 풀어보다가 질문이 있습니다. ( https://dataq.goorm.io/exam/3/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%EC%B2%B4%ED%97%98/quiz/4 ) 문제에 성별을 예측하는 모델을 만들고, 제출하는 csv 파일 내용 예시가 pred 0 0 0 1 이런 식으로 되어있는데 예측 결과는 ROC_AUC 평가지표로 평가한다고 되어있어서요. 이럴때는 predict를 써야할지, 아니면 predict_proba를 사용해서 pred[:,1]을 csv로 만들어야 할지요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
링크 모음 제공
선생님 안녕하세요,혹시 매 강의 colab 링크랑 수업 자료들 압축해서 강의 하나에 업로드 해주실 수는 없나요?? 탭으로 강의 들으면서 컴퓨터로 실습 따라하는데 매번 탭이랑 컴퓨터 로그인 왔다갔다 하면서코랩이랑 자료 받기가 너무 힘듭니다 ㅠ.ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀 파일 제출할 때 오류가 납니다...!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요이러한 오류가 나는데 어떻게 해결해야 할지 알 수 있을까요?id를 미리 빼놓은 test_id로 하고, price 컬럼 값은 예측값으로 잘 넣은 것 같은데 어떤 이유에서인지 오류가 납니다. 갯수가 틀리다는 것 같은데 해결하지 못해 글 올립니다. 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
305 Classification 강의에서 랜덤포레스트, XGboost값이 다르게 출력
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요동영상 23:26안녕하세요.의사결정나무는 값이 동일하게 출력되는데,랜덤포레스트, XGboost는 값이 다르게 출력됩니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
숫자형을 문자형으로 전환하여 가져오기
선생님 문자열에서 str[ ]을 사용하여 원하는 값을 가져오는 방식은 이해를 했습니다. 문득 숫자가 있을 때 일의자리, 백의 자리 숫자를 가져올 경우 이 숫자를 str형태로 바꿔서 가져올수 있는지도 궁금해졌습니다.예를 들어 123이 있을 때 일의 자리 숫자, 십의 자리 숫자를 가져오고 싶을 때 int64타입을 astype함수를 사용하여 string으로 바꾸고 위와 같은 방식으로 적용이 가능할까요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-3 데이터 전처리 질문
age 컬럼과 hours.per.week 컬럼 결측치 채울 때test 데이터 결측치를 train 데이터의 평균값으로 채우는 이유을 알 고 싶습니다.train 데이터와 test데이터의 평균 값이 미세하기 차이가 있던데 train 데이터로 결측치를 채우는 게 맞는 걸까요? 아니면 시험에선 구분 없이 train 데이터로 채워도 문제가 없는 걸까요?3-4 강의에서는 test데이터는 test데이터로 채우시는데 이유가 있을까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3 7번문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요df = df.T df.head() mean_2001 = df[2001].mean() mean_2003 = df[2003].mean() a = sum(df[2001] > mean_2001) b = sum(df[2003] < mean_2003) print(a+b)이렇게 작성하면 결과가 다르게 나오는데,, 어디서 잘못된 것일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
list, dtypes 활용
스케일링 작업할 컬럼명을 list 로 활용할 때 질문이 있습니다.1개 데이터 타입은 아래처럼 쓰면 되는데, cols = list(X_train.columns[X_train.dtypes == object])int, float 를 list 로 한번에 활용하려면 어떻게 해야하는지 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출 2유형 답 질문드립니다!
import pandas as pdtrain = pd.read_csv("train.csv")test = pd.read_csv("test.csv") from sklearn.preprocessing import LabelEncodercols = train.select_dtypes(include='object').columns for col in cols : le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col]=le.transform(test[col])from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop(['price'],axis=1), train['price'], test_size=0.1, random_state=2022)from sklearn.ensemble import RandomForestRegressorfrom sklearn.metrics import mean_absolute_errormodel=RandomForestRegressor(random_state=2022)model.fit(X_tr, y_tr)pred=model.predict(X_val)pred=model.predict(test)submit=pd.DataFrame({'price':pred})submit.to_csv("00000.csv",index=False)pd.read_csv("00000.csv") 답 풀이과정 자체를 외워서 풀이연습중인데요!위처럼 해도 고득점 받을수 있을지 문의드립니다. ㅎㅎRMSE를 몰라서 그냥 MSE로 풀었다고 가정해봤습니다.