묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df.summary()
기존에 pred.summary() 만 알려주셨는데지금은 pred.summary_frame()을 쓰셨네요만약 시험장에서 .summary_frame()을 모른다면해결할 수 있는 방법이 뭐가 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
괄호 안 내용
선생님 여쭤볼게 있는데요 model = RandomForestRegressor()model.fit(X_tr, y_tr)pred = model.predict(X_val) 하실때 (X_val)이랑 fromsklearn.metrics import mean_squared_errordef rmse(y_true, y_pred): returnmean_squared_error(y_true, y_pred)**0.5rmse(y_val, pred) 여기서 괄호에 들어가는 (y_val, pred) 이 값이뭘 뜻하는건지 궁금합니다,,ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 작업형2 라벨인코딩
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요원핫인코딩 말고 라벨인코딩으로 하면 에러가 뜨던데.. 라벨인코딩으로는 작업코드가 어떻게 되나요?타겟데이터 pop하고 검증데이터 분리 전에 라벨인코딩 진행했는데 이런 에러가 뜹니다,,# print(train.shape, test.shape) # train = pd.get_dummies(train) # 전체를 넣으면 train에서 object값만 인코딩하고 수치형 데이터는 그대로 둚 # test = pd.get_dummies(test) # print(train.shape, test.shape) cols = train.select_dtypes(include='object').columns from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: train['col'] = le.fit_transform(train['col']) test['col'] = le.transform(test['col'])--------------------------------------------------------------------------- KeyError Traceback (most recent call last) /usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance) 3801 try: -> 3802 return self._engine.get_loc(casted_key) 3803 except KeyError as err: 4 framespandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() KeyError: 'col' The above exception was the direct cause of the following exception: KeyError Traceback (most recent call last) /usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance) 3802 return self._engine.get_loc(casted_key) 3803 except KeyError as err: -> 3804 raise KeyError(key) from err 3805 except TypeError: 3806 # If we have a listlike key, _check_indexing_error will raise KeyError: 'col'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df['비료'].astype(str) 을 붙이지 않아도?
이원 분산분석 후 Tukey HSD로 사후검정시, 비료 칼럼에 astype(str)을 작성하여 비료 칼럼 수치데이터들을 문자데이터로 변환해주셨습니다. 그런데 제가 .astype(str)을 작성하지 않고 출력해보니 작성한 경우의 결과와 작성하지 않은 결과가 서로 똑같더군요어떻게 된것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[질문] 캐글 T1-23 질문있습니다.
안녕하세요.캐글 T1-23 풀이 중 궁금한 것이 있어 질문드립니다. 저는 아래와 같이 풀이하였는데 정답은 2.5가 나오더라구요ㅠㅠimport pandas as pd df = pd.read_csv("/kaggle/input/bigdatacertificationkr/basic1.csv") # f1 결측치 채우기 # print(df['f1'].isnull().sum()) # 31개 df = df.sort_values('f1', ascending=False) # print(df.iloc[9][3]) # 88.0 df['f1'] = df['f1'].fillna(df.iloc[9][3]) # print(df['f1'].isnull().sum()) # 0개 # age 중복 제거 전 f1 중앙값 med1 = df['f1'].median() # 77.5 # age 중복 제거 # print(df.shape) # 100개 df = df.drop_duplicates(subset=['age']) # print(df.shape) # 71개됨. # age 중복 제거 후 f1 중앙값 med2 = df['f1'].median() # 75.0 # 절대값으로 print(abs(med1-med2)) 왜 답이 0.5가 나오지 않는지 해결되지 않아 문의드립니다. ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[[]]사용법
대괄호 두개 사용할 때가 주로 어느 때 사용하고, 하나는 어느 때 사용하죠?? 소괄호 대괄호 쓰는 경우는 어느경우가 있나요??혹시 분류를 쉽게할 수 있는 기준이나 가이드 같은게 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
조건문 변수 설정
따로 cond라는 변수를 만들어서 조건을 거는 이유가 있을까요?따로 변수를 만들지 않고 바로 and, or을 거는 방법은 없나>??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
합친 후 분리
섹션4 피처엔지니어링 마지막 정리 부분에서 정석은 라벨 인코딩 전에 데이터를 합친 후 인코딩을 하고 그 다음에 분리하는 것이 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩에 관해서 질문이 있습니다!
5회 작업형2 기출문제에서 원핫 인코딩을 train = pd.get_dummies(train)test = pd.get_dummies(test)이렇게 하셨는데 앞에서 강의할 때는 train = pd.get_dummies(train, columns=cols)test = pd.get_dummies(test, columns=cols)이렇게 했던것으로 기억합니다.이 두가지 방법의 차이에 대해서 알려주시면 감사하겠습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
C( ) 를 묶는 이유
예시문제 작업형3(신 버전)종자는 문자데이터에 잘 매칭되어있지만, 비료는 범주형임에도 불구하고 현재 수치형 11 ..로 배치되어 있기 때문에 비료에만 C ( )를 붙여준다고 설명해주셨습니다.그러나 궁금한것은 "예시문제 작업형3(신 버전)" 타이타닉 로지스틱변환 문제에서 Gender가 male, female 인 object 데이터로 되어있으니 이를 수치형으로 바꾸신다고 C(Gender)를 해주셨는데요 그래서 제가 이번 이원분산분석 모델 만들때 비료에 C( )를 붙이지 않고 종자에만 C( )를 붙여보았습니다. 왜냐하면 비료와 토마토수 데이터들이 모두 수치형 데이터들이라 범주형 데이터인 종자 데이터들을 수치형으로 바꿔야 겠다고 생각했기 때문입니다. 그러나 C( )를 종자에 붙여서 model.summary 한 경우와 C ( )를 비료에 붙여서 model.summary한 경우의 계수나 p값 등이 다르더군요 질문1: 예시문제 작업형3(신 버전)에선 object형인 Gender에 C( )를 붙이시고, 이원분산분석에서는 object인 종자에 C( )를 안붙이신 이유가 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글에 들어가서 채점을 해보았는데 오류가 뜹니다
ID 와 Segmentation 모두 잘 되었는데 왜 오류가 뜰까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 유형
선생님 안녕하세요!현재 작업형 1~3유형이 있는데 세 유형 모두 이번 시험에 나오는 것 맞나요? 전에 빅분기 실기 유형?이 약간 변형되었다는 말을 들었어서요. 선생님께서 강의에 다뤄주신 유형만 공부해도 되는 것 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구글폼말고 다른 버전있나요?
회사에서 연습하고 싶은데 구글폼은 보완문제로 안열려서요,, 혹시 다른 버전은 없나요 ??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이 두가지 방법의 코딩 결과값이 왜 다른가요??!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요이거 캐글에 있는 T1-9 번 문제입니다.첫번째 방식은 f5 컬럼의 평균값과 중앙값을 각각 구해 직접 계산하여 구하였고, 두번째 방식은 모범답안과 같은 방식으로 sklearn의 스케일링 방식으로 문제를 풀이했습니다.두 결과가 같게 나와야 한다고 생각하는데 값이 약간의 차이이지만 다르게 나오네요...! 제가 어떤 부분을 놓치고 있는 걸까요? 알려주시면 감사하겠습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
f1, MAE 등...
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요시험이 처음인지라 질문드려봐요! 😋 필기에 나왔던 개념들이지만.. 실기에서 해보려니까 기억이 안나는데요..ㅎㅎ 시험장에서는 f1, MAE 등 평가 지표들을 어떻게 구하는지 식이 나와있나요..? 암기해가야할까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train data와 test데이터 분리할때 트레인데이터의 쉐입을 이용한다는 말과 라인을 사용한다는 뜻이 뭐에요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 6 모의고사 풀이 관련 문의
선생님 안녕하세요!강의에서 복사하라고 하신 코드 부분들은 시험볼 때 제가 직접 타이핑을 해야하는 건지, 이미 작성되어있는것인지 궁금합니다!(아래 코드)# 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_wine() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df.to_csv("data1-1.csv", index=False) ##################################################################### # 출력을 원할 경우 print() 함수 활용 # 예시) print(df.head()) # getcwd(), chdir() 등 작업 폴더 설정 불필요 # 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가 # 데이터 파일 읽기 예제 import pandas as pd a = pd.read_csv("data1-1.csv") # 사용자 코딩 # 답안 제출 예시 # print(평균변수값)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rf.predict와 rf.predict_proba 차이
rf.predict와 rf.predict_proba 차이어떨때는 predict만 쓰시고 어떨때는 predict_proba를 쓰시던데어떤 차이가 있고 뭘 써야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 (이진/다중 분류, 회귀) 🆕 updated 2023.10 _ 첨부자료
안녕하세요?선생님, '평가지표 (이진/다중 분류, 회귀) 🆕 updated 2023.10' 강의의 첨부 자료 다운이 안돼서 문의 드립니다.하단의 첨부자료 클릭을 해도 다운이 안돼서 질문드립니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제3
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 선생님, 질문은 3가지 입니다. 1) 저는 문제를 딱 접했을때 분류모형을 써야할지, 예측모형을 써야할지 판가름을 정확하게 못하는 것 같습니다. 쉽게 판별하는 방법이 있을까요? 2) 이 문제의 경우 target인 output 컬럼을 train.head() 로 보면 0과 1로 구분되어있어서, 0 또는 1로 분류하는(분류모형) 것인가 생각했다가도 문제 맨위에서 참조해주는 예시에서 id,output 41,0.633 28,0.123 222,0.355를 보면 output이 확률값으로 되어있어서 회귀모형을 사용해야하는 것인가? 라고 헷갈리곤합니다. 어디서 개념을 잡지 못하는 것일까요 3) 최종 예측을 할때pd.DataFrame({'id':test_id, 'output':pred_proba[:,1]}).to_csv("00000.csv", index=False)output에 pred_proba 를 쓰셨는데 참조예시에서 확률값을 OUTPUT에 담았기 때문에 pred_proba를 사용한 것일까요?그렇다면 output에 pred 를 담는 경우는 어떤 경우인지요?