묻고 답해요
143만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2유형 피처 엔지니어링
선생님, 수업 잘 들었습니다.퇴근 후에 아무래도 시간이 많지는 않아서 조금 더 간단하게 풀이할 수 있게 준비를 하고 싶은데피처 엔지니어링을 할 때 항상 아래 두 가지 방법을 동시에 사용해서 수치형과 범주형 컬럼들을 동시에 사용해도 문제가 없을까요? 수치형 : 스케일링범주형 : 인코딩
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형(작업형3) 문제풀이
안녕하세요, 해당 영상 11분 7초에서 rsquared 함수를 사용하시던데, 문제에서 '적합한 모델의 결정 계수'라고 하였으니 rsquared_adj 함수를 사용해야 하지 않나 해서 질문드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 채점방식
작업형2 채점방식이 궁금합니다.시험에서 제시한 평가지표로 예측값과 실제값을 비교 평가해서 평가지표 점수가 안좋을수록 감점을 받는 그런방식으로 채점이 된다고 이해하면 될까요??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
답이 다른 이유
이렇게 풀었는데 왜 답이 다를까용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩/시험환경
시험환경에서는 하나의 칸 안에 모든 코드를 적는 것이 좋다고 하는데 코랩에서는 칸을 나눠서 각 단계를 적는 연습을 하다보니 어느정도까지 ctrl+shift처리를 해가며 풀이를 해야할지 고민입니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글
선생님 캐글 놀이터 사용법 알려주는 영상이 뭘까요~?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5-2예제 원핫인코딩이 도저히 안되서 질문드립니다.
cols =['neighbourhood_group','neighbourhood','room_type'] # from sklearn.preprocessing import LabelEncoder # for col in cols: # le = LabelEncoder() # train[col] = le.fit_transform(train[col]) # test[col] = le.fit_transform(test[col]) train = pd.get_dummies(train) test = pd.get_dummies(test) train[cols] --------------------------------------------------------------------------- KeyError Traceback (most recent call last) <ipython-input-89-9aca98e66a02> in <cell line: 14>() 12 test = pd.get_dummies(test) 13 ---> 14 train[cols] 2 frames /usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py in _raise_if_missing(self, key, indexer, axis_name) 6247 if nmissing: 6248 if nmissing == len(indexer): -> 6249 raise KeyError(f"None of [{key}] are in the [{axis_name}]") 6250 6251 not_found = list(ensure_index(key)[missing_mask.nonzero()[0]].unique()) KeyError: "None of [Index(['neighbourhood_group', 'neighbourhood', 'room_type'], dtype='object')] are in the [columns]"
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 처리 관련(에러메시지 마주하기 영상, 교재 작업형2 회귀)
섹션19 강의 중 에러메세지와 마주하기 영상에서에러3 : 결측치가 있는 경우, 모델 학습시 에러가 나므로 결측치를 처리해야 한다고 나와있습니다만,코드를 실행해보니 결측치가 있는 상태에서도 에러가 나지 않고 학습이 되었습니다영상을 제작하셨을 당시와 지금의 버전 차이로 인해 에러가 나지 않는 것 같아서교재 작업형2 ch4 회귀 파트의 코드를 이용해 비교 확인해보았는데요, 교재의 코드에서 수치형 데이터(Item_Weight)의 결측치를 채우지 않고 모델을 실행했을 때선형회귀 모델에서는 결측치로 인한 에러가 발생하였고,랜덤포레스트, lightgbm에서는 에러가 발생하지 않았습니다. 저는 랜덤포레스트, lightgbm 모델을 사용하려고 하는데,이러한 경우에도 전처리를 하는게 더 좋은 방법인지 문의드립니다.평가지표로 확인을 해보기는 하겠지만모델 학습에 에러가 나는게 아니라면없는 값은 없는 대로 학습하는게 더 나을 것 같다는 생각이 들어서요. 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
object type인 columns의 삭제 이유
수치형 데이터, 범주형 데이터가 아닌 object type인 columns은 왜 drop으로 삭제하는 건가요?그 정도들도 예측에 사용되면 좋지 않을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시나공 빅분기 실기 P.173 문제 21
안녕하세요!해당코드에서 total_secondes 사용 시에,1번과 2번에선 오류가 왜 발생하고, 3번 형식으로 해야 왜 정상적으로 출력이 되는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로짖모형에서 C()를 감쌀때와 안감쌀때...
질문 있습니다. 아래와 같이 로짓모델에서 "B"가 사람 유형으로 이미 수치로 인코딩 되어있다고 합니다. (어른은 1, 아이는 2, 청소년은 3)즉 B열은 수치형으로 되어 있죠. 그러나 성격은 범주형 데이터 입니다.((B = [3,1,3,2,3,...])그럼 B열을 C(B)로 하는게 맞는지? B로 하는게 맞는지요?( llf 값과 parameter값이 달라집니다.) from statsmodels.formula.api import logit model = logit("A ~ B + C", data=df).fit() from statsmodels.formula.api import logit model = logit("A ~ C(B) + C", data=df).fit()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
레이블 인코딩관련
from sklearn.preprocessing import LabelEncoder le=LabelEncoder() for col in cols: train[col]=le.fit_transform(train[col]) test[col]=le.transform(test[col] 이렇게 레이블 인코딩을 했는데요.. object안에 갯수가 많을 경우 fit을 통해서 매팅사전을 만드는데요. 제가 궁금한것은 매핑이 어떻게 되었는지 확인하는 방법이 궁금합니다. 예) 사과, 배, 수박, 메론이 있으면 무엇이 1, 2,3,4로 매핑되었는지 확인하고 싶을때 그 방법이 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ID값
id 말고도 다른 object값이 있는데 왜id만 nunique값을 구하고 전처리때 drop하는지 알 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재 오타 관련 문의
정오표(구글독스)에P344아메리카노 한 잔의 원두의 -> 팝콘 라지 사이즈의 로 나와있는데,H_1 : 120g이 아니다 -> 120g 보다 작다이부분 또한 수정이 필요해보입니다. 또한 3번째 문장"여기서 120은 팝콘의 알려진 무게 (중앙값) p-value가 0.05보다 크기 때문에 귀무가설을 채택한다."무슨 의미인지는 알겠지만 문장이 뭔가 어색한 것 같습니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로버스트와 라벨 인코딩 문의
from sklearn.preprocessing import RobustScaler cols = ['Age','AnnualIncome', 'FamilyMembers', 'ChronicDiseases',] scaler = RobustScaler() train[cols] = scaler.fit_transform(train[cols]) test[cols] = scaler.fit_transform(test[cols])from sklearn.preprocessing import LabelEncoder cols = ['Employment Type', 'GraduateOrNot','FrequentFlyer', 'EverTravelledAbroad' ] for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.fit_transform(test[col]) 위처럼 로버스트와 라벨인코딩 후, 랜덤포레스트 하였습니다. 최종값이 로버스트 스케일 + 라벨인코딩 = 0.77라벨인코딩 = 0.78이 나왔는데,둘다 한다고 성능이 더 좋아지는것은 아닌가요?이 상황일 때 시험칠때 둘 중 높은 라벨인코딩만 적용해서 제출하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로버스트 스케일러 문의
from sklearn.preprocessing import RobustScaler cols = ['Age','AnnualIncome', 'FamilyMembers', 'ChronicDiseases',] for col in cols: scaler = RobustScaler() train[col] = scaler.fit_transform(train[col]) test[col] = scaler.fit_transform(test[col]) trainValueError: Expected a 2-dimensional container but got <class 'pandas.core.series.Series'> instead. Pass a DataFrame containing a single row (i.e. single sample) or a single column (i.e. single feature) instead.로버스트 스케일러를 라벨인코딩처럼 for 문으로 사용안되는 것인가요?에러가 발생하네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df['컬럼'].sum()과 sum(df['컬럼'])의 차이가 궁금합니다.
두개 번갈아가며 쓰시는거 같은데 둘 중 아무거나 써도 되는건가요? 값은 똑같이 나옵니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
# 어절 나눈 후 첫 번째 값
질문 : 첫 데이터의 첫단어, 두번째 데이터의 첫단어, 세번째 데이터의 두번째 단어 추출 # 블루베리 딸기 바나나 이렇게 추출하고 싶으면? 어떻게 해요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ID를 Drop 하지 않았을 때
custom id를 drop 하지 않고 검증 데이터 분리해서 랜덤포레스트 하면could not convert string to float: 'CUST0734'이러한 에러메시지가 뜨더라구요. 무조건 drop을 진행해야 하는건지..어쩔때 drop하고 어쩔때 안하는건지 비교가 가능할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출2 작업형 1
안녕하십니까 기출2 작업형 1번 - 1번문제에서 문제 : (1)주어진 데이터셋(members.csv)의 'views' 컬럼 상위 10개 데이터를 상위 10번째 값으로 대체한 후 (2)'age'컬럼에서 80 이상인 데이터의 'views' 컬럼 평균값 구하기코드: import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv") df.head(5) df = df.sort_values('views',ascending=False) df.head(10) #min = df['views'][:10].min() min_value = df['views'].head(10).min() #print(min_value) = 9690 df.iloc[:10,-1] = min_value #print(df.head(11)) cond = df['age'] >= 80 =(K) print(df[cond]['views'].mean())문제에서 크게 (1), (2)를 구하라고 하는것 같은데 시험에서 답안을 제출할때 최종적으로 (K)부분에만print 붙여서 제출하는게 맞을까요? Q2. 실제 시험장에서 문제를 보았을때 import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv")이런 setting이 되어있나요, 아니면 문제의 데이터위치를 보고 직접 코드를 쳐야하나요?