묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
zscore, standardscaler차이점
선생님 강의 보다가 zscore함수가 눈에 띄어서 그런데 혹시 sklearn.preprocessing아래 standardscaler와 차이가 있나요?? 실행해보니 zscore는 1이상의 값도 반환을 하던데 무슨 기능을 하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
윌콕슨 순위합 검정
데이터 전문가 포럼 카페에서 윌콕슨 순위합 검정에 관련해서 의견이 나왔었는데, 선생님 강의에서는 윌콕슨에 관련해서 말씀해주셨는데, 부호순위 인가요 순위합 검정인가요? 그리고 둘이 구현하려면 코드가 다를까요? 순위합 검정과 부호순위는 ttest독립성 검정에서 정규성 불만족시 수행되는건가요?
-
미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
[Jupyter Note] shift+enter 오류
Jupyter note에서 갑자기 마크다운 입력한 셀이 shift+enter가 안 먹는데 어떻게 해결할 수 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 질문드립니다
안녕하십니까 선생님 저는 빅분기 실기 준비기간이 길지않아 아무래도 2유형을 한가지 방법으로만 공부해야할 것 같습니다. 한가지 방법으로 풀기 강의를 통해 2유형을 풀어보면 너무나도 쉽게 문제들을 풀 수 있어 편하다고 생각하는데 한편으로는 모든 문제들을 오직 이 방법으로만 풀어도 되나하는 생각이 들기도 합니다. 공부하면서 다음과 같이 질문들을 써놨습니다. 답변주시면 감사드리겠습니다.작업형 2유형 질문1. 이제는 3개의 데이터는 시험에 나오지 않는 것인가?2. 어느 문제든 상관없이 원핫인코딩만 써도 되는것인가?3.. 선생님께서는 기출 한가지 방법으로 풀기 강의를 시작하기 앞서 기출문제에서는 결측치가 있거나 특이사항이 없었기에 쉽게 풀 수 있다고 말씀하셨는데, 혹시 여기서 말씀하신 특이사항의 예시로는 뭐가 있을까?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라이브러리 불러오는 기준!
3유형 관련입니다. 로지스틱 회귀 불러올때는import pandas as pd from statsmodels.formula.api import logit result1 = logit("Survived ~ Gender+SibSp+Parch+Fare', data=df).fit().summary(GLM 불러올때는 from statsmodel.formul.apli import logit import numpy as np 이처럼언제는 np 불러오고 언제는 pd 불러오나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightgbm에 하이퍼파라미터 적용시 n_estimators 값에 따른 learing_rate 값 변화
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요max_depth 값을 먼저 찾아주고그 다음 n_estimators와 learning_rate 값을 동시에 찾아야 하나요? 아니면 n_estimators 값을 max_depth 처럼 먼저 찾고learning_rate 값을 0.1에서 조금씩 낮춰가면서 찾아도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print() 문 질문입니다
1,2,3 유형 print() 문 질문입니다. 강의에서 1과목의 경우 마지막에 결과를 출력하는 print(result) 하나만 남기라고 하셨는데, 지금 1, 3 유형의 경우는 답을 직접 제출하는 페이지가 있으므로,문제 풀이 창 (코드 작성하는 창) 에서는 print() 문이 여러개 있어도 문제없나요?그리고 2유형의 경우도 print() 문이 여러개 있어도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에러 이유
안녕하세요! 캐글에 올려주신 자료로 공부 중 에러가 떴는데 어떻게 해결해야할지 몰라 질문 남깁니다!너무 길어서 보기 어려운 점 미리 사과드립니다..ㅠㅠimport pandas as pdtrain = pd.read_csv("/kaggle/input/big-data-analytics-certification-kr-2024-3/train.csv")test = pd.read_csv("/kaggle/input/big-data-analytics-certification-kr-2024-3/test.csv")# EDA# print(train.shape, test.shape) #(1168, 81) (292, 80)# print(train.info()) #float64(3), int64(35), object(43)# print(test.info()) #float64(3), int64(34), object(43)# print(train.isnull().sum().sort_values(ascending=False)[:10])#범주형 데이터가 너무 많아서 수치형만 선택train=train.select_dtypes(exclude=['object'])test=train.select_dtypes(exclude=['object'])# print(train.head(2))# print(train.isnull().sum()) #LotFrontage 218, GarageYrBlt 69# print(test.isnull().sum())# print(train['LotFrontage'].describe())# print(train['GarageYrBlt'].describe())#전처리(결측치, 타겟값 분리)target=train.pop('SalePrice')train=train.drop('Id',axis=1)test_id=test.pop('Id')train['LotFrontage']=train['LotFrontage'].fillna(train['LotFrontage'].mean())train['GarageYrBlt']=train['GarageYrBlt'].fillna(train['GarageYrBlt'].mean())train['MasVnrArea']=train['MasVnrArea'].fillna(train['MasVnrArea'].mean())test['LotFrontage']=test['LotFrontage'].fillna(test['LotFrontage'].mean())test['GarageYrBlt']=test['GarageYrBlt'].fillna(test['GarageYrBlt'].mean())test['MasVnrArea']=test['MasVnrArea'].fillna(test['MasVnrArea'].mean())# print(train.isnull().sum().sum()) # print(test.isnull().sum().sum())#데이터 분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)# print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)#랜포from sklearn.ensemble import RandomForestRegressorrf=RandomForestRegressor(random_state=0)rf.fit(X_tr, y_tr)pred=rf.predict(X_val)#평가from sklearn.metrics import mean_squared_errordef rmse(y, y_pred): return mean_squared_error(y, y_pred)**0.5# print(rmse(y_val, pred))#중앙값 : 34668.70085343153#평균 : 33430.8118326734# 최댓값 : 34100.46200633792#최솟값 : 34023.36640178194#예측pred=rf.predict(test)submit=pd.DataFrame({'Id':test_id, 'SalePrice':pred})submit.to_csv('0000.csv', index=False)pd.read_csv('0000.csv')--------------------------------------------------------------------------- ValueError Traceback (most recent call last) Cell In[55], line 68 60 return mean_squared_error(y, y_pred)**0.5 61 # print(rmse(y_val, pred)) 62 #중앙값 : 34668.70085343153 63 #평균 : 33430.8118326734 (...) 66 67 #예측 ---> 68 pred=rf.predict(test) 69 submit=pd.DataFrame({'Id':test_id, 'SalePrice':pred}) 70 submit.to_csv('0000.csv', index=False) File /opt/conda/lib/python3.10/site-packages/sklearn/ensemble/_forest.py:981, in ForestRegressor.predict(self, X) 979 check_is_fitted(self) 980 # Check data --> 981 X = self._validate_X_predict(X) 983 # Assign chunk of trees to jobs 984 n_jobs, _, _ = _partition_estimators(self.n_estimators, self.n_jobs) File /opt/conda/lib/python3.10/site-packages/sklearn/ensemble/_forest.py:602, in BaseForest._validate_X_predict(self, X) 599 """ 600 Validate X whenever one tries to predict, apply, predict_proba.""" 601 check_is_fitted(self) --> 602 X = self._validate_data(X, dtype=DTYPE, accept_sparse="csr", reset=False) 603 if issparse(X) and (X.indices.dtype != np.intc or X.indptr.dtype != np.intc): 604 raise ValueError("No support for np.int64 index based sparse matrices") File /opt/conda/lib/python3.10/site-packages/sklearn/base.py:548, in BaseEstimator._validate_data(self, X, y, reset, validate_separately, **check_params) 483 def _validate_data( 484 self, 485 X="no_validation", (...) 489 **check_params, 490 ): 491 """Validate input data and set or check the `n_features_in_` attribute. 492 493 Parameters (...) 546 validated. 547 """ --> 548 self._check_feature_names(X, reset=reset) 550 if y is None and self._get_tags()["requires_y"]: 551 raise ValueError( 552 f"This {self.__class__.__name__} estimator " 553 "requires y to be passed, but the target y is None." 554 ) File /opt/conda/lib/python3.10/site-packages/sklearn/base.py:481, in BaseEstimator._check_feature_names(self, X, reset) 476 if not missing_names and not unexpected_names: 477 message += ( 478 "Feature names must be in the same order as they were in fit.\n" 479 ) --> 481 raise ValueError(message) ValueError: The feature names should match those that were passed during fit. Feature names unseen at fit time: - SalePric
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수치형을 스캐일링 할 수 있는 방법 중 선택
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요민맥스, 스탠다드, 로버스트를 어떨 때 사용하면 좋을지 알 수 있는 방법이 있을까요??로버스트는 이상치 존재 시 정교해질 수 있는 장점 정도만 알고 있는데 쉽게 구분하는 방법을 알려주시면 감사하겠습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
대응표본검정 검정통계량
안녕하세요대응표본검정을 할 때, μd는 문제에서 주어지는 건가요? μd = (after - before)의 평균: 인자를 ttest_rel(df['after'], df['before']) 조건에 명시된 순으로 로 넣고μd = (before- after)의 평균: ttest_rel(df['before'], df['after']) 로 넣는게 맞나요?pvalue는 같지만 검정통계량(statistic)이 음수 양수로 나오는데, 검정통계량을 묻는다면 출력된 그대로 넣으면 되는걸가요..? 대응표본 검정은 무조건 단측 검정인건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요원핫인코딩 말고 라벨인코딩을 하는 이유는 무엇인가요? 라벨인코딩 말고 원핫인코딩을 사용하려면 어떻게 해야하나요?
-
미해결(2025) 일주일만에 합격하는 정보처리기사 실기
함수와 재귀함수
함수와 재귀 함수 강의도 13분 15초에 영상이 끝나는데 16분 51초까지 검은 화면이 나옵니다! 수정하면 좋을 것 같아요~강의 잘 듣고 있습니다~ 2회차때 합격하도록 열심히 공부하겠습니다. 함께 힘내주세요!!
-
해결됨파이썬 동시성 프로그래밍 : 데이터 수집부터 웹 개발까지 (feat. FastAPI)
TypeError: field Config is defined without type annotation
'FastAPI + MongoDB ODM 셋업' 강의 중 book.py 파일을 만든 뒤 서버를 실행할 때 아래와 같은 에러 메시지가 노출됩니다. TypeError: field Config is defined without type annotation Config에 type annotation이 정의되지 않았다고 하는데, 타입을 정의하거나 클래스 이름을 바꿔보는 등의 방법을 적용해보아도 같은 에러코드가 노출되고 있어 문의드립니다. 제가 사용하고 있는 환경의 python은 3.8버전이며, odmantic 등 라이브러리는 최신 버전을 사용하고 있습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
logit에서 잔차이탈도 구하기
3유형 로지스틱회귀에서 잔차이탈도를 구하려면 logit이 아닌 glm을 권장하셨는데요.logit에서 제공하는 llf에 -2를 곱한 값으로 잔차이탈도를 구한다면 굳이 glm 사용할 필요는 없지 않나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3
선생님 제가 강의 1회독은 다 했지만 작업형 3이 제일 자신이 없는데 혹시 남은 기간동안 작업형3을 어떻게 공부하는게 좋을까요,, 최대한 작업형1, 2를 열심히 하고 3은 최소한으로 중요한 부분만 보고 가려고 합니다 ㅜ강의에 나오는 작업형 3 구버전 예시문제랑 기출6,7회만 계속 반복해보려고 하는데 괜찮을까요? 작업형 3에서 추렸을때 최소한 이것은 알고 가야한다는 개념이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 처리
3-5 Classification파일에서 아래와 같이 처리하면, 수치형 뿐 아니라 명목형 변수의 결측치도 0으로 채워지는것 아닌가요?그렇게 해도 상관없는건지 궁금합니다. # 간단한 결측치 처리 X_train = X_train.fillna(0) X_test = X_test.fillna(0)# 간단한 결측치 처리 X_train = X_train.fillna(0) X_test = X_test.fillna(0)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4회 작업형2 결과...
예측 결과를 아래와 같이 데이터프레임으로 만드는 것은 이해가 됩니다.실제로도 정상적으로 데이터프래임셋이 형성되었고요.submit = pd.DataFrame({ 'ID': test_ID, 'Segmentation': pred }) submit그런데,. 제출하는 코드를 실행하면 강의에서는 점수(Score: 0.30477)가 나온다고 하는데저는 read_csv로 확인하면 위의 데이터프레임 셋이 그대로 나옵니다.점수는 어떻게 확인하나요?submit.to_csv("submission.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 시험환경에 대해 질문드려봅니다.!
시험환경에서 작업형1, 3의 답을 제출할 때작업형1, 작업형3 답안제출 페이지로 들어가서 답을 제출하잖아요? 그런데 보니깐.예를들어 작업형1은 총 세문제니깐.제가 한문제씩 풀고, 답을 제출하려고 답안제출 페이지에 들어갔다 나오니깐 기존의 코딩들이 다 초기화가 되더라고요.. 그러면은. 한꺼번에 문제를 다 풀고답안제출 페이지에 들어가서 한꺼번에 답을 다 작성해야될까요.?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 체험하기 오류
빅분기 실기 체험하기 사이트로 연결하니까 계속 저런 오류만 나오는데 어떻게 해야 할까요?ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출 작업형3에서 문제 2-2. 질문이있어요.
문제 : 문제2-2. CPU 컬럼이 100미만인 것만 찾아 ERP를 종속 변수로, 나머지 변수들을 독립 변수로 설정해 선형회귀 모델을 만들고 적합한 결정계수를 구하시오. (반올림하여 소수 셋째자리까지 계산) 라고 되어있는데요. df.describe()하면 CPU max 값이 99.796225 라고 나와서.. # 1) CPU가 100 미만인 데이터 필터링 cond = df['CPU'] < 100이거 하면 그럼 모든 행이 포함되는 게 아닌가요?