묻고 답해요
143만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 확률 결과값
안녕하세요 선생님! 작업형 2유형 확률 문제를 풀다가 결과값 관련해서 문의드립니다 문제에 제시된 pred 예시형태는 소수점 형태인데 제가 코딩해서 제출한 csv 파일을 확인해보면 거의 매번 0 혹은 1로 나옵니다스케일링은 안하고 object 인코딩만 해주고 있는데 제가 코딩을 잘못 하고 있는 것인지, 채점 관련해서 상관없을지 궁금해서 여쭤봅니다!(roc_auc score는 0.7616337491337491 나왔습니다)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 10 예시문제 3 강의 4:27 부근 질문
안녕하세요, 뒤늦게 정신차리고 제대로 공부하고 있습니다.답안작성 관련 궁금증이 있어 글 남깁니다. 섹션 10_예시문제3(신버전) 강의 4:27예시문제 3 - 1번문제 답이 260.71702 .... 이런식으로 나왔는데,만약에 문제에서 소숫점 4째자리까지 구하라고 하였을때, print(round(260.71702016732104, 4)) = 260.717로 나오게 됩니다.260.717로 쓰는게 맞나요? 260.7170으로 쓰는게 맞나요?응시자 유의사항(시험홈페이지)에서는 260.717, 260.7170을 완전 다른값으로 보는거같아 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 분리
작업형 2에서 target을 EDA 단계에서 바로 pop으로 분리시키고 인코딩, 스케일링 해도 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 10 작업형1 예시문제 질문드립니다.
자동차 데이터 셋에서 qsec 컬럼을 Min-Max Scale로 변환 후 0.5보다 큰 값을 가지는 레코드(row) 수는?문제에서 qsec 컬럼만 묻고 있음 (다른 컬럼 신경 쓸 필요 없음)MinMax Scale 변환조건 0.5보다 큰 값제가 짜본 코드입니다.import pandas as pda = pd.read_csv('/content/mtcars.csv') from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() a['qsec'] = scaler.fit_transform(a[['qsec']]) # ★[['qsec']] cond1 = a['qsec'] > 0.5 print(cond1.sum()) ★ 강의에서는 데이터프레임 형태로 해당위치에 넣어줘야한다는 내용 확인했습니다. 해당 위치에서 대괄호[]를 한번 더 해야하는 이유가 뭔가요? 기존에 제가 받아온 a(mtcars.csv)가 데이터프레임 형태라 그런건가요? 대괄호 [] 1개 - 시리즈, 대괄호 [[[]] 2개 - 데이터프레임
-
해결됨[2024] 실무에서 사용하는 클라우드 보안 프로그래밍 (AWS, Python, Terraform)
terraform import 관련 질문
안녕하세요콘솔에서 배포한 aws 리소스들을 테라폼으로 관리하려고 한다면, 배포된 모든 리소스들을 하나씩 import한 후 plan해보면서 변경점을 찾아 코드화시키는 방법밖에 없을까요?리소스가 많으면 이런 작업도 공수가 꽤나 들어갈 것 같은데 다른 방법이나 툴같은게 있는지 궁금합니다. 찾아보니 terraformer로 가져올 수 있는거 같은데, 얘를 사용해도 일부 커스텀이 좀 필요한 것 같아 보입니다.실제 업무에서는 어떤 식으로 해결하는지 궁금하여 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
id를 train.test에서 굳이 삭제해야하나요??
안하고 진행하면 안디나요?둘 다 id가지고 있는데 굳이 삭제할 필요는 없는 것 같은데....
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-1
import pandas as pd df = pd.read_csv('../input/titanic/train.csv') pd.set_option('display.max_columns',None) # print(df.head(3)) q1 = df['Fare'].quantile(0.25) q3 = df['Fare'].quantile(0.75) iqr = q3 - q1 cond1 = df['Fare'] < q1 - 1.5 * iqr cond2 = df['Fare'] > q1 + 1.5 * iqr df = df[cond1 | cond2] cond3 = df['Sex'] == "female" print(len(df[cond3]))제 코드입니다.저는 cond1 이거나 cond2 이렇게 조건을 주면 그게 모두 이상치이고그 이상치를 df에다가 다시 덮어씌운다음에 여자인 조건 cond3을 준다음에 len을 사용해서 했는데 답이 너무 다르게 나와서 제 풀이는 왜 답이 안되는걸까요?이해를 못하겠습니다 ㅜㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모델 학습 시
데이터가 충분할 때는 train_test_split으로 X_tr, X_val, y_tr, y_val로 모델을 학습하고, 데이터가 충분하지 않을 때는 cross_val_scores로 모델을 학습한다고 알고 있습니다.여기서 데이터가 충분하고 충분하지 않고의 기준은 무엇인가요? 데이터가 몇 개의 행이 있어야 충분하다고 보는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글_점추정 및 구간추정
sample_std = temperature_data['Daily Average Temperature'].std(ddof=1)여기서 ddof는 무슨 의미인가요?구간추정에서 표준편차를 구할때 ddof=1은 필수조건인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 작업형 2에서 원핫인코딩할때 float형인 rating은 제외안해도 되나요?
원핫인코딩은 범주형에만 해야하는 걸로 알고있는데7회 작업형 2에서 원핫인코딩할때 float형인 rating은 제외안해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모형 fit 할 때
안녕하세요 선생님,보통 작업형2에서train, val 데이터 분할하고from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor()rf.fit(X_tr,y_tr) 하고 모델 평가 했을 떄 이상없으면pred = rf.predict(test) << test를 예측하게 되는데 여기서 질문이, fit은 X_tr, y_tr로 하는게 맞을까요 ?아님 분할 데이터가 아닌 X_train, X_train[y]로 하는게 더 적합할까요 ??ㅠㅠ 어렵네여 강의보면 x_tr, y_tr fit해서 진행하긴했는데궁금합니당
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[색션16, 작업형1, 문제1번] 질문합니다.!
[문제]결측치가 있는 행을 제거한 후, 학생이 가장 많이 수강한 과목(id_assessment)을 찾고, 해당 과목 점수(score)를 표준화(스탠다스 스케일) 한 뒤에 표준화된 가장 큰 값을 구하시오. (반올림하여 소수 셋째자리까지 계산)선생님께서는 가장 많이 수강한 과목을 찾기 위해서 value_counts()로 코딩을 하셨는데요!다름 아니라 df.sort_values('id_assessment' , ascending = False)로 내림차순정렬을 하여서 구하면 안되는걸까요! 내림차순정렬을 할때와 value_counts()로 구할때의 차이점도 혹시 있을까요.. 종종 헷갈리네요..둘다 같은 의미일까요 혹시.?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 2형에서 마지막에 예측값 구하는데 에러가 납니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요7회 2형에서 마지막에 예측값 구하는데 에러가 납니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요. 섹션4 작업형2에서 원핫 인코딩을 배울 때는 이렇게 배웠었는데 기출문제를 풀 때는이렇게 해서 똑같이 원핫 인코딩을 해주는데 두개의 방식의 결과는 차이가 없는거죠?그러면 기출문제 풀이가 더 간단하니까 아래 방식대로 하는게 나은거 겠죠?train=pd.get_dummies(train)test=pd.get_dummies(test)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3과목 문제 접근법 문의
3과목 문제와 관련하여, 선생님이 '가설검정', '카이제곱', '회귀분석', '분산분석' 등을 알려주셨는데,문제를 보자마자 이게 어떤 것으로 풀면되는지는 어떻게 아나요? 문제에서 어떤 검정을 써라고하는지 친절히 알려주나요? 아니면 저희가 추론해서 풀어야하나요?3과목에서 만약 알려주시지 않은 검정이 나오면 dir/help 통해서 함수를 추정해서 풀어가야하나요?대립가설과 귀무가설 역시 문제에서 무조건 알려주는 걸까요? (샤피로 정규성 검정 같은 경우, 무조건 귀무가설이 정규성을 만족한다여서 헷갈립니다.)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이 시점에서
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요약 일주일남기고 완강했습니다!지금 이 시점에서강의 커리큘럼에 있는 기출을 다시 복습하는게 나을까요?아니면 캐글가서 1~3작업형을 새롭게 풀어보는 것이 나을까요?아니면 캐글에서 꼭 이부분만은 우선적으로 봐야한다가 있을까요? 완강은 했지만 얼마 안남아서 걱정입니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
안녕하세요 코랩 오류가 왜 뜨는걸까요..?
기출2회 작업형 1풀고 있습니다.자꾸 print 구문 사용하려고 하면 아래와 같은 에러가 발생해서 print없이 마지막에 보고싶은 내용 적어서 보고있습니다. 왜 오류나는지 아시는분 있나요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
value 값 제거
train.describe()시 2060값이 이상치값인거같아 만약 제거하고싶을 땐 어떻게 해야 할까요? sort_values로 행을 찾아 drop으로 제거해야 하는걸까요? 코드를 어떻게 짜야할지 알 수 있을까요ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 2형 문의드립니다 (cross_val_score)
cross_val_score를 활용해서 rmse 평가를 시도해보았습니다.SCORERS에서 가장 유사하다고 판단되는 'neg_root_mean_squared_error'를 활용하였고, 음수로 나타난 값들을 얻었습니다.cross_val_score 함수는 값이 클 수록 좋은 모델임을 의미하므로, 보다 더 큰 값(더 작은 음수값)을 뱉는 모델을 찾아야 하는 것인지,혹은, RMSE 정의에 따라 에러값이 더 작은 값(더 큰 음수값)을 뱉는 모델을 찾아야 하는 것인지 문의를 드립니다. 예를 들어, cross_val 평균 측정값이#rf1 -399521.89795809553#rf6 -377713.996299675일 때, rf1과 rf6 중 어느 모델을 선택하는 것이 맞는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링시 데이터 분리 없이 하는 방법
dcols = train.select_dtypes(include='O').columnsncols = train.select_dtypes(exclude='O').columns위처럼 데이터를 인코딩과 스케일링 작업하기 전에 수치형, 오브젝트의 컬럼명을 변수에 미리 저장해 놓고, 아래처럼 분리 없이 스케일링과 인코딩 작업을 진행해도 되는지 궁금합니다. 동작은 제대로 하는 것 같아서 굳이 분리해야 하나 의문이 들어 질문 드립니다. 라벨인코딩과 스탠다드 스케일러를 둘 다사용한다고 가정했을 때 입니다. from sklearn.preprocessing import StandardScalerscale = StandardScaler()train[ncols] = scale.fit_transform(train[ncols])test[ncols] = scale.fit_transform(test[ncols]) from sklearn.preprocessing import LabelEncoderle = LabelEncoder() for col in dcols:train[col] = le.fit_transform(train[col])test[col] = le.fit_transform(test[col])