묻고 답해요
143만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 2유형 문제 에러 문의
7회 2유형에서 아래와 같이 코딩을 했는데 에러가 발생합니다. 에러기 왜 발생하는지 모르겠습니다.에러는 train_test_split 함수에서 "TypeError: isinstance() arg 2 must be a type, a tuple of types, or a union" 라고 나옵니다 import pandas as pd train = pd.read_csv('churn_train.csv') test = pd.read_csv('churn_test.csv') y=train.pop('TotalCharges') # print(test.head()) # print(train.shape, test.shape) # print(y.describe()) total = pd.concat([train, test],axis=0) # print (total.shape) total = total.drop('customerID',axis=1) # print (total.shape) total=pd.get_dummies(total) # print (total.shape) # print(total.head()) train = total[0:4116] test = total[4116:] # print(train.shape, test.shape) from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(train, y, test_size=0.2, random_state=2024) # print(X_train.head()) # print(X_train.shape, X_val.shape, y_train.shape, y_val.shape) from sklearn.ensemble import RandomForestRegressor rf=RandomForestRegressor() rf.fit(X_train, y_train) pred1=rf.predict(X_val) from sklearn.metrics import mean_squared_error print((mean_squared_error(pred1, y_val))**(1/2)) pred= rf.predict(test) result=pd.DataFrame=({ 'pred':pred }) result.to_csv('result.csv', index=False)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 -> 1유형 -> 2번 이처럼 풀이해도 될까요?
import pandas as pd df = pd.read_csv('data6-1-2.csv') # print(df.head()) df['전교생'] = df['1학년'] + df['2학년'] + df['3학년'] + df['4학년'] + df['5학년'] + df['6학년'] df['교사당학생수'] = df['전교생'] // df['교사수'] print(df.sort_values('교사당학생수', ascending=False)) # 19 답은 당연히 동일하게 나오는데요! iloc, loc 사용 않고 별도 컬럼 추가해주면서 계산하는 방식도 또 하나의 풀이 과정으로 볼 수 있겠죠?살짝 하드코딩 느낌이 나서 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의 문제 1 (13강 질문)
3번 문제 코딩을#f3의 결측치 0, silver는 1, gold는 2, vip는 3으로 반환 후 총 합을 정수형으로 출력 df.head() df=df['f3'].fillna(0) df.replace('silver',1).replace('gold',2).replace('vip',3)이런 방법으로 풀어나갈 수 있는 방법은 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩과 레이블인코딩
작업형 2에서 카테고리가 많으면 레이블인코딩을 진행하고, 적으면 원핫인코딩을 한다고 이해해도될까요? 그리고 레이블 인코딩은 범주형데이터만 사용하는데, 원핫 인코딩은 그러지 않는 이유가 궁금합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
길벗 책으로 공부 중인데 데이터 불러오는 방법
인강은 자료 다운로드 받아서 드래그앤드롭하면 되는 거 알겠는데책으로 할 때는 자료 어떻게 불러오나요?작업형1 연습문제 풀고 있는데 복붙하면 자료 안 불러져와서 에러 뜨네요빠른 답변 해주세요ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 불러오는 방법
구글 코랩에서 사용 중인데, 파일 업로드 어떻게 하나요?코드에import pandas as pd df = pd.read_csv("type1_data1.csv") df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/bigdata_analyst_cert/main/part1/ch3/type1_data1.csv")이렇게 붙여넣기 했는데 이렇게 하는게아닌가요? 드래그앤드롭 하라고 하셨는데 어디다 드래그앤드롭 하라는 건가요?ㅠ
-
해결됨(2025) 일주일만에 합격하는 정보처리기사 실기
22:03 do...while문 질문
22:03 do...while문 질문제 생각으로는printf문 출력 후 i++이 나와서 증가되고while문 i에는 2가 들어가야 될거 같은데잘못 이해하고 있나요...선생님 말씀대로라면 while문 실행 후 증감이 되야 될거 같은데요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 안 불러져오는데 어떻게 해야하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요데이터 안 불러져오는데 어떻게 해야하나요?
-
해결됨(2025) 일주일만에 합격하는 정보처리기사 실기
int check 변수 질문
비전공자 열심히 쫓아가는중입니다..^^;21:00초대 int check=i 변수가 가 실행되는 시점이 잘 이해가 안갑니다.i 에 대입되는 값이 그대로 check에 들어가는 원리인가요?홀수는 "현재숫자"만 출력되고짝수는 "짝수입니다"까지 출력되구요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출유형 6-2 작업형 질문
전체 학생수의 계산 값이 너무 크게 나옵니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터프레임 만드는데서 오류가 납니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세여기서 계속 오류가 납니다그리고 궁금한게 있는데요 데이터가 세개일때는 train으로 합쳐줘야해서 concat해서 df를 만든것이 train 데이터가 되는거 아닌가요?df=pd.concat([X_train,y_train['Reached.on.Time_Y.N']],axis=1) df위에 코드처럼 df를 만들면 저게 train으로 해서 뒤에 쓰여야 할것 같은데 뒤에라벨인코딩 할 때 왜df[col]=le.fit_transform(X_train[col])가 아니고 X_train[col]=le.fit_transform(X_train[col])l])이렇게 되는지 잘 모르겠어요... df는 그럼 concat으로 생성하고 뒤에 안쓰이는거 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 환경에 csv파일 생성 예시 코드가 주어지나요?
시험 환경에 csv파일 생성 예시 코드가 주어지나요?케글 모의고사 보니까 주어져 있어서요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6-3문제 질문입니다.
import pandas as pd import numpy as np df = pd.read_csv('data6-1-3.csv') print(df.shape) # print(df) df['sum'] = df.iloc[:,1:7].sum(axis=1) # print(df.head()) df['year'] = df['날짜'].str[:4] # 2022 12 # 2020 11 # 2021 9 # 2024 9 # 2023 9 df1 = df.groupby('year')['sum'].mean() # print(df1) df1 문제풀이를 보니까 groupby이후에 그냥 12로 나누셨던데 년도자료마다 갯수가 달라서 12로 나누면 안되는건아닌지 궁금합니다 아래는 선생님 풀이입니다. # 3. 연도별 그룹핑(총범죄).sum() result = df.groupby("연도")['총범죄'].sum()/12
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
벼락치기 3유형
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요시간이 너무 없어서, 3유형은 선택과 집중해서 보고 가려고 합니다.from statsmodel.formula.api import olsmodel = ols('키 ~ 몸무게' , data=df).fit()print(model.summary()) newdata = pd.DataFrame({'몸무게':[50]})pred = model.get_prediction(newdata)pred.summary_frame(alpha=0.05) 이 부분 말고도 볼만한 부분이 따로 볼만한 부분이 있을까요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 값
print(train.shape, test.shape) train.head(1) test.head(1) train.info() test.info() train.isnull().sum() test.isnull().sum() train.describe() test.describe() target = train.pop('Segmentation') print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) X_tr.shape, X_val.shape, y_tr.shape, y_val.shape from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val)다음과 같이 작업형 2 기출 4회를 한 셀에 풀고 있는데 target 구문을 겟더미 실행하기 전에 타이핑했습니다. 이후 모델 학습 및 평가를 실행하려고 하니 다음과 같은 에러가 뜹니다. 에러 코드가 복사가 안됩니다. 이 점 양해바랍니다. ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train과 test 컬럼수가 안맞을때
인코딩 한 다음 train과 test 컬럼수가 안맞을때test컬럼이 많을경우train = train.reindex(coulumns = test.columns, fill_values =) 이렇게 해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-6 검증데이터 분리에서 갑분y.. 뭘까요?
안녕하세요3-6 회귀- 검정데이터 분리에from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('charges'), axis=1),하고y값으로 chages를 넣어주면 된다고 하셨는데 이 부분이 이해가 안가요.train, test하다가 갑자기 y값이 나온 것과 train.drop('charges')에서 charges를 제외하는데 y값에 charges를 넣는게 이해안됩니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
concat시
cols = train.select_dtypes(include = 'object').columns ncols = train.select_dtypes(exclude = 'object').columns all_df = pd.concat([train,test]) c_all_df = pd.get_dummies(all_df[cols], drop_first = True) n_all_df = all_df[ncols] line = int(train.shape[0]) c_train = c_all_df.iloc[:line] c_test = c_all_df.iloc[line:] n_train = n_all_df.iloc[:line] n_test = n_all_df.iloc[line :] train = pd.concat([c_train,n_train], axis = 1) test = pd.concat([c_test, n_test], axis = 1) train.shape test.shape 강의 19분 49초 쯤 보면, object type만 concat을 시켰더라구요, 근데 실제로 수치형 데이터도 있을 수 있으니깐 위의 코드처럼 수치형도 별도로 불러와서 최종 train과 test / concat을 해줘야 하는거 아닐까해서요. 제가 저렇게 object type만 불러오는지 모르고 accruacy score 점수 매겨봤는데 0.49가 나오더라구요.. 저 방법이 맞는지 문의드리며, 좀더 간단한 코드가 있을까요? 저게 제일 직관적이긴 할것 같은데,,,,
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 작업형3 예시문제에서 단일표본 T검정 질문있습니다.
https://www.kaggle.com/code/agileteam/t3-ttest-1samp캐글에 있는 학생들의 평균이 75을 넘는 것을 물어보는 문제에서 학생들의 평균과 75를 비교해야하는 것 아닌가요?그런데 단순히 학생들의 점수와 75를 비교하고 있어서 이해하기 어렵습니다.코드는 ttest_1samp(scores, mu, alternative='greater') 이렇게 되어있고 scores는 점수리스트입니다.
-
미해결RAG 마스터: 기초부터 고급기법까지 (feat. LangChain)
임베딩 모델 실행 에러
안녕하세요.임베딩 모델 실행 하는데 아래의 에러가 발생합니다. 혹시 오픈ai 유료로 사용해야 api키 사용 가능한건가요 ?에러메시지는 할당 쿼터를 초과 했다는데, 임베딩 모델 실행 전 gpt에 질문한건 없었습니다..env 로딩 실행도 해놨습니다.