묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
randomforestclassifire()에서 random_state안 적어도 되나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 randomforestclassifire()에서 random_state안 적어도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cols로 안 묶고 하면 실행이 안되는 건가요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요cols로 안 묶고, 배웠던 데로 데이터 분리에서 train.drop('성별, axis=1) 이렇게 했는데 오류가 뜹니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
tail -f flume-cmf-flume-AGENT-server02.hadoop.com.log 오류
tail -f flume-cmf-flume-AGENT-server02.hadoop.com.log 했을때 Creating이나 강의에 말씀한 내용 나오지않고, 아래처럼 나오기만 하는데 Flume Config파일도 정상적이고 재시동도 해봤는데 안되는데 또 조치해야할게 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 random_state=2022
5회 작업형2유형 기출 강의에서 수치형 활용 부분에서 random_state=2022 는 무슨 의미인가요?공부하면서 random_state=0 도 본것 같은데 두개 차이가 무엇인가요? 왜 하는건가요? 2022가 그냥 임의의 숫자인것 같은데 그냥 아무 숫자를 하는건가요? 안해주면 안되는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2번 모의고사2
1.선생님께서 test데이터의 행 부분은 절대 삭제하면안된다고 하셨는데수치형 데이터만 남기기위해 열 데이터(컬럼)는 삭제해도 상관없는건가요? 2.제출예시를 보니까 이렇게 나와있던데 마지막으로 만든 csv 에서 head(3)을 해야하는건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 작업형2 질문있습니다.
다른 교재 2회 복원에서는 SVM 모형을 이용하는 문제가 있는데 영상, 최근 올려주신 마인드맵, 질문게시판 svm, svc 검색해봐도 정보가 안보이네요. 2~3회에만 나오고 svm 관련은 출제 가능성이나 풀이할때 사용가능성이 떨어져서 그런건지요...
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
데이터 전처리시
안녕하세요제가 가진 데이터를 토큰화 한 후에 강의에서 알려주신데로 데이터 전처리 사전을 만들어서 나머지 불용어나 정리안된 단어들을 수정하려고 하는데요..코드상 문제는 없는데 뭔가 잘 못 된건지 결과에서 단어들이 연속으로 붙어서 중복해서 표시가 되는데 혹시 이부분 해결에 도와주실 수 있을까요?가별대별대별, 판매자자자, 들어가다다 이런식으로 지울 단어들이 안지워지고 그대로 붙어서 출력이 됩니다.부탁드리겠습니다 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict 와 predict_proba
예측 결과를 ROC_AUC 평가 지표를 사용하라고 해서, predict_proba를 사용하면, 결과값이 1인 경우의 확률값(소수점 값)으로 나오는데, 예시 화면에서는 0 또는 1의 값으로 나타내게 되어 있어서, 평가시 predict로 해야할지 predict_proba를 적용해야 할지 다소 혼란스러운 부분이 있는데 실전에서 어떻게 해야 할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2유형 평가하기 관련 질문입니다.
작업형 2유형 평가하기 관련 질문입니다.작업형 2유형을 지속적으로 공부하고 있습니다. 헷갈리는 사항이 있는데요. 바로 평가하기 입니다.metrics 에서 해당 함수를 찾아서 응용하는것은 암기하여 가능하나 어떤문제에서는 train_test_split 에서 산출된 x_val 의 pred 값과 y_val 로 평가하기를 돌리는 경우가 있고, 또 어떠한 경우에는 주어진 test 엑셀파일과 y_test 엑섹파일 간에 평가하기를 돌려서 값을 산출하는 경우가 있는것 같습니다. 그래서 실제 기출문제를 풀 경우에 평가하기에서 어떤걸 평가하라고 주어지는 것인지, 아니면 평가하기는 test 파일로 진행해야하는지 헷갈려서 기준점이 있을까 하여 질문드려 봅니다. 결론 : 평가하기를 시행하라 하였을때 어떤값으로 평가하는게 정답일지 헷갈립니다.from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=2022) model.fit(x_tr, y_tr) pred = model.predict(x_val) real_pred = model.predict(test) from sklearn.metrics import recall_score recall_score(y_val, pred) #0.8282442748091603 recall_score(y_test, real_pred) #0.8211143695014663 from sklearn.metrics import precision_score print(precision_score(y_val, pred)) #0.9353448275862069 print(precision_score(y_test, real_pred)) #0.9333333333333333
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
업로드한 파일 불러오는 방법을 모르겠습니다.
기출3회. 작업형 1유형. 1번문제자료를 어떻게 불러와야 하는지 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
modeling : RandomForestClassifier
RandomForestClassifier 모델링에서 max_depth와 n_estimators 를 설정해 주었는데,RandomForestRegressor 사용시에도 같은 옵션으로 tuning을 하는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
data['qsec']가 시리즈인지, 데이터프레임인지 어떻게 알 수 있나요??
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 data['qsec']가 시리즈인지, 데이터프레임인지 어떻게 알 수 있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요왜 처음에 pd.read_csv하고 df.head()를 했을 때, 데이터 프레임 형태로 안 나오는 건가요? 매번 load 함수로 넣어야 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 연장 문의
안녕하세요. 강의 기간이 6월 12일까지인데 혹시 이번 실기시험까지 연장이 가능할까요?ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예측 모델 질문
LGBMclassifier, LGBMregressor, Randomforestregressor에 LabelEncoder를 사용해도 상관 없는건가여??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터프레임
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요 데이터 프레임은 [[]]시리즈는 []인건 이해했습니다.다만, 스케일링을 할 때 앞에 2과목 강의에서는 [] 한번만 사용했는데이는 cols라는 새로운 리스트를 만들어줘서 그런것으로 생각됩니다.이 문제에서는 qsec라는 하나의 열에 스케일링을 적용하지만 qsec가 데이터 프레임 형태에 하나의 열로 들어가 있기 때문에 [[]]으로 생각하면 될까요?
-
해결됨[빅데이터 러닝센터] (무료) KNIME으로 시작하는 분석 Skill-Up
도와주세요
Column Renamer를 사용하려고 하는데 변수 타입 변경이 아니라 이름만 변경되는 것 같은데.. 해당 영상처럼 타입이 안뜨는데 어떡하죠ㅠ groupby노드도 안보이고 Numeric binner노드도 안보여요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링 질문입니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요스케일링 진행 시 train 에는 있지만 test 에 컬럼이 없는 경우"None of [Index(['Attrition_Flag'], dtype='object')] are in the [columns]"의 오류가 발생합니다.컬럼 리스트의 기준을 train으로 잡지 않고중복되는 컬럼만 존재하는 test의 기준으로 컬럼 리스트를 잡고fit_transform 을 진행해주어도 상관이 없을까요?from sklearn.preprocessing import RobustScaler rols = test.select_dtypes(exclude='object').columns for rol in rols: rs = RobustScaler() train[rol] = rs.fit_transform(train[[rol]]) test[rol] =rs.transform(test[[rol]])작성한 코드입니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[MOCK EXAM] T2. EXAM template 코랩, 캐글에서 코드가 안돌아갑니다
https://www.kaggle.com/code/agileteam/mock-exam-t2-exam-template이 문제를 풀고 있는데, 코랩과 캐글 모두 코드가 안돌아갑니다(RAM을 모두 사용했다고 실행이 멈춥니다) 코드가 잘못된 부분이 있어서 그럴까요?? # your code # 라이브러리 불러오기 import pandas as pd X_test = pd.read_csv("../input/hr-data/X_test.csv") X_train = pd.read_csv("../input/hr-data/X_train.csv") y_train = pd.read_csv("../input/hr-data/y_train.csv") # EDA # X_train.info() # y_train.info() # X_test.info() # X_train.shape, y_train.shape # 전처리(타겟, 결측치, 인코딩, 스케일링) # X_train.isnull().sum() # 결측치가 모두 범주형 컬럼이므로 특정값 "x"로 채워주기 # gender 4508 object # enrolled_university 386 object # education_level 460 object # major_discipline 2813 object # experience 65 object # company_size 5938 object # company_type 6140 object # last_new_job 423 object # X_test.isnull().sum() # 결측치가 모두 범주형 컬럼이므로 특정값 "x"로 채워주기 # gender 510 object # enrolled_university 31 object # education_level 52 object # major_discipline 310 object # experience 5 object # company_size 621 object # company_type 634 object # last_new_job 40 object # y_train.isnull().sum() X_train = X_train.fillna("x") X_test = X_test.fillna("x") # X_train.shape # (8955, 13) # 학습, 예측에 사용되는 데이터만 인코딩(정답지인 y_test는 인코딩x) X_train = pd.get_dummies(X_train) X_test = pd.get_dummies(X_test) # # X_train.shape, y_train.shape # ((19158, 187), (19158, 1)) # 모델링(학습, 예측, 평가) # 평가지표를 사용할거면 train_test_split 해야 함 from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import roc_auc_score rf = RandomForestClassifier(random_state = 42) rf.fit(X_train, y_train) pred = rf.predict_proba(X_test)[:, 1] # predict_proba : 분류 문제에서 확률을 예측할 때 # roc_auc_score, accuracy, f1 : 분류에서만 사용 # error가 들어가는 지표 : 회귀에서 사용 # 제출 result = pd.DataFrame({ "pred" : pred }) result.to_csv("result.csv", index = False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치
X_train['occupation'] = X_train['occupation'].fillna('X') X_train.isnull().sum()안녕하세요 선생님, 좌측 x_train 에서 x_train[occ~]이 아닌 a = X_train['occupation'].fillna('X') 로 해서 진행해서 결측치로 채우는 방법은 어떻게 하는걸까요 ??좌측은 변수명인데 꼭 파일명['컬럼명']을 작성해야할까요 ?