묻고 답해요
148만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2 유형 평가 방식
안녕하세요첫 실기 준비이다 보니 궁금한게 너무 많네요 ㅠㅠ 2유형 평가는 순수하게 제출된 csv 파일로만 평가되나요?아니면 풀이한 코드까지 평가 대상인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 머신러닝 및 평가지표-모델링 및 평가(회귀)
안녕하세요, [작업형2] 머신러닝 및 평가지표-모델링 및 평가(회귀) 강의에서결과값을 예측하는거에 대해 회귀분석이니 y값을 예측하는거고.. 이 하나의 값은 무엇을 의미하나요 ??평가방식이 RMSE이니 charges의 평균의 루트를 씌운값일까요 ??
-
미해결빅데이터/텍스트마이닝 논문 작성법(LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
강의 자료
안녕하세요. 강의 때 들었던 내용을 자료를 보면서 빠르게 복습하고 싶은데 자료를 어디서 받을 수 있는지 모르겠습니다. 혹시 따로 올려주신 자료가 없다면 강의자료 및 사용되는 프롬프트(및 코드) 업로드 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨 인코딩 질문 드립니다.
안녕하세요라벨인코딩 질문드립니다. 피처 엔지니어링 > 라벨인코딩 강의 부분 중에LabelEncoder 를 le 라는 변수에 선언하고,이후에 반복문 안에서 한 번 더 le 라는 변수에 encoder 를 다시 할당(?) 해주는데 뭔가 초기화(?) 같은 역할을 해줘야하는건가요?아니면 반복문 안에 le = encoder() 부분은 생략해도 무방한가요? le = LabelEncoder() for col in cols: le = LabelEncoder() # 이 부분이 꼭 들어가야하나요? X_train[col] = encoder.fit_transform(X_train[col]) X_test[col] = encoder.transform(X_test[col])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
성능평가 이해가 안되는 부분이 있습니다!
다른분들이 질문남긴거에 답변 달아주신걸 봐도 아직 이해가 안되는 부분이 있습니다.<작업형2 모의문제 3 수업노트 중> y_test 파일의 최종 결과파일의 데이터는 0 아니면 1인 이진분류인데,predict_proba로 제출한 값은 확률값인데,이 부분 확률로 제출하는게 괜찮다고 설명해 주신 부분을 보았는데도 아직 명확하게 이해가 되지 않습니다. 이 성능평가에 대한 부분을 어떻게 이해하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글에서 문제 풀어본후 저장안되게 하는 방법
캐글에서 문제 풀어본후 저장안되게 하는 방법이 있나요?다시 풀어보고 싶은데 한번 실행한 코드는 저장되서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보계속 맞게 적었는데 안되는데 머가 오류일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[섹션4_작업형2_모델링 및 평가(분류, 회귀)] 값이 다른 경우
평가 데이터 분할 시 random_state를 예제와 동일하게 2022로 지정 후에 의사결정나무, 랜덤포레스트, XGBoost가 포함된 각 셀을 실행하면 강의 시 설명한 예제 pred[:10]과 값이 제가 직접 실행한 값과 다를 수 있는가요?특히, 의사결정나무와 랜덤포레스트는 여러 번 실행하면 roc_auc_score 값이 계속 변경되는데 미세한 차이로 변경되어 채점 시 불이익 없는지도 궁금합니다. 아래와 같이 재실행 시 값이 변경되는 알고리즘을 정리했는데 맞는지 확인 부탁드립니다재실행 시 값 변경분류DecisionTreeClassifierRandomForestClassifier회귀RandomForestRegressor 재실행 시 값 변경 X분류XGBClassifier회귀LinearRegressionXGBRegressor
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2번에서 f3 컬럼관련 질문이요
f3 컬럼에서 결측치 채울때 mode[0] 이 아니라 그냥 mode 값을 넣으면 안되는 이유가 뭘까요? ㅠㅠf3 컬럼의 'gold'값을 가진 데이터의 수를 출력할 때 sum()함수 말고 len()함수를 썼더니 결과 값이 다르게 나왔어요. 차이점이 뭐가 있을까요? ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링과 인코딩은 선택사항인가요??
작업형2에서 어떨때는 스케일링과 인코딩을 하고, 어떨때는 하지 않는데 스케일링과 인코딩은 선택사항인가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출유형 작업형3 문제1-3 질문입니다.
7회 기출유형 작업형3 문제1-3 질문입니다. model = logit('gender ~ weight', data=train).fit() target = test.pop('gender') pred = model.predict(test) >0.5 # (0.5보다 크면 1, 0.5보다 작으면 0) 학습 후 예측값을 넣어주는데 predict 라는 값을 그대로 넣어주는것이 아니라 조건을 넣어 True,False 의 값을 넣게됩니다. 앞전에 작업형2에서는 pred 값을 그대로 넣었는데 0.5 를 입력하여 pred 에 넣는이유는 무엇이고 0.5 는 어디에 정의되어 있는건지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델링 및 평가 (분류)
데이터 프레임 작성과정에서 위와 같이 오류가 나는 이유는 뭔가요....?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 자료 및 실습 데이터 어디에서 찾아볼 수 있나요?
실습 데이터와 강의 자료는 어디에서 찾을 수 있을까요? 위치 링크 부탁 드립니다.
-
미해결15일간의 빅데이터 파일럿 프로젝트
5. Cloudera Manager 구성 시 오류
강의와 똑같이 설정하고 돌렸는데 위와 같은 오류들이 발생하는데 해결 방법을 모르곗습니다 ㅠㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
fillna 함수 질문드립니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 선생님~ㅎ 유익한 강의와 시험을 위한 오징어게임에도 참여중인 수강생입니다! 다름이 아니라 어제자 미션에서 fillna를 이용해서 결측치 값을 컬럼의 중앙값으로 채워야 하는 부분이 있었는데요 ? 저는 결측치가 있는 column을 따로 지정하고 for문을 사용했는데.. 다른사람의 코드를 보니 df=df.fillna(df.median())df의 median()은 어떤 값인지 .. 결측치가 하나일때는 그 값만 채워질것 같은데...결측치가 여러개일때는 컬럼 사용없이 자동으로 결측치가 있는 컬럼의 결측치를 채워주는건가요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-3 작업형 1 모의문제 8,9번
안녕하세요. 수업 잘 듣고 있습니다. 문제 풀이 중에 질문이 있어서 문의 남깁니다. 작업형 1 모의 8번 문제도 groupby 메소드를 사용하고 ( .groupby( ).sum() )모의 9번 문제도 groupby 메소드를 사용( .groupby( ).count() )한 다음 특정 조건의 값을 찾는 과정을 진행하는 부분에서 같아보입니다. 다만 8번 문제에서는 .reset_index( ) 와 .iloc[ ] 를 사용해 원하는 값을 출력했고,9번 문제는 이걸 사용하지 않고 .index[ ] 로 사용해서 풀이를 하셧는데요. 그래서 스스로 연습해보려고 8번 문제에서는 .index[ ] 를 사용해서 풀어봤더니 ('대구', 0) 라고 나오더라고요. 9번 문제는 .reset_index( ) 와 .iloc[ ] 를 사용해서 정답인 "11"을 바로 출력 가능했습니다. 문제에서 가장 적거나(오름차순), 가장 많은(내림차순) 구하는 경우도 있지만, 몇번째 값을 찾으라는 것도 있으니그냥 .reset_index( ) 와 .iloc[ ] 를 사용하는 법 하나만 외워서 풀어도 될까요?? 여러 방법을 알고 있으면 좋긴하겠지만, 제 경우는 서로 헷갈리는 경우가 있어 머리가 더 복잡하더라고요.그래서 두 방법중에서는 .reset_index( ) 와 .iloc[ ] 사용법을 외우는게 괜찮지 않을까 싶어서 여쭤봅니다.혹시 index[ ] 를 사용하는 법이 쉬우면서 범용성이 좋다면 요령을 알려주시면 감사하겠습니다 아래는 제가 연습하면서 작성한 코드입니다.문제9 에 .reset_index( ) 와 .iloc[ ] 적용해서 품# 문제 9 import pandas as pd df = pd.read_csv("members.csv") df["subscribed"] = pd.to_datetime(df["subscribed"]) df["month"] = df["subscribed"].dt.month df = df.groupby("month").count().reset_index() print(df.sort_values("subscribed",ascending=True).iloc[0,0]) 문제8에 .index[] 사용시 출력값이 깔끔하지 않음# 문제 8 import pandas as pd df = pd.read_csv("members.csv") # print(df.head()) # print(df.isnull().sum()) df = df.fillna(method = "bfill") # << 바로 뒤에 있는 값으로 대체 method = "bfill" 바로 앞에 있는 값 대체 시, method = "ffill" # print(df.head()) # print(df.isnull().sum()) dfgb = df.groupby(["city", "f2"]).sum(numeric_only=True).reset_index() ## dfgb.sort_values("views",ascending=False).index[2] # 출력값 ('대구', 0) dfgb = dfgb.sort_values("views",ascending=False) dfgb.sort_values("views",ascending=False).iloc[2,0] # 출력값 '대구'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기술유형(작업형2) roc_auc_score(y_val,pred[:,1]) 문의
validation data나 마지막 test나 model.predict_proba()통해 확률로 결과를 얻고 나서,평가 할때는 y_val이나 제공된 y_test 는 [0또는 1]로 구성된 배열입니다이 경우, model.predict()로 우선 0또는 1로 예측하고 평가도 이미 주어진 y_val또는 y_test로 한 뒤결과 제출시에만 model.predict_proba()를 사용해서 아웃풋 포멧에 맞춰야 하는것은 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 7분 4초 쯤에,...
강의 7:04 초 쯤에 p-value값이 0.409 인데 0.04로 읽고 귀무가설을 채택한다 라고 말씀하시고 진행했는데...잘못 말씀 주신거죠?ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
왜 평균이라고 표현을 하는건가요?
선생님 안녕하세요,뮤d =(after-before)의 평균 이라고 했는데왜 평균이라는 표현을 쓰는걸까요?ㅎㅎ
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
수집키워드 입력
안녕하세요데이터 정제 이해에 어려움을 겪고 있는 텍스톰 초보자입니다.선생님께서 예시로 장마, 폭우라는 단어로 칸을 추가하여 수집키워드를 입력하셨잖아요?이 방법은 두 단어를 반드시 포함하는 (장마+폭우) 인가요?아니면 입력한 단어가 하나 이상 포함된 (장마|폭우) 인가요?