묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시계열데이터
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요day일땐 99를 더하고 hour일때 100더하는거 그냥 외워도되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 유형 풀이 랜덤포레스트
from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_train , y_train) pred = rf.predict(X_val) f1_score(y_val,pred,average = 'macro') 랜덤포레스트는 fit하는걸로 외우면 될가요? 인코딩 시, 모델학습 시 fit, fit_transform 사용 할때랑 계속 햇갈려서요;.. 쉽게 외우거나 이해하는 방법 있을가요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-4 피쳐엔지니어링 인코딩 부분에서 질문
안녕하세요. 3-4 피쳐엔지니어링에 인코딩 부분에서 질문이 있습니다. 파일에선 범주형 칼럼을 추출하기 위해 X_train.columns[X_train.dtypes == object] 를 사용했는데 cols = X_train.select_dtypes(include= "O").columns 로 해도 동일하게 작업이 가능한가요? 최대한 단순하게 외우고 싶어서 이게 가능하다면 select_dtypes() 사용하는걸로 외우려고요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Transform 관련 코드 이상
아래와 같이 코드를 작성했는데 지속 오류가 가장 마지막 문자엥서 나옵니다. 이유를 찾지 못하겠습니다.cols = [‘neighbourhood’, ‘neighbourhood’, ‘room_type’]from sklearn.preprocessing import LabelEncoderfor col in cols:le =LabelEncoder()train[col] =le.fit_transform(train[col])test[col] =le.transform(test[col)]test[col]에서 error가 지속 나옵니다.return x.astype(dtype, copy=copy, casting=casting 으로 나오는데, 문제가 무엇인지 잘 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
판다스 기초 1 수업
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요판다스 기초 1 - 8분df type 확인할때 아래와 같은 에러가 뜹니다이전 코드들도 다 동일하게 run 하고runtime 모두 실행으로 돌려도 에러가 발생하고type(df), type(df['가격']) 모두 동일합니다# 데이터 프레임 type 확인 type(df)pandas.core.frame.DataFrame def __init__(data=None, index: Axes | None=None, columns: Axes | None=None, dtype: Dtype | None=None, copy: bool | None=None) -> None/usr/local/lib/python3.10/dist-packages/pandas/core/frame.pyTwo-dimensional, size-mutable, potentially heterogeneous tabular data. Data structure also contains labeled axes (rows and columns). Arithmetic operations align on both row and column labels. Can be thought of as a dict-like container for Series objects. The primary pandas data structure. Parameters ---------- data : ndarray (structured or homogeneous), Iterable, dict, or DataFrame Dict can contain Series, arrays, constants, dataclass or list-like objects. If data is a dict, column order follows insertion-order. If a dict contains Series which have an index defined, it is aligned by its index. This alignment also occurs if data is a Series or a DataFrame itself. Alignment is done on Series/DataFrame inputs. If data is a list of dicts, column order follows insertion-order. index : Index or array-like Index to use for resulting frame. Will default to RangeIndex if no indexing information part of input data and no index provided. columns : Index or array-like Column labels to use for resulting frame when data does not have them, defaulting to RangeIndex(0, 1, 2, ..., n). If data contains column labels, will perform column selection instead. dtype : dtype, default None Data type to force. Only a single dtype is allowed. If None, infer. copy : bool or None, default None Copy data from inputs. For dict data, the default of None behaves like ``copy=True``. For DataFrame or 2d ndarray input, the default of None behaves like ``copy=False``. If data is a dict containing one or more Series (possibly of different dtypes), ``copy=False`` will ensure that these inputs are not copied. .. versionchanged:: 1.3.0 See Also -------- DataFrame.from_records : Constructor from tuples, also record arrays. DataFrame.from_dict : From dicts of Series, arrays, or dicts. read_csv : Read a comma-separated values (csv) file into DataFrame. read_table : Read general delimited file into DataFrame. read_clipboard : Read text from clipboard into DataFrame. Notes ----- Please reference the :ref:`User Guide <basics.dataframe>` for more information. Examples -------- Constructing DataFrame from a dictionary. >>> d = {'col1': [1, 2], 'col2': [3, 4]} >>> df = pd.DataFrame(data=d) >>> df col1 col2 0 1 3 1 2 4 Notice that the inferred dtype is int64. >>> df.dtypes col1 int64 col2 int64 dtype: object To enforce a single dtype: >>> df = pd.DataFrame(data=d, dtype=np.int8) >>> df.dtypes col1 int8 col2 int8 dtype: object Constructing DataFrame from a dictionary including Series: >>> d = {'col1': [0, 1, 2, 3], 'col2': pd.Series([2, 3], index=[2, 3])} >>> pd.DataFrame(data=d, index=[0, 1, 2, 3]) col1 col2 0 0 NaN 1 1 NaN 2 2 2.0 3 3 3.0 Constructing DataFrame from numpy ndarray: >>> df2 = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), ... columns=['a', 'b', 'c']) >>> df2 a b c 0 1 2 3 1 4 5 6 2 7 8 9 Constructing DataFrame from a numpy ndarray that has labeled columns: >>> data = np.array([(1, 2, 3), (4, 5, 6), (7, 8, 9)], ... dtype=[("a", "i4"), ("b", "i4"), ("c", "i4")]) >>> df3 = pd.DataFrame(data, columns=['c', 'a']) ... >>> df3 c a 0 3 1 1 6 4 2 9 7 Constructing DataFrame from dataclass: >>> from dataclasses import make_dataclass >>> Point = make_dataclass("Point", [("x", int), ("y", int)]) >>> pd.DataFrame([Point(0, 0), Point(0, 3), Point(2, 3)]) x y 0 0 0 1 0 3 2 2 3 Constructing DataFrame from Series/DataFrame: >>> ser = pd.Series([1, 2, 3], index=["a", "b", "c"]) >>> df = pd.DataFrame(data=ser, index=["a", "c"]) >>> df 0 a 1 c 3 >>> df1 = pd.DataFrame([1, 2, 3], index=["a", "b", "c"], columns=["x"]) >>> df2 = pd.DataFrame(data=df1, index=["a", "c"]) >>> df2 x a 1 c 3
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의문제 1
선생님, quantile 부터 저렇게 에러나서 안되는데 어떻게 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 핸들링을 위한 판다스 기초1 - Quiz 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요데이터 핸들링을 위한 판다스 기초1 강의 Quiz 3. 컬럼 삭제에서 데이터를 확인했을 때 왜 이벤트가와 할인가 컬럼은 보이지 않나요? 제가 동일하게 실습 진행했을 때는 추가한 컬럼들이 보여서 질문합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의를 구매하면 얻을 수 있는 정보와 파일 다운로드
안녕하세요. 강의 구매했는데, 강의노트랑 기출문제 등 강의를 구매하면 얻을 수 있는 정보와 파일은 어디서 다운 받을 수 있나요? 인프런 처음 구매해봐서 다운로드 장소를 잘 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
상관계수에 대한 t 검정 관련 질문
안녕하세요, 회귀분석 강의에서 "상관계수에 대한 t검정" 부분에서 궁금한 것 있어 문의드립니다. "상관계수에 대한 t검정"이라는 것이 상관계수를 구하고 나서 상관계수가 통계적으로 유의미한지 확인하기 위해 두 변수 사이의 상관계수가 0이 아닌지 검증하는 것이고,- 귀무: 상관계수가 0이다- 대립: 상관계수가 0이 아니다이렇게 설정하는 것으로 이해했습니다. 이후, t통계량 계산하고, p-value 구하고, 어떤 가설을 채택할지 선택하는 것이구요. 그런데 이 과정이 꼭 필요한 것인지, 이를테면 상관계수가 높게 나왔음에도 불구하고 상관계수에 대한 t검정을 했을 때 p value가 0.05보다 커서 귀무가설을 채택하는 경우가 있을 수 있는 것인지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신버전) 레이블인코딩 관련 질문입니다.
레이블 인코딩 시, train은 fit_transform 하고 test는 fit작업만 하는데 혹시 포문을 이용하지 않고 train['주구매상품'] = le.fit_transform(train['주구매상품'])train['주구매지점'] = le.fit_transform(train['주구매지점'])test['주구매상품'] = le.fit(test['주구매상품'])test['주구매지점'] = le.fit(test['주구매지점'])이런식으로 하드코딩 해줄때도 동일하게 test는 fit처리만 하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 6번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 아래와 같이 작성했는데 마지막 답이 다르게 나옵니다...왜그럴까요..ㅠimport pandas as pd df = pd.read_csv("members.csv") print(df.shape) res1 = np.std(df['views']) condition = df['age'] >0 df = df[condition] print(df.shape) condition2 = df['age'] == round(df['age'],0) df = df[condition2] print(df.shape) res2 = np.std(df['views']) print(round(res1+res2,2)) (100, 10) (96, 10) (90, 10) 8374.13 << 이 부분이 강의와 상이함
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
행일치 관련해서 개념이 헷갈립니다.
인강에서 배운코드는 위와 같고 간단하게 X_train[cols]와 y_train을 display하면 아래와 같이 나옵니다.제가 궁금한 것은 X_train과 y_train이 어쨌든 각 행별 id가 서로 1:1 매칭이되기 때문에 심플하게 submit = pd.DataFrame( { 'id':X_test['id'], 'income':pred } )이렇게 표기할 수 있는것같은데 만약에 X_train과 y_train이 서로 id별로 뒤죽박죽이면 둘다 id별로 sort_value를 하고 해야하는게 맞을까요? 그리고 시험문제에서는 이정도까지 처리를 요구할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 코드 실행결과 정렬? 설정방법
코랩에서 코드를 실행하면 위 이미지처럼 결과 값이 나오는데요.강사님 처럼 출력결과값이 예쁘게 정렬이 안되는데어떤 설정을 바꿔야 할까요?..사소하지만 결과 확인하는데 불편해서 질문 남깁니다~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test data 결측치 채우는 이유?
이렇게 X_test도 fillna로 결측치를 없애주셨는데제가 정확히 어느강의에서 들은건지는 기억이 안나나test data는 말그대로 테스트용이기 때문에 가공하면안된다라고 기억하고있습니다.그런데 결측치를 채우는 이유가 뭘까요?테스트데이터는 정확히 어느정도까지 가공이 되는지가 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 pop 함수
train = train.drop['ID']target = train.pop['target']test_ID = test.pop['ID'] 작업형2에서 위의 코드들을 쓰시는데, 정확히 이 코드들은 어느 단계에서 쓰는걸까요?1) 피처 엔지니어링 전2) 피처 엔지니어링 후, train / validation 데이터 분리 전
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문
1) 수치형 변수만 활용2) 수치형 변수 & 범주형 변수 모두 활용 (라벨인코딩, 원핫인코딩) 두 가지 방식을 알려주셨는데, 질문이 있습니다.각 방식을 사용하고 평가를 해보았을 때, 1)의 방식으로 했을 때 모델의 성능이 더 좋아지는 것을 확인하였다고 한다면, 실제 시험 시 모델 성능이 더 좋은 1)의 방식으로 제출해야 하는 걸까요, 아니면 보다 심화 버전인 2)의 방식으로 제출해야 하는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형(작업형2)
4회 기출 유형(작업형2)까지 수강하였을 때, 제가 이해한 내용은 다음과 같습니다. <모델의 성능을 평가하는 방법>데이터 분리 (X_tr, X_val, y_tr, y_val) → 모델 학습 & 하이퍼 파라미터 튜닝 → 평가 (f1 score, roc_auc_score 등) 하이퍼 파라미터 튜닝의 값을 조절해가며 평가 점수 확인데이터 분리 없이, 모델 학습 & 하이퍼 파라미터 튜닝 → 교차검증 (cross_val_score) 이때 질문드립니다.제가 이해한 대로, 모델의 성능을 평가하는 방법이 위의 2가지가 있는게 맞을까요?강사님이 영상에서 교차검증을 사용한 이유는 문제에서 평가 방식을 '평가: Macro f1-score'라고 제시해주었기 때문인가요?혹시 실제 시험 상황에서 평가 방식을 제시해주지 않는다면, 위의 2가지 방법 중 어떤 것을 사용해도 상관이 없는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3-2 문제 6번에서
섹션3-2 문제 6번에서 아래와 같이 풀면 왜 정답이 달라지는지 알 수 있을까요??? 어느 부분을 수정하면 될까요?? import pandas as pd df = pd.read_csv("members.csv") # 제거 전 views 표준편차 std_before = df["views"].std() df["age"] = df["age"] == round(df["age"], 0) df["age"] = df["age"] > 0 # 제거 후 views 표준편차 std_after = df["views"].std() round(std_before + std_after, 2)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Wilcoxon 검정 관련 질문
안녕하세요, 강의 복습 중 Wilcoxon 검정 관련질의사항이 있어 질문 남깁니다. 단일표본 검정에서 wilcoxon 검정 시stats.wilcoxon(df['무게'] - 120, alternative='less')-120을 사용해서 진행이 되었는데요. 대응표본에서는 - 부호가 아닌df['before'], df['after'] 나열식 혹은df['before'] - df['after'] 둘다 동일한 결과값을얻는 것 같아 단일표본도 동일하게 df['무게'], 120 으로 입력 하였더니 오류가 발생하더라고요.통계 개념이 약해서인지 단일표본은 안되고 대응표본은되는게 이해가 안되서 질의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-2 작업형 1 모의문제2 문제4
4-2 작업형 1 모의문제2 에서 문제 4 에서 df = df.select_dtypes(exclude="O").columns 말고 df = df.select_dtypes(exclude="O") 로 해서 풀어도 맞게 푸는거죠? object 타입 칼럼을 제외시키는 것 = 거기에 딸린 데이터들도 같이 제거하는 것 이라고 생각해서 df = df.select_dtypes(exclude="O")로만 해서 풀고 결과는 같게 나왔거든요.이게 문제가 없다면 간략한 방식으로 접근하고 싶은데, 확인차 문의글 남깁니다. 확인 부탁드립니다. 감사합니다