묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결확률과 통계 기초
8.4 ex01 random sameple size질문입니다.
Normal distribution일려면 RV size가 30 이상이었던 것으로 기억하는데 ex1처럼 20인 경우에도 적용 가능한가요?제가 놓치는 부분이 있는거 같아서 질문드리게 되었습니다
-
해결됨확률과 통계 기초
8.3 chi-square에서 자유도가 n. n-1로 나뉘게 되는 것은 random variable이 무엇인지 때문인가요?
Q0. 위 두 가지에서 자유도가 n, n-1로 나뉘는 이유가 궁금합니다Q1. 자유도에 대해서 아래 블로그를 통해서 이해했습니다https://ondemandstore.tistory.com/2위 글의 예시를 통해 보았을 때 자유도 관점에서 어떤 변수 10개 중에 9개를 선택 되었을 때 나머지 1개는 웬만하면 고정되는 게 아닌가 싶습니다. (Q1-1잘못 이해하였다면 자유도가 무엇인지도 궁금합니다)그런데 Chi-sqaure 첫 번째 조건에서 자유도가 n이 되는 이유는 Z가 independent standard normal이라 그런가요? 그렇다고 한다면 independent standard normal의 어떤 특징이 자유도를 n으로 만들게 하는지 궁금합니다Q2. X가 i.i.d normal distribution random variable인것이 chi-squared distribution의 자유도가 n-1이 되게 하는데 큰 영향을 미치나요?어떤 점이 그러한 영향을 미치게 되나요?i.i.d라서 그러한지, i.i.d && normal distribution이라 그러한지 혹은 그 외에 이유가 있는지 궁금합니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
조기중단기능(early stopping) 질문
안녕하세요. 좋은 강의 덕분에 많이 배우고 있습니다. XGBoost를 이용한 위스콘신 유방암 예측 강의에서 early stopping 기능에 대해서 설명 주셨고, 이는 검증 데이터를 기반으로 중단 할지 말지 판단한다고 이해했습니다.또한, 아래와 같이 학습 데이터, 검증 데이터 loss 값을 출력하여 확인해보면서, 검증 데이터가 더이상 감소하지 않는 구간이 있고설정한 early stopping 값만큼 감소하지 않는다면 중단한하고 이해했습니다.예제를 보면 train-logloss는 계속해서 감소하고 eval-logloss는 감소하지 않는 구간이 있는데똑같은 데이터를 나눈 것인데 차이가 발생하는 이유가 궁금합니다![0] train-logloss:0.65016 eval-logloss:0.66183 [1] train-logloss:0.61131 eval-logloss:0.63609 [2] train-logloss:0.57563 eval-logloss:0.61144 [3] train-logloss:0.54310 eval-logloss:0.59204강의에서 설명 주실때 학습 데이터는 계속해서 loss가 감소해서 오버피팅의 위험이 있기 때문에 early stopping은 검증 데이터로 진행해야 한다고 하셔서 이부분이 궁금합니다. 감사합니다.
-
해결됨확률과 통계 기초
Bias = 0은 항상 좋은가?
Bias 관점에서는 Bias값이 무조건 0이 되는 것이 좋은 것인가요?MSE 관점에서는 Bias와 분산과 합이 작은 방향으로 가야 하기 때문에 Bias가 무조건 0이 되는것이 좋은건 아닌가요?
-
해결됨AB 테스트 실무자 완벽 가이드
A/B Test 실험주제 예상지표 선정
안녕하세요. 거친코딩님집단크기 결정 챕터에서는 실험 유형의 히스토리를 보고 이런 실험을 했을때 평균적으로 얼마정도의 lift 상승이 있었는지 보게되면 예를들어 2%정도 상승했다 정도를 확인할 수 있다고 하셨는데 A/B Test 실험주제1에서 실험목표를 검색클릭률 2% 상승로 잡으신 이유도 예시기 때문에 그냥 2%로 잡으신걸까요? 혹은 이유가 있으신건지 궁금합니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
Text Analysis 실습(Mercari Price Suggestion) 질문
안녕하세요. 좋은 강의 감사합니다.실전 텍스트 분석: 04 - Mercari Price Suggestion 피처 인코딩과 피처 벡터화 수행 ( 3분 ~ 4분)수업 진행 중에 질문이 있습니다.feature vectorization을 item description에 적용하는 건 이해가 되는데, name에 적용하는 이유가 있을까요?name 자체가 거의 유니크 하기 때문에 feature 로써의미가 없지 않을까 해서 질문드려요!(item description 같은 경우는 각 단어 별로 중복도 많이 생기고 패턴이 생겨서 예측에 도움이 될 거라 생각했고, name 같은경우는 거의 유니크해서 feature 자체에서 제외해야 하지 않을 까 하는데, 잘못 이해 하고 있을까요?) 또한, 예제는 회귀 모델을 보여주셨는데, 분류 모델에서도좋은 성능을 낼까요?비정형 데이터(텍스트 문서)와 정형 데이터를 합쳐서 예측 하는 경우 분류 모델 로도 많이 사용되는지 궁금합니다! 감사합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
5.9 bike sharing demand에서 standardScaler
bike sharing demand예제에서 LinearRegression모델이 다른 모델에 비해 RMSLE가 큰 것이 Scaler문제는 아닌가 해서 StandardScaler를 다음과 같이 적용시켜 봤습니다만, 성능이 좋아지질 않는 것 같습니다.X_train, X_test, y_train, y_test = train_test_split(X_features_ohe, y_target_log, test_size = 0.3, random_state = 0) from sklearn.compose import ColumnTransformer from sklearn.preprocessing import StandardScaler from sklearn.pipeline import Pipeline def get_model_predict(model, X_train, X_test, y_train, y_test, is_expm1 = False, sts = False): if sts: ct = ColumnTransformer([ ('standard', StandardScaler(), ['temp', 'atemp', 'humidity', 'windspeed']) ], remainder = 'passthrough') model = Pipeline([ ('ct', ct), ('model', model) ]) model.fit(X_train, y_train) pred = model.predict(X_test) if is_expm1: y_test = np.expm1(y_test) pred = np.expm1(pred) print(model.__class__.__name__) evaluate_regr(y_test, pred)선형 모델임에도 불구하고 이게 통하지 않는것이 좀 의문입니다. 게다가 다른 모델에서는 성능이 나빠지기도 합니다.그리고 StandardScaler를 적용하기 전과 후의 coef_가 많이 다릅니다. 다음 그래프는 StandardScaler를 적용했을 때 LinearRegression의 coef_입니다.feature중요도 측면에서, StandardScaler를 적용한 후의 coef_가 더 믿을만 한지, 아니면 적용하지 않은게 더 믿을만 하다고 봐야하는지 궁금합니다.그래프 출력하는 코드는 다음과 같습니다.# X_features_ohe_sts ct = ColumnTransformer([ ('standard', StandardScaler(), ['temp', 'atemp', 'humidity', 'windspeed']) ], remainder = 'passthrough') model = Pipeline([ ('ct', ct), ('model', LinearRegression()) ]) # model = LinearRegression() model.fit(X_train, y_train) series = pd.Series(np.abs(model[-1].coef_), index = X_features_ohe.columns) series = series.sort_values(ascending = False)[:20] sns.barplot(series.values, series.index)
-
미해결AB 테스트 실무자 완벽 가이드
가설검정 강의 마지막 부분이 헷갈립니다.
가설검정 마지막 부분이 헷갈려서 질문드립니다. 단측검정일 경우 0.05로 유의수준을 잡지만양측검정일 경우 그래프에서는 a/2로 되어있으니 0.025로 가는게 맞나요? 엄격한, 보수적인 실험이 안되도록 조심하라고 하셨는데 0.05로 가는게 맞나요? 말씀해주신 내용과 그래프가 살짝 상반된 것 같아서 질문 드립니다.강의 잘보고있습니다. 감사합니다.
-
해결됨확률과 통계 기초
6.1 MGF가 같을때 "같은 distribution"의 의미가 같은 기댓값, 분산인가요?
MGF가 함수 모양이라 생각하여 MGF가 같으면 모양이 비슷하다고 생각했습니다그래서 MGF가 같아서 distribution이 같다고 한다면 기댓값과 분산도 같을까요?
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
텍스트 분석 강의 질문
안녕하세요. 좋은 강의 감사합니다.현재 분류까지 강의를 수강한 상태이며, 그 이후 텍스트 분석 강의 부분을 먼저 수강하려고 하는데 질문이 있습니다.제가 아래와 같은 요구사항을 구현하고자 하는데 텍스트 분석 강의를 먼저 수강 하여도 구현이 가능할지 궁금합니다. 고객의 문의 데이터(채팅 등의 텍스트 데이터)를 이용하여, 급 상승하는 키워드를 detect 하고자 합니다.예를 들면, 마스크 같은 키워드는 코로나 이전에는 하루 평균 10번 이하로 등장했는데, 코로나 이후 하루 평균 1000번 이상 등장한 케이스가 있다고 가정 할 때를 예로 들 수 있습니다.위와 같은 키워드를 찾고 예측하고자 하는 니즈가 있는데, 해당 강의로(텍스트 분석) 커버가 가능 할까요? 감사합니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
신용카드 사기 예측 실습 이상치 실습 질문
이상치 제거 할때 train set에서만 이상치를 제거해야 되지 않나요? 실습때는 train, test를 나누기 전에 이상치를 먼저 제거해서 test set에서도 제거 되는것 같습니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
외적에 대한 질문
안녕하세요 선생님알고리즘을 공부하다가 궁금한점이 있어서 물어봅니다선생님의 강의를 보면서 알고리즘을 더 이해를 하고 싶어서 선형대수도 공부를 하고 있는데 내적 같은 경우는 데이터 유사도나 합성곱 같은 계산에서 많이 보이는데외적 같은 경우는 어떤 경우에 쓰이는건지 궁금합니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
pd.get_dummies 질문있습니다
안녕하세요 ! 캐글 주택가격 예측 강의에서 dummy_na 옵션에 대해 설명해주셨는데코드를 보니 적용을 안하시던데 이유가 궁금합니다! 일반적으로 null 값이 있는 object 컬럼에 대해서 dummy_na에 따른 성능 차이가 존재하나요 ??
-
해결됨확률과 통계 기초
3.2 12p composite functions of random variables 부분
안녕하새요노테이션 관련 질문하나 드립니다 LOTUS 직전 composite functions of random variables 예시를 들어주셨는데 이 예시속 또다른? x인 x_{k^*} 에서 스타? 애스터리스크? 의 의미가 무엇인지 궁금합니다.
-
미해결확률과 통계 기초
geometirc 기댓값 유도하는 방법
3.2 강의 중에서 21:46 부분에서sum (q^i) = 1 / 1-q가 어떻게 나오는지 잘 이해가 안갑니다 ㅠㅠ숙제라고 하셨는데 어떻게 해야하는지 잘 모르겠네요...
-
미해결AB 테스트 실무자 완벽 가이드
'p-value는 기존 귀무가설이 발생할 확률'이라고 하셨는데요. 이건 잘못된 설명 아닌가요?
안녕하세요.모르고 말씀하신 것은 아닌 것 같은데요. 수정이 필요할 것 같습니다.
-
미해결AB 테스트 실무자 완벽 가이드
MDE의 D는 detectable입니다.
안녕하세요.오타인 줄 알았는데, 발음도 defectable이라고 하셔서 잘못 알고 계신 것 같아 말씀드려요!
-
미해결AB 테스트 실무자 완벽 가이드
디폴트 정렬 상태로 전환하지 않고 필터 정렬 방법을 바꾼 유저는 제외해야 하나요?
안녕하세요.A: 판매순B: 배달비 낮은순C: 별점 높은순D: 배달 빠른순이렇게 필터 디폴트 값을 각각 4개의 그룹으로 나누어 보여준 뒤 각 그룹에 속하는 유저들의 output metric(ARPU, 전환율 등)을 비교하는 것으로 보이는데요.만약 A 그룹의 유저가 스스로 필터를 바꿔서 "별점 높은순"을 선택한 뒤 결제하거나 전환했다면, 기존의 "판매순"으로 전환한 것이 아니니 이런 유저들은 결과 계산할 때 제외하고 봐야하는 것인가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
8.6 토픽 모델링
선생님! 제가 토픽 모델링 부분 공부중인데 강의자료 8.6 부분을 그대로 돌렸는데 계속해서 'CountVectorizer' object has no attribute 'get_feature_names' 오류가 뜨네요?? 문제가 뭘까요ㅜ
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
xgboost/ light gbm 재학습 질문
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 선생님 안녕하세요. 수업을 듣다 질문이 있어 글을 남깁니다 ㅠㅠ XGboost 실습을 할 때는,xgb_wrapper.fit(X_train, y_train, verbose=True)xgb_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric="logloss",eval_set=evals, verbose=True)이렇게 재학습 시킬 때, X_tr, y_tr을 사용했는데lightgbm 실습을 할때는X_train, y_train으로 테스트 시키는 부분이 없어서 궁금합니다.. light gbm 실습 코드 ))X_train, X_test, y_train, y_test=train_test_split(X_features, y_label,test_size=0.2, random_state=156 )X_tr, X_val, y_tr, y_val= train_test_split(X_train, y_train,test_size=0.1, random_state=156 )lgbm_wrapper = LGBMClassifier(n_estimators=400, learning_rate=0.05) evals = [(X_tr, y_tr), (X_val, y_val)]lgbm_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric="logloss",eval_set=evals, verbose=True)