묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
5장회귀 p.368 log1p()함수에 대해서
선생님 안녕하세요,개정1판도, 개정 2판도 교재를 구매해서공부하고 강의듣고 있습니다. 그런데 두 책에서 log1p()함수에 관해 1+log(x) 라고 설명하고 계시는데 log(x+1)값이 아닐런지요? 그래서 이것을 역함수로 하는 함수는 exp1m()이 아니라 expm1() 되는거고 이름을 지정하는 원칙도 함수의 모양을 따라 지정한 것 같아요1+x값을 로그에 넣고, 역함수를 만드는것은 e^(x)-1이라서 1p ->m1이런식으로..한게 아닐런지.. 제 생각이 잘못되었는지 궁금합니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
5장 회귀: 보스턴주택가격예측 seaborn.regplot()그래프관련 질문입니다
선생님 안녕하세요 개정2판으로 책과 함께 다시 강의를 듣고있습니다 5장 회귀p.325에서 단순회귀그래프를 그리는데 맨 마지막의 그래프가 나오지 않으면서 범주형변수의 order관련해서 typeError 를 보이고 있습니다.일단, 보스턴 주택가격 데이터는사이킷런에서 삭제되어서 다른방식으로 로딩해서 만들었습니다. 시본그래프가 왜ax= axs[row][col] 부분에서 마지막객체가 비어있는데 왜그럴까요?더운여름 건강 조심하시고, 정말 훌륭한 강의 감사드립니다. boston_1 = datasets.fetch_openml('boston', return_X_y= True) bostonDF = boston_1[0] bostonDF['PRICE'] = boston_1[1]
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
fraud일때만 이상치를 제거하는 이유가 어느부분에 나오는지 궁금합니다
fraud일때만 이상치를 제거하는 이유에 대해서 강의중에 나중에 말씀해주신다고 하셨는데 그대로 신용카드 사기실습 강의가 끝나서 질문남깁니다!강의 어느파트로 가면 해당 부분을 설명들을수 있을까요?(현재 강의진도를 그대로 따라가는데에 어려움을 겪어 부분부분 듣고있는 상태입니다)
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
PCA 강의 질문 관련 문의
안녕하세요. 귀한 강의 잘 듣고 있습니다 감사합니다!다름이 아니라 PCA 관련하여 'PCA의 이해' 강의에서, 데이터 변동성이 가장 큰 방향으로 축을 생성하고 데이터를 그 축에 사영한다고 해주셨는데요.혹시 그럼 데이터의 사영 방향이 축(키-몸무게 축)에 직교하는 형태로 사영하는 것이 아닌가요?! 제가 이해한 바랑 그림이 조금 달라서 여쭤보게 되었습니다 ㅎㅎ감사합니다!
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
베이지안 최적화 search space
안녕하세요! 강의 잘 보고 있습니다. 베이지안 최적화 할 때, Search Space에 들어가는 초기값? 같은 것 어떻게 설정하는 것인가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
5.6 실습코드 오류질문
이렇게 nan으로 다 뜨는데 이유가 무엇일까요.. 이렇게 에러가 뜹니다. 참고로 주신 코드 그대로 돌렸습니다ㅠ
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
linear regression 과 PCA, p_value 질문
선생님 안녕하세요좋은 강의 감사합니다. linear regression(statsmodel)에 PCA를 적용하여 test 데이터로 예측하는 경우에 질문이 있습니다. 예를 들어, 기존의 20개의 피쳐 --> PCA를 통해 10개의 새로운 피쳐(x1~x10)를 추출했다고 가정하고,이 중에 statsmodel로 linear regression 을 돌렸는데, 이 중 x6, x7, x8 의 p_value 가 0.05 이상이어서 유의미한 피쳐가 아니라고 볼 수 있는 상황입니다. 그러면 test 데이터(valid 데이터 아님)를 가지고 실제로 예측을 해야 하는 상황에서는, test 데이터를 가지고 PCA를 돌려서 10개의 새로운 피쳐를 추출그 중에 x1~x5, x9, x10 --> 7개의 피쳐를 추출하고, train 데이터에서 나온 7개의 coef 를 가지고 만들어진 선형 모델로 예측 수행을 하면 되는 것이 맞나요? 제가 궁금한 것은 PCA를 사용하여 나온 피쳐 중 일부만을 사용하는 경우에도, train 을 통해 나온 coef 를 pca로 변환한 test 데이터에 사용할 수 있는지 여부 입니다. 감사합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
LightGBM의 min_child_samples 와 min_child_weight
안녕하세요.LightGBM의 min_child_samples 와 min_child_weight는 같은 것인가요?둘 다 그 갯수가 되지 않으면 더 이상 child를 만들지 않게 하려는 용도의 parameter인것이죠? 감사합니다.
-
미해결확률과 통계 기초
1.4 모자 배분 문제에서 질문 있습니다
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. A_i의 정의가 i번째의 사람이 모자를 받는다는 건데 A_1에서 (N-1)!을 설명하실 때 첫번째 사람이 자기 모자를 받았을 때의 전체 경우의 수라고 얘기하셨는데 2번째 사람의 N-1에서는 2번째 사람의 자기 모자를 받을 경우의 수도 포함인거 아닌가요? 그렇게 된다면 1번째 사람 2번째 사람 둘다 자기의 모자를 받으니 정의에 어긋나기때문에 이때는 N-2가 되야하는거 아닐까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
<4장 랜덤 포레스트 실습> 강의에서
안녕하세요. 강의에서GridSearchCV의 best_score가 0.9165인데,최적의 파라미터를 적용한 모델의 accuracy가 0.9260입니다. 둘다 최적의 파라미터를 적용한 수치이고,train, test 데이터는 이미 txt파일 단계에 나눠져 있고,모델의 random_state=0 으로 같은데 어떻게 accuracy가 달라질 수 있는건인지 궁금합니다. 좋은 강의 덕분에 많이 성장하고 있는 느낌이 듭니다.^^감사합니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
분류실습 중 데이터 분리 후 학습에 대해서 질문있습니다.
권철민 교수님! 늘 감사드립니다.늘 업데이트도 해주셔서 정말 감동입니다 :) 질문 있습니다!산탄데르 만족예측관련해서 주신 실습코드에 보면,XGBoost의 "early_stopping_rounds" 를 사용하기 위해학습데이터 셋 분리분리된 데이터에서 조기종료 검증셋 분리모델학습이렇게 구성되어있습니다. ## 1. 학습셋 분리 X_train, X_test, y_train, y_test = train_test_split(X_features, y_labels,test_size=0.2, random_state=0,stratify=y_labels) ## 2. X_train, y_train을 다시 학습과 검증 데이터 세트로 분리. X_tr, X_val, y_tr, y_val = train_test_split(X_train, y_train, test_size=0.3, random_state=0, stratify=y_train) ## 3. 모델 훈련 from xgboost import XGBClassifier from sklearn.metrics import roc_auc_score # n_estimators는 500으로, learning_rate 0.05, random state는 예제 수행 시마다 동일 예측 결과를 위해 설정. xgb_clf = XGBClassifier(n_estimators=500, learning_rate=0.05, random_state=156) # 성능 평가 지표를 auc로, 조기 중단 파라미터는 100으로 설정하고 학습 수행. xgb_clf.fit(X_tr, y_tr, early_stopping_rounds=100, eval_metric='auc', eval_set=[(X_tr, y_tr), (X_val, y_val)])여기서 질문이 있습니다.최종적으로 모델을 만들때는 X_train, y_train 셋으로 사용해야 더 많은 데이터로 학습을 하기에 성능이 좋지 않나요? 아무래도, X_tr 보단 X_train셋의 데이터가 많으므로 좋을거 같아서요.. 물론, 조기종료(early_stopping_rounds)를 사용하지 못하겠지만... 아니면 일단 조기종료를 통해 하이퍼파라미터를 찾고, 그 파라미터로 맨 마지막에 X_train을 사용하라는 의미로 생각해도 될까요?? 교수님께 늘 감사드리며, 24년도 늘 건강하고 행복한 일들로만 가득하길 기원합니다^^. 좋은 하루 되세요!
-
해결됨AB 테스트 실무자 완벽 가이드
최소 샘플 사이즈 관련 문의드립니다.
만약에 하기와 같은 실험이면 어떻게 최소 샘플 사이즈를 구하나요? 기존 광고는 이미지 광고였습니다. 그래서 비디오 광고로 바꾸고자해서 ABT를 합니다. 이 때 Success metric은 Click 수 입니다. (CTR이 아님) 클릭수 : 10,000회MDE : 15,000회 --> (15000-10000)/10000 = 0.5Alpha = 0.05Beta = 0.8이렇게 Baseline conversion rate(소수)이 아니고 Baseline conversion 정수면 어떻게 해야할까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
사이킷런 업그레이드 수행 및 XGBoost와 LightGBM 설치 강의 (mac os용 영상이나 가이드)
안녕하십니까 교수님.사이킷런 업그레이드 수행 및 XGBoost와 LightGBM 설치 강의를 듣는 중 영상이 윈도우에 초점이 되어있는데저는 mac os를 쓰고 있습니다. 1:19초부터 진도를 못따라가겠는데mac 용 설치방법 영상이나 가이드는 따로 없을까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
정밀도와 재현율의 트레이드오프(Trade off) - 01
정밀도와 재현율은 Trade-off관계가 있다고 하였는데, confusion matrix에서 Positive로 예측할 확률이 높아지면 FP와 TP가 같은 비율로 증가하게 되고 결과적으로 임계치가 낮아져 Positive로 분류할 확률이 높아지더라도 정밀도는 동일한 것 같다고 생각이 됩니다. 제 생각에서 잘 못 된 것이 무엇인지 모르겠습니다. 재현율은 당연히 높아지는 데, 정밀도는 왜 감소하는지 이해되지 않습니다. 만약 Positive로 예측할 확률이 높아지는 경우에 FP와 TP가 같은 비율만큼 증가하는 것이 아니라면 반드시 FP증가율이 TP증가율보다 커져서 필연적으로 정밀도가 증가할 수 밖에 없는 것인지도 궁금하며, 이유도 궁금합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
시각화 관련하여 문의드립니다.
안녕하세요, 선생님개발 비전공자 수강생입니다.선생님의 sql강의로 sql을 입문하여, 현재 sql은 어느정도 다루고 있습니다.이번에 머신러닝에 관심이 생겨서간단하게 파이썬에 대한 문법정도만 익혀서 머신러닝 강의를 듣고있는데,머신러닝에 대하여 아무것도 모르는 상태로,복습을 하면서 하다보니시각화쪽도 학습해야 할 분량이 많더라구요.머신러닝을 습득하기 위해서는 시각화가 꼭 필수로 알고 넘어가야 할까요?시각화를 제외한 부분을 손에 익인 후에, 시각화를 추후에 학습는 학습은 어떠한가요?머신러닝에 대하여 잘 몰라서, 시각화 부분을 필수로 익히고 넘어가야 하는지 문의드립니다
-
미해결확률과 통계 기초
6.1 두 독립인 정규분포의합
독립인 정규분포의 합이 평균 분산 모두 두개의 합인 새로운정규분포가 된다는걸 MGF로 증명해주셨는데그것말고 평균은 선형성으로 더할수있고 분산도 독립이라면 V(X1+X2) = V(X1)+V(X2)이렇게 증명하는건 틀린건가요?
-
미해결확률과 통계 기초
6.1 유니폼분포 MGF로 평균구하기
M' =My(s) - My(0) / s = exp(sb) - exp(sa) -1 /(s^2*(b-a) 이걸 어떻게 분리해서 미분값이 나오는지 모르겠습니다.. 분모텀에 0이 두개인걸 처리못하겠는데 풀이알려주시면 감사하겠습니다..
-
미해결확률과 통계 기초
5.1 조인트 조건부확률 강의
뒤쪽부분 y라는 조건일때 평균 분산등 구할때 모두 기본조건이 y가 x의 파티션일때 성립하는거죠??x의기댓값 구할때 yi*E(x l yi) 에서 y가 파티션일때 성립하니까 뒤쪽 내용도 다 파티션 가정하는게 맞을까요?
-
미해결확률과 통계 기초
pascal과 poisson
안녕하세요3-2강 파스칼분포가 m이 무한대로가면 푸아송분포와 같아진다는게 이해가 잘안가 질문드립니다 m이무한대로 가면 시행횟수도 무한으로가고 각각의 시행은 독립시행일때 m개의 앞면이 나와야된다는 조건이 있는데 어떻게 푸아송분포가 되는지 이해가 잘안갑니다 푸아송분포는 무한한 시행에서 확률p가 고정이고 그때의 평균 발생횟수인데 파스칼은 발생횟수가 m으로 고정되어있을떄의 평균 시도횟수가아닌가요 ㅠ 헷갈리고 이해가 잘안되어 질문드립니다..
-
미해결확률과 통계 기초
1.3 cardinality 에서 inclusion exclusion principle이 finite set에서만 성립하나요?
inclusion exclusion principle이infinite set 에서도 countable하기만 여전히 공식이 성립한다고 볼 수 있지 않나요?? 또 1.3 에서 a-b 확률이 a - (a and b) 공리3으로 증명하는부분에서 같은 샘플스페이스에서 양변에 같은 확률값을 더하거나 빼도 상관이 없는걸 이용한건가요? 또 이건 공리에 어긋나지 않아 가능한건가요??피피티에 나온 두 식으로 어떻게 식이 나왔는지 이해가안갑닏다 ㅠ