묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
5장 RSS의 이해중.
안녕하세요.강의 내용 중 제가 알고있는 것과 차이가 있는것 같아 궁금한점이 있어 문의드립니다.비용함수와 RSS와 경사하강법의 이해의 RSS의 이해에 나와있는 RSS수식이 아니라 RMSE 내용이지 않는건지..1/N은 삭제되어야하지 않을까요? nRSS=∑ (y i −(β 0 +β1* xi1 +β2* xi2 +…+βn*xin )) ^2i=1아니면 비용함수에서는 RSS를 RMSE 개념으로 사용하는것일까요? 강의 내용이 좋아서 다른 강의도 미리 결재 했습니다. 많은 나이에 관심이 생겨 공부 중인데 너무 좋은 강의 해주셔서 감사하고, 새해 복 많이 받으세요.^^
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
평가 실습 - 피마 인디언 당뇨병 예측
안녕하세요.수업 중 궁금한 사항이 있습니다.diabetes_data[zero_features] = diabetes_data[zero_features].replace(0, diabetes_data[zero_features].mean())이렇게 구현하면 0이 평균에 포함되어서 평균값이 왜곡되지 않는지요?diabetes_data[zero_features].mean() 아래와 같은 식으로 0제외한 값으로 대체 되어야하는것 아닐지요?diabetes_data[diabetes_data[feature] != 0][feature].mean()특정한목은 43%나 0값이 있는데, 0을 포함한 평균값이면 평균값이 매우 낮아질것 같아서요. 감사합니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
개별 약한 학습기 가중치와 가지치기 관련하여 이해가 안됩니다.
안녕하세요~ 선생님!선생님 강의 들으며 항상 감탄하고 또 많은 것을 배우고 있습니다~^_^ 선생님 강의 토대로 책으로 복습하고 있는데, 이해가 안되는 부분이 있어서요.222p에서 첫 번째 학습기의 가중치는 0.3, 두 번째 학습기의 가중치는 0.5, 세 번째 학습기의 가중치는 0.8 이렇게 늘어나는 것 같은데 학습기 자체에 가중치가 늘어나는 것인지, 오류 데이터에 대해서만 가중치가 크게 늘어나는 것인지 궁금합니다.그리고 만약 오류 데이터에서 가중치가 늘어나는 것이라면 그림을 보면 분류 기준1로 자르고 나면 오류데이터가 가중치를 부여해서 커지고, 다시 분류 기준2로 자르고 나면 오류 데이터가 가중치를 부여해서 커져서 오류 가중치 자체가 0.3, 0.5, 0.8로 커질 필요없이 동일해도 될 것 같은데 커지는 것이 이론상으로 이유가 있는지 궁금합니다. 226p에서 표의 나무 가지치기 관련하여 GBM은 분할 시 부정 손실이 발생하면 분할을 더 이상 수행하지 않는다고 했는데, 부정 손실이 무슨 의미인지 궁금합니다. 강의로 항상 큰 도움 받고 있습니다. 감사드려요~
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
균일도와 불균일 데이터..
제가 이해한 것이 맞는지 질문드리고 싶습니다.불균일 데이터 (imbalanced data)(a) 10000개의 데이터 중에서 100개 정도만 다른 데이터라면 imbalanced 데이터이며(b) 5000개 5000개로 나뉘어있으면 balanced 데이터인 것이 맞나요? 균일도가 낮은 것과 균일한 데이터는 상관이 없는건가요?4장 첫 번째 강의에서 하얀색과 검은색 데이터가 섞여있으면 균일도가 낮다고 하셨는데 1번 질문의 (b) 예시가 맞다면 데이터가 반반 나뉘어져 있는 경우 균일한(balanced) 데이터가 되는데, 이 경우는 균일한 데이터이면서 균일도가 낮다고 볼 수 있을까요? 정보이득지수와 지니계수둘의 차이를 검색하다가 알게 된 것인데요. 둘의 공통점은 균일도가 높은 것 기준으로 분류하는 것이고지니계수는 balanced 데이터, 정보이득지수는 imbalanced 데이터의 경우 선호된다..는 것이 맞을까요? 질문이 길어서 죄송합니다.감사합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
sklearn downgrading 문제
안녕하세요, sklearn downgrading 관련하여 오류가 생겨 질문 남깁니다.다른 수강생분이 앞서 남겨 주신 질문을 보고 따라해 보았는데요, 파이썬 3.9.18은 더 이상 설치파일이 지원되지 않으며, 현재 기준 최신 버전인 3.12.1으로 업데이트를 해보아도 sklearn downgrading 설치에 자꾸 실패하고 있습니다...혹시 3.9 이전 버전의 unofficial 파일이라도 설치해서 진행해볼까 하는데요, 파이썬 몇 이상을 써야한다와 같은 기준이 있을까요? 해당 사항 관련하여 확인 부탁드리며,좋은 강의 감사드립니다. :)
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
early_stopping_rounds 변화에 따른 loss와 정확도
안녕하세요. 항상 강의 보며 많은 도움 받고 있습니다.섹션4.분류 XGBoost를 이용한 위스콘신 유방암 예측(사이킷런 Wrapper XGBoost 사용)위의 강의를 듣고 궁금점이 생겨 질문 드립니다.아래 코드를 사용해 early_stopping_rounds를 50, 10일 때 결과를 봤는데강의와 다르게 성능이 올라가는 것이 의문입니다.10일때가 loss는 분명 더 큰데 정확도는 높게 나옵니다.from xgboost import XGBClassifier xgb_wrapper = XGBClassifier(n_estimators=400, learning_rate=0.05, max_depth=3) evals = [(X_tr, y_tr), (X_val, y_val)] xgb_wrapper.fit(X_tr, y_tr, early_stopping_rounds=50, eval_metric="logloss", eval_set=evals, verbose=True) ws50_preds = xgb_wrapper.predict(X_test) ws50_pred_proba = xgb_wrapper.predict_proba(X_test)[:, 1]get_clf_eval(y_test , ws50_preds, ws50_pred_proba)early_stopping_rounds=50일 때의 결과:validation_1-logloss:0.23533 , 정확도 0.9649정확도: 0.9649, 정밀도: 0.9740, 재현율: 0.9740, F1: 0.9740, AUC:0.9961early_stopping_rounds=10일 때의 결과:validation_1-logloss:0.25165, 정확도 0.9737정확도: 0.9737, 정밀도: 0.9868, 재현율: 0.9740, F1: 0.9804, AUC:0.9954
-
해결됨AB 테스트 실무자 완벽 가이드
학습 자료 질문
안녕하세요,a/b 테스트에 대한 유익한 강의 감사합니다.오늘 강의 수강하기 시작했는데, 강의 소개 중 참고사항에 있는 학습자료1~7강까지 강의에 나오는 PDF를 제공할 예정입니다.6~7강에 사용되는 엑셀 파일을 제공할 예정입니다.에 대한 학습자료는 혹시 어디에서 찾을 수 있나요?강의 화면 상단에서 내려받을 수 있는 자료는 첫 강의에 있는 'OT 자료'만 보입니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
reset_index() 업데이트
판다스 Index객체 이해 강의에서 사용한 예제를 그대로 적용하니 문제가 생겨 질문드립니다reset_index()에 업데이트가 진행되어 칼럼명을 자동으로 바꿔주는 것 같은데 맞나요?value_counts()를 통해 titanic_df['Pclass']의 객체를 얻으면 기존에는 Name:Pclass 로 출력되었던 것 같은데, 이제는 value_counts()를 통해 얻은 모든 객체의 Name이 count로 표기되고 이렇게 name이 count인 객체에 한해 reset_index()를 적용했을 때 칼럼명을 자동으로 적절히 바꾸어주는 것 같습니다
-
미해결확률과 통계 기초
1.3에서 이산 확률 모델
이산 확률 모델에서 A={s5,s9,s25}일때 disjoint한 {s5}or{s9}or{s25}로 표현할 수가 있다고 했는데 항상 disjoint하다고 할수 있을지 궁금해서 질문드립니다 만약 sample space가 셔츠를 입는것, 바지를 입는 것, 신발을 신는 것 이렇게 3개로 구성되었다고 한다면 이 경우에는 셔츠를 입고 바지를 입거나 바지를 입고 신발을 신는 등 disjoint하다고 할 수 없는 경우도 있지 않나 궁금해서 질문드립니다
-
미해결확률과 통계 기초
1-3에서 공리3번
강의에서 공리 3번에 대한 증명은 하지 않으시고 예시만 알려주셨는데 혹시 왜 공리3번이 참인지 알 수 있을까요
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
scikit learn 다운그레이드 오류
안녕하세요 교수님, 이제 막 강좌를 수강하기 시작하여 시작 환경 구축 중에 있습니다.섹션1의 5강에서와 같이 pip install scikit-learn==1.0.2 명령어를 통해 싸이킷런 다운그레이드를 진행하려는데 다음과 같은 오류로 설치가 안 됩니다관리자 권한으로 실행했으며 여러 차례 시도했는데 같은 이유로 설치가 안 됩니다.. arm 맥으로 parallels를 이용해 진행하고 있는데 이것이 문제가 되는 걸까요? 해결 방법이 있을지 궁금합니다 +) 아나콘다 삭제 및 폴더 정리 후 재설치해도 동일한 문제 반복되고, 맥에서 진행해도 반복되는 것으로 보아 parallels 문제는 아닌 것 같습니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
결정트리 분류 시각화를 위해서 피처 갯수 설정
선생님 안녕하세요. 좋은 강의 해주셔서 재밌게 듣고 있습니다. 다름이 아니라 결정트리 과적합 강의에서 2차원 시각화를 위해서 feature를 2개로 제한하셨는데, 혹시 어떤 feature가 쓰였는지 알 수 있는 것인가요? 갯수만 그렇게 설정해주면 4개의 feature들 중에서 가능한 조합들을 모두 고려해서 성능이 좋은 것으로 나오는 것인가요? 갯수를 제한했을 때 피처가 어떻게 결정되는지, 그리고 EDA과정에서 원하는 feature를 선택할 수도 있는 것인지 궁금합니다. 감사합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
피처별 회귀계수 시각화
강의 회귀 실습 1: 자전거 대여(공유) 수요 예측 -02에서 19분 52초 경에 나오는 선형 회귀의 피처별 회귀계수 시각화 부분에서 저 회귀계수 값들이 다르게 나올 수가 있는지, 질문드립니다. github의 주피터노트북 코드 다운로드 받아서 그대로 시행했는데 LinearRegression/Lasso/Ridge 각 회귀에 대한 RMSLE, RMSE, MAE까지는 값이 정확히 동일하게 나오는데 회귀 계수의 값을 보려고 lr_reg.coef_ 부분에서 결과가 다르게 나옵니다. 상식적으로 회귀 모형에서 이런 결과가 나올 수가 없다고 생각되는데 무슨 이유인지 모르겠어서 질문드립니다! 감사합니다
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
Null 값을 평균으로 채우는 방법
안녕하세요, 선생님. 강의 15분 경에 다음과 같은 코드가 나옵니다만, 저는 분명 동일한 코드를 실행했는데 오류가 떠서 질문드립니다. house_df.fillna(house_df.mean(),inplace = True) TypeError: can only concatenate str (not "int") to str 이 코드가 Null있는 문자형 열까지 포함시켜 처리하기 때문에 오류가 나는 거 같은데, 혹시 원래 정상적으로 실행되는 코드인가요…? 책에 있는 코드도 동일한데 제가 실행시키면 에러가 나서 전 Null 있는 숫자혀여 열에 대해서만 각 열의 평균값으로 결측치를 채워서 실행했습니다. 만약 현재 버젼으로 정상적으로 실행이 되지 않는 코드라면 선생님께서 혹시 이 부분에 대해서만 새로 작성하신 코드를 여쭙고 싶습니다!방금 확인해보니까 jupyter notebook으로는 잘 실행되는데, vscode에서는 위와 같은 오류가 뜹니다. 혹시 이 오류가 뜨는 이유를 알 수 있을까요?
-
미해결R로 배우는 통계
강의자료 다운로드
강의자료 다운로드 어디서 받나요?강의 코드 홈페이지에는 https://www.theissaclee.com/ko/courses/rstat101/이곳이라고 안내가 나와있는데.... 이런 사이트로 접속이 되는데;;;제가 못찾는건지.. 잘못 업데이트가 된건지...알려주실 수 있을까요 ㅜ ㅜ ?
-
미해결R로 배우는 통계
Rstudio 테마 적용하기
rstudio, rtools, r 다운로드까지는 잘 따라했는데Rstudio 테마 적용하기부터 잘 안되고 있습니다.rscode.io 설치하기 따라했는데도 검정 배경이나 글꼴이 적용이 안되고, rscodeio::install_theme() 작성하면 아래와 같이 뜹니다!get_stylesheets_location()에서 다음과 같은 에러가 발생했습니다: Could not find location of your RStudio installation.어떤 점이 문제일까요...?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
임곗값에 따른 정밀도-재현율 값 추출
선생님 안녕하세요.임곗값에 다른 정밀도-재현율 추출시, 예측확률 추출(predict_proba)에 대해서 궁금한 점이 있습니다.# predict_proba( ) 반환값의 두번째 컬럼 , 즉 Positive 클래스 컬럼 하나만 추출하여 Binarizer를 적용 pred_proba_1 = pred_proba[:,1].reshape(-1,1)작성해주신 코드는 positive일 확률에 대한 컬럼 하나만 추출한것으로 보이는데, 그 이유가 있을까요?강의를 두세번 반복해서 봐도 이해가 가지않습니다.. 그리고 작성해주신 주석은 'Positive 클래스 컬럼' 이라고 써주셨는데, 데이터를 print해보면 positive 일 확률이기때문에, positive가(1이) 아닐 확률 데이터도 많이 포함되어있어서요. 정확히 어찌 이해하는게 맞을까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
feature X 와 target y
feature 표현할 때는 대문자를 써서 X_train 으로 하고target 표현할 때는 소문자를 써서 y_train 으로 작성이 되고 있는데요.대소문자를 구별해서 사용하고 있는 특별한 사유가 있나요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
안녕하세요 강의를 구매해서 잘 듣고있습니다
안녕하세요 강의를 구매해서 잘 듣고있습니다. 혹시 책도 같이 구매를 해야 원활한 학습이 될까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
파이썬 머신러닝 완벽 가이드 개정전 서적
파이썬 머신러닝 완벽가이드 2020버전을 가지고 있습니다2022개정판을 새로 구입해서 강의를 듣는 것이 더 효율적일까요?많이 다르지 않다면 2020년 버전으로 강의를 들어도 문제가 없을지 궁금합니다!!