묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
lightgbm 버전 관련 질문 드립니다!
안녕하세요 선생님:)lightgbm 설치 관련 질문을 드립니다. (우선 저는 mac을 사용하고 있습니다.)제가 lightgbm을 이전에 설치한 적이 있어서 version을 프린트해봤었는데, 3.2.1 버전이 떴습니다.그래서 upgrade를 하고 버전이 업그레이드 되었다는 메시지가 떴는데, 다시 .__version__을 치고 확인해보니 이전과 같이 3.2.1 버전이 뜨네요..수업에 문제가 없는 건지 질문드립니다! 아래에 제가 친 코드와 결과 스크린샷 남깁니다. 감사합니다!
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
fit_transform(X)의 역할
kmeans.fit_transform(irisDF)를 하면 나오는 결과는150가지의 피처값들(총 4가지 피처)과 각각의 피처에 대응하는 클러스터의 센트로이드 사이의 거리를 4차원에서 3차원으로 줄여서 표현한 것 맞나요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
이제 중학교, 고등학교 수학에서 행렬을 배우지 않아요 ㅠㅠ
이젠 대학교의 선형대수나 대학 수학강의에서만 배워요 ㅠㅠ
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
6단원, 7단원 학습순서 변경
안녕하세요 선생님. 5단원까지 작 마쳤는데, 급하게 7단원의 군집화 내용이 필요할 일이 생겨서 7단원 먼저 학습 후 6단원으로 넘어가려고하는데, 혹시 이렇게 학습 진행해도 상관 없을까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
타이타닉 생존자 예측 레이블인코딩 하는 이유
우선 너무 좋은 강의 덕분에 제가 제조업에서 데이터 사이언티스트 흉내나마 내고 있습니다.제 기억으론 레이블인코딩보더 원핫인코딩을 더 쓴다고 강의에서 들었던 거 같은데, 왜 타이타닉 생존자 예측에는 레이블인코딩을 한걸까요?그리고 근거는 없지만 선형회귀에서는 원핫인코딩을 해야할 거 같은데, 분류에서는 딱히 인코딩을 안해도 될 거 같은데 느낌이 드는데, 의견 여쭐 수 있을까요?그리고 Embarked 항목에 4개 정도 피쳐가 있는데(S, C, Q N) 예측할 데이터에 이 항목에 없는 데이터가 들어오면 어떻게 되나요? 예를 들면 A가 들어와도 중요한 피쳐가 아니면 크게 영향이 없을까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
분류 결정 임곗값이 너무 낮아질 경우
안녕하세요 강의 잘 듣고 있습니다!분류결정 임곗값에 대해서 강의를 들을땐 잘 이해가 됐었는데 복습하면서 정리하다보니 제가 잘 이해가 안되는 부분이 있어 질문드립니다.예를 들어, 분류 결정 임곗값이 0.3까지 낮아졌다고 할 때 pred_proba array에서 [0.49, 0.51] 이런 식으로 나온 경우 결국 0이나, 1이나 둘 다 임곗값은 넘었는데 어떤 걸로 예측하나요? 임곗값을 0.5로 설정했을땐 이럴 일이 없겠지만 임곗값을 낮췄을 때 어떻게 분류가 되는지 궁금합니다.확률 간의 비교를 해서 더 높은 확률로 분류를 하는지 아니면 단순히 둘 다 넘었을 땐 positive로 분류하는 건지 알고싶습니다!감사합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
L1,L2규제에 따른 회귀모델의 분류 (p.352~353)
안녕하세요 선생님. LogisticRegression 설명을 하시다가 사이킷런 LogisticRegression에서는 L1, L2 규제 중 하나를 선택해서 사용하셨는데, 앞에서 L1 규제면 릿지회귀, L2 규제면 라쏘회귀라고 배웠습니다.그럼 L1 규제를 사용한 LogisticRegression은 릿지회귀인가요 로지스틱회귀인가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
이공계열에서 텍스트 분석, 추천 시스템 활용 사례 질문
안녕하세요. 권철민 선생님.머신러닝을 업무에 적용하기 위해 공부하고 있는 직장인입니다.분류, 회귀 등을 공부하다가 텍스트 분석과 추천 시스템까지 오게 되었는데요. 이 컨텐츠들은 이공계 직렬의 데이터 분석과는 조금 거리가 있다는 생각이 들어 건너 뛸까 생각했으나 제가 제대로 모르기 때문에 놓치는 부분이 있을까 하여 질문 드립니다..혹시 해당 기술이 이공계 데이터 분석에서 사용된 사례가 있을까요? 선생님의 지혜 여쭙습니다.
-
미해결인공지능 기초수학
강의교안 부탁드립니다
강의 수강하는 학생입니다.98thumb@naver.com으로 강의 교안 부탁드립니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
교재 p.331 예제코드 질문
안녕하세요 선생님. 교재 p.331 윗부분 예제코드에서 위와 같이 X 데이터를 임의로? 지정해주셨고, print문으로 '계수'라는 워딩을 써서 보충설명하셨는데요. (코드 전체적으로 '계수'라는 말이 거의 모든곳에 혼용되어 있어 좀 혼란스러운데)위의 X 데이터는 다항식의 '계수' 데이터가 아니라 x1, x2 에 입력값으로서 학습에 사용되는 피처 데이터인게 맞죠? 일종의 X_train 데이터로서요.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV 후에 다시 학습을 시키는 이유가 있을까요?
안녕하세요, 선생님.아직 초반이지만 강의를 정말 만족스럽게 듣고 있습니다. 추후 업데이트되는 내용도 강의에 반영해주셔서 감사드립니다.강의를 듣던 중 4:30쯤에 궁금한 점이 있어서 문의드립니다.앞에서 GridSearchCV로 최적 하이퍼 파라메터를 찾았으면 best_estimator_가 생성되었을거 같은데 다시 최적 파라메터를 사용한 rf_clf1를 생성하여 학습후 예측하는 이유가 따로 있을까요?bestestimator를 사용해서 예측해도 동일 accuracy가 나오는 걸 보면 큰 이유는 없을 거 같은데, 혹시나 이유가 있을까 하여 문의드립니다.감사합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
로지스틱 회귀 시그모이드와 회귀트리 질문
안녕하세요 선생님 로지스틱 회귀분석을 공부하다가 잘 이해가 가지 않는 부분이 있습니다로지스틱 회귀는 시그모이드 함수를 활용하는데 해당 함수의 최적의 선을 구하는데Y= 1/1+e^-x 인데여기서 x가 w0 + w0x1 … 의 값을 구해서 x에 넣는건가요?그리고 여기서 나온 시그모이드 값을 0.5이상이면 신용카드 사기(1) 그리고 0.5미만이면 사기아님(0)으로 간주하게 되는건가요? (그리고 기본이 0.5초과면 1이고 미만이면 0으로 되는건가요?) 회귀 트리 질문페이지 336에서 결정나무처럼 균일도를 가장 잘 나누는 것을 시작으로 0~3까지 나누는 것은 이해를 했는데여기서 구한 4개의 평균값이 2.5이면 레이블 2 or 3으로 간주하게 되는건가요? 감사합니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
성능 평가에 대한 질문
안녕하세요 권철민 선생님.분류까지 강의를 정말 재밌게 잘 들었습니다. 다만 질문이 하나 있는데요,정확도, 정밀도, 재현율, F1 스코어, AUC 등의 결과가 나왔을 때 이 모델이 우수한지 아닌지를 어떻게 평가하는지가 제 머릿속에서 조금 모호합니다.AUC가 어떻게 보면 정확도, 정밀도, 재현율의 단점을 보완한 끝판왕인줄 알았는데 강의를 듣다 보니 정밀도, 재현율이 낮아도 정확도, AUC만 높은 경우가 있더라고요..만약 제가 회사 실무에서 분석을 수행한 뒤 평가 지표를 설명할 때 어떤 지표를 중심으로 강조해야 좋을지 조언 부탁드립니다.그리고 예를 들어 90%라는 평가가 나왔을 떄 이게 진짜 좋음을 의미하는 것인지? 60%라는 평가가 나왔을 떄 이게 나쁜 모델을 사용했기 때문인지 아니면 주어진 데이터 대비 최선의 결과를 낸 것인지.. 등도 알고 싶네요
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV
GridSearchCV 에 y_test 값을 주지 않아도 알아서 정확도를 추론해 내는 걸 보니,굳이 GridSearchCV 의 인자로 X_train 과 y_train 을 줘야할 이유가 있을까요?그냥 titanic_df의 피처값과 타겟값을 GridSearchCV 의 인자로 던져주는 것이 우리의 목표인 accuracy를 향상시키는 방법 아닌가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
LinearRegression 객체의 회귀계수와 피처 변수명 맵핑
p.327쪽에서위와 같이 lr.coef_ 의 회귀계수 값과 X_data.columns 의 피처 변수명을 맵핑시키는 데.. 이게 제대로 맵핑되는 원리가 무엇인가요? lr에 이미 X_data도 학습을 시켜 놓았으니 각 회귀계수별 피처명 정보가 어딘가에 들어가 있는 것이고, 이를 X_data.columns로 뽑아온다...? 맞나요..?
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
graphviz 시각화 주피터 출력 화면 관련 질문
안녕하세요 강의 잘듣고 있습니다! 다름이 아니라..graphviz 이용해서 주피터로 시각화를 진행하고 나서 전체 구조를 한눈에 파악하는 방법 없나요..?? 트리 깊이가 너무 깊어서 옆에 잘리는게 생깁니다 ㅜㅜ
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
정밀도를 100%로 만드는 법
1명의 확실한 P 예측과 나머지를 모두 N으로 예측했을 때 정밀도가 100%가 된다고 말씀하셨습니다.이 경우에 재현율도1 / 1+0 해서 100%되지 않나요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님, 여러 머신러닝 모델을 결합하는 다른 방법에 대해 질문있습니다.
안녕하세요 선생님! 지난번에 보내주신 쿠폰은 정말 감사했습니다. 덕분에 다음으로 공부할 것에 대해 계획할 수 있었습니다.개인 공부중에 궁금한 것이 있어 이렇게 여쭤봅니다.제가 사이버보안 분야를 머신러닝으로 향상시키는 것에 관심이 있는데요. 마침 앙상블 수업을 듣던 와중에 개인적으로 공부하고 있던 IDS(침입탐지) 데이터 셋 관련해서 어떤 아이디어가 생겨서요. 이 데이터셋은 다중 분류에 해당되는 것인데요.공격 패턴이 15가지(라벨) 정도라고 가정하겠습니다.이 라벨들을 저만의 방법으로 새로 분류하여 새로운 라벨들을 추가하여 만들어서 각각 학습하고 테스트를 진행해봤습니다. 첫번째로, 이진 분류로 라벨을 0, 1로 다시 만들어서모든 공격들은 1로 분류하고, 일반적인 것(양성,Benign)들은 0으로 분류하는 것이죠.즉, 공격이긴 공격인데 어떤 공격인지는 모르는 정도로만 시스템이 탐지하는 것입니다. 이럴 경우, 정확도, 정밀도, 재현율이 모두 99.97%로 아주 높은 확률로 탐지를 해냅니다. 두번째 분류는 비슷한 공격 패턴끼리 묶어서 그룹화를 한 뒤(즉, 라벨의 수를 줄이는 것입니다.) 학습 및 테스트를 하는 것입니다. 이럴 경우에도 아주 높은 점수를 보였습니다. 마지막 분류는 원래 라벨들입니다(전처리 작업 후). 역시 높은 점수를 보이긴 하나, 약간 낮은 점수를 보이는 일부 라벨들이 있습니다.그래서 말인데요. 혹시 이 세가지 모델을 연결해서 결과를 추출하는 방법이 있을 까요? 예를 들어, 먼저 공격인지 아닌지를 보고(첫번째 분류), 공격이라면 어떤 그룹에 속하는 지 보고(두번 째 분류), A라는 그룹이라면, 마지막 단계의 분류에서 세부적으로 어떤 라벨인지(세번째 분류)를 예측해내는 것이죠. 이렇게 연계하여 결과를 예측할 수 있는 모델을 만든다면, 점수가 약간 낮은 라벨들도 일부 보완할 수 있지 않을 까 생각되어서요.아이디어는 떠올랐는데, 구글에 검색해보니 앙상블이나, 파이프라인 등의 관련된 내용만 검색이 되어서요. 혹시 제가 모르는 어떤 기술이 있을까요? 선생님의 조언을 구합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
최종 분류 모델을 생성할 때, 어떤 데이터를 사용해야 하는지 궁금합니다.
안녕하세요.강사님의 여러 강의를 듣고 큰 도움을 받고 있습니다. 제가 궁금한 것은, 실제 업무 영역에서 분류모델을 적용하는 과정입니다. 모델을 생성한 후, 실제 타겟값을 알 수 없는 현실데이터에 적용을 해야 할 때, 어떤 데이터로 만든 모델을 적용해야 하는지 궁금합니다. 예를 들어서 강의에 따르면, 랜덤포레스트의 경우, 구축된 데이터 중에서 학습/테스트를 나누고 학습데이터를 가지고 모델을 만들고 테스트데이터를 가지고 최종정확도 성능을 확인하잖아요. 그리고 나서 이제는 타겟값을 알 수 없는 데이터에 적용을 하는 거잖아요. 그때 사용하는 머신러닝모델은 테스트데이터에서 높은 정확도가 나온 '학습데이터로 만든 모델'을 적용하는 거라고 생각하는데요.그런데, 최종적으로 높은 성능을 보인 모델의 하이퍼파라미터값을 학습데이터와 테스트데이터를 다 합친 것에 적용해서 최종 모델을 생성하고 실제로 타겟값을 알 수 없는 모델에 적용하는 건 괜찮은 걸까요? 궁금해서 여쭤봅니다. 항상 감사드립니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
예측정확도가 아닌 예측결과를 알 수 있나요?
머신러닝을 통해 하나의 데이터 값이 어느 값을 가질지 예측하는 결과를 알 수는 없나요?예를 들어 여러 붓꽃데이터를 학습시킨 다음에 하나의 붓꽃데이터를 준 후 기계가 이 붓꽃데이터가 어디에 들어가는지 판별하는것을 알 수 있나요?