묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
예측정확도가 아닌 예측결과를 알 수 있나요?
머신러닝을 통해 하나의 데이터 값이 어느 값을 가질지 예측하는 결과를 알 수는 없나요?예를 들어 여러 붓꽃데이터를 학습시킨 다음에 하나의 붓꽃데이터를 준 후 기계가 이 붓꽃데이터가 어디에 들어가는지 판별하는것을 알 수 있나요?
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
행렬 분해 비용 함수 질문입니다.
안녕하세요! 멋진 강의를 들을 수 있어서 감사하고 있습니다.잠재요인 기반의 협업필터링 이해와 경사하강법을 이용한 행렬 분해 18:12 에서 나오는 L2 규제에 대해 궁금한 점이 있어서 문의 드립니다.수학에 약해서 공부해볼겸 수학적으로 해석을 하려는데, 다른 사이트의 참고 내용들을 보다보니 L2 규제에 시가마가 들어가던데 여기서는 안 들어가는 이유가 무엇인지 궁금합니다.감사합니다!
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
스케일링 1 강의 질문
데이터 전처리 - 스케일링 - 01 강의 1분47초에서표준화로 데이터의 피처 각각이 평균이 0 이고 분산이 1인 가우시안 정규분포로 바꿔준다고 했는데요. 원래 데이터가 정규분포를 가졌다면 xi_new (표준화 식)식 으로 평균이 0 이고 분산이 1인 정규분포를 도출할 수 있지만 애초에 정규분포를 이루지 않는 데이터의 경우는 해당 식을 적용한다고 해서 정규분포가 되지 않을 텐데 이런 경우는 어떻게 해서 정규분포로 만든다는 것일까요? 답변 부탁드립니다. 감사합니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
다중공선성 제거를 위한 VIF 10 이상 피쳐 제거
안녕하세요~! 본 강의에서는 사용되지 않았지만 다중공선성 제거를 위해 VIF 10 이상인 피쳐들은 drop하는 게 성능에 더 좋다고 하여 해당 방법을 적용하였는데 오히려 RMSE값이 0.3~0.5 정도 커지는 결과가 나타났습니다.(선형회귀, 릿지, 라쏘) VIF 제거 외에는 강의해주신 내용도 거의 유사한 방식으로 전처리 적용하였습니다. 1. VIF 10 이상인 피쳐들을 제거하는 게 예측률 향상에 무조건 좋은 것은 아닌건가요? 2. 만약 그렇다면 다중공선성 제거를 위한 추가적인 기법이 있을 것 같은데, 대표적으로 활용되는 방법이 어떤게 있을까요? 3. 마지막으로, VIF 10 이상인 피쳐들은 제거하여 성능이 향상되는 데이터셋의 대표적인 예와, 적용이 잘 안되는 예가 있을까요? 이번에도 애매한 질문을 드리는 점 죄송합니다. 아시는 수준에서 답변 주시면 정말 감사하겠습니다^^
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
Boston House 실습 표준화, 이상치제거 관련 질문입니다.
안녕하세요! ML공부하면서 강의 정말 많이 도움이 되고 있습니다^^ ㅇ skew를 사용한 왜곡도 제거부분에서(강의 8:00~10:00 부분) 1. skew 대신 standardscaler를 사용해 표준화 시키는 것은 단점이 있나요? (정규분포를 만들어주기 때문에 skew보다 더 정리를 잘해줄것 같은 생각이 듭니다.) 2. 또한 log를 씌워 정규분포와 비슷하게 만들어준다고 하셨는데, 이부분 또한 standardscaler를 적용하면 안되는 걸까요? ㅇ GrLivArea 이상치를 제거하는 부분에서(강의 14:00~18:00 부분) 1. 다른 이상치 제거방법(사분위수)을 써도 되는지? 2. 이상치 제거할 때 테스트 데이터에 이상치가 있는지 확인하고 제거하라고 하셨는데 학습검증단계에서 테스트 데이터를 참고해도 되는건가요? ㅇ 전처리 과정 순서를 기본전처리(null, 범주형 변환 등) → standardscaler → 이상치제거(IQR 등) → minmaxscaler 이렇게 기본틀로 잡고 머신러닝을 진행하고 있었는데 돌리는 모델이나 데이터별로 달라져야할까요? ㅇ 마지막으로, house price 타켓 컬럼을 log변환해서 학습을 진행을 하셨는데, 타겟값만 log를 씌워주고 다른 값들은 log를 안씌운 상태에서 학습을 하게되면 오류(수치상의 차이 기반)가 발생할 가능성은 없을까요? 질문이 난잡하긴 한데 간략하게나만 답변 주시면 감사하겠습니다! 감사합니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
파이썬래퍼 xgboost
파이썬래퍼 XGBoost가 기존에 하던 예제들과 좀 차이가 나서 이해하는데 어려움이 좀 있는데 현업에서 좀 많이 쓰이는 편인가요? 아니면 사이킷런 래퍼 XGBoost만 이해할정도가 되도 지장이 없을까요 ?
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
하이퍼 파라미터
n_estimators와 같은 하이퍼 파라미터를 고려할 땐 무조건 예측 성능이 높게 나오는 하이퍼 파라미터를 선택하는것이 옳나요?
-
미해결
상자 그림(box plot) 해석 좀 부탁드려요
안녕하세요, 현재 과제 중에 데이터 추출해서 상자그림을 만들고, 그에 대한 스토리를 만들어야하는데 해석이 잘 안되서요.. 우선 주제는 유럽과 아시아의 자살률 비교로 상자그림을 만들었어요. 이 상자그림을 보고 알 수 있는 스토리 몇가지만 알려주시면 정말 정말 감사하겠습니다ㅜㅜ 부탁드려요
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
왜 저한테는 답변 안해주시는거죠;;
https://www.inflearn.com/questions/499562 이 글에 저만 빼고 답변해주시는데 이유가 뭘까요.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
사용자 패턴을 학습해서 목적지 예측을 하고 싶은데 데이터 전처리를 어떻게 하는것이 맞을까요?
선생님, 사용자 패턴을 학습해서 목적지 예측을 하는 모델을 구현하고 싶습니다. 현재 아래와 같은 Sample Dataset을 만들었는데요 :) 데이터 전처리를 어떻게 해야할지 잘 모르겠습니다. 일단 day_of_week 피처는 원핫 인코딩으로 처리하려고 하고 출발 시간 피처(hour,min)은 log 값으로 scaling 하려고 합니다. 여기까지는 올바른 방향이 맞을까요? 또 시작 좌표(start_lat, start_lon)와 목적지 좌표(end_lat, end_lon) 를 어떻게 처리해야할까요? 일단 제가 생각한 것은 각각 좌표 지점을 군집화하여 원핫 인코딩으로 바꾸는 것을 생각했습니다. 아직 군집화 수업을 듣기 전이라 이것도 맞는 방향인지 모르겠습니다. 선생님께서 생각하는 방향과 제가 생각한 방향이 일치할지 모르겠습니다. 또 제가 잘못 생각하고 있는 부분이 있으면 말씀부탁드려요 :)
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
log 변환을 하는 이유
데이터 분석을 하던 중 target 값이 왜 로그변환이 되어야 하는지 잘 모르겠습니다. 왜 로그 변환을 하는 것인가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
coef와 그래프 모습에서 보이는 회귀선 간의 관계 문의
안녕하세요. 아래와 같이 13개 feature 모두 그래프로 그려보았습니다. 그런데 하단을 보면 AGE, B, INDUX, TAX feature는 price와의 회귀 직선이 음의 상관관계로 나오는데, 강의에서 coef를 보면 0으로 나옵니다. 그리고 RAD는 그래프로 보면 음의 상관 관계인데 coef는 0.4가 나옵니다. 개별 feature들과 price간의 관계를 보면 음의 상관관계인데 모든 feature들을 이용해 linear regression을 만들어봤을 때의 coef는 각 개별 상관관계와는 다르게 될 수도 있는 것인지요?
-
미해결인공지능 기초수학
밑이 0보다 작으면 안되는 이유가 무엇인가?
밑이 0보다 작으면 안되는 이유가 무엇인가? 수학을 몰라서... 어리석은 질문일까요? 강사분은 아예 답변을 안하시는 것 같은데요. 수강생분들 중에서 아시는 분이 계시면 답변 좀 부탁드립니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
경사 하강법 RSS 질문
안녕하세요 파이썬 머신러닝 완벽가이드를 통해 잘 공부하고 있는 학생입니다. 다름이 아니고 경사하강법 파트를 공부하다 질문 사항이 생겨 글 남깁니다. 경사하강법의 원리를 배우며, 손실함수의 최저점을 찾기 위해 (손실함수 값이 낮아지는 방향성을 찾기 위해) R(w0,w1)에 대해 편미분을 하는 것은 이해했으나, w1(new) = w1(old) + n(보정계수)*(편미분값) w0(new) = w1(old) + n(보정계수)*(편미분값) w1,w0을 업데이트 하는 과정에서 왜 원래의 값에서 보정계수*편미분값을 빼게 되는 것인지 그 원리가 잘 이해되지 않습니다 ㅠㅠ 편미분은 대략 기울기, 변화량 정도를 의미하는데 .. 그 값에 보정계수를 곱하고, 원래 값에서 빼게 된 값이 그 기울기만큼 감소한 지점의 f(w) 함숫값(?)이 되는건지..? 그렇다면 왜 그렇게 되는 건지 궁금합니다 ㅠㅠ 제가 질문을 제대로 설명한 건지 모르겠네요. 강의 항상 잘듣고 있습니다. 감사합니다.
-
미해결스프링 데이터 JPA
복잡한 통계쿼리도 JPA로 가능한가요?
기선님 쉽게 설명해주시는 강의를 보며 참 많은 도움이 되고있습니다. 실제 제가 만들고 있는 모델관 다르지만 질문하기 위해 예시를든다면 , 쇼핑몰을 예로 어떤 상품들이 있고 그것에 대한 판매가 이뤄진다고 가정할때 엔티티는 상품, 주문, 결제등이 있을수 있겠죠. 이때 '상품들의 월별 판매량'을 통계 내야 한다고 치고 --------------------------------------- 상품명 1월 2월 3월 4월 5월 ... 합 -------------------------------------- 상품A 20 15 4 7 8 104 상품B 1 1 10 2 1 25 ---------------------------------------- 이런식의 통계 쿼리를 짜야 할경우 JPA로 가능한지? QueryDSL 등을 써서라도 가능한지? 감이 안잡힙니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
스터디 열었습니다!
관심있으신 분들 참여 부탁드려요 ㅎ커뮤니티 "스터디"란에 있습니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
학습 방법 문의 드립니다.
욜로나 레티나넷 등을 이용하여 사진이나 영상 분석을 하고 싶습니다. 최종적인 목표는 사진 혹은 영상의 특정 부분을 구분하는 것입니다. (ex. 여러 개의 사진 혹은 영상 중 사람이 있는 것과 없는 것을 판단하여 사람이 있는 영상(사진)과 사람이 없는 영상(사진) 구분하기) 제가 머신러닝을 한번도 공부한 적이 없어서 어떤 방식으로 공부를 해야 좋을지 갈피가 잡히지 않습니다. 컴퓨터공학 전공이고 웹 프로그램을 업으로 삼고 있기는 하지만 통계학은 한번도 접해본 적이 없고, 수학은 20여년 전 고교 졸업 후 해본적 없습니다. 파이썬 역시 아주 가벼운 프로그램을 작성해 본 경험만 있습니다. [파이썬 머신러닝 완벽 가이드] -> [딥러닝 컴퓨터 비전 완벽 가이드] 순서로 강의를 볼 계획이고 현재 [파이썬 머신러닝 완벽 가이드]의 5장의 회귀를 공부하고 있습니다. 처음에 영상만 보다가 이해하기가 힘이 들어 교재를 구매해 함께 보면서 스터디 중입니다. [파이썬 머신러닝 완벽 가이드]를 완강한 후 [딥러닝 컴퓨터 비전 완벽 가이드]를 시작해야 하나요? 또한, 강의와 질문-답변들을 보면서 100% 이해한다기 보다는 어렴풋하게 개념을 잡고 간다는 생각으로 공부를 하고 있는데 이게 맞는지도 궁금합니다. 소소 코드는 최대한 이해하려고 노력하고 있습니다. 마지막으로 추천해 주시고 싶은 다른 강의나 책, 사이트가 있으시면 같이 보겠습니다. 감사합니다. 참고로, 두 달 전 머신러닝 스터디를 시작할 때 1. [파이썬 머신러닝 완벽 가이드] 의 3장 평가까지 완강 2. [딥러닝 컴퓨터 비전 완벽 가이드] 의 욜로 부분을 보면서 강의에 나온 소스로 테스트 성공 3. 리눅스 서버에 욜로5 설치 후 테스트 실패 - (https://datacook.tistory.com/60 사이트를 참조하여 학습을 시키고 학습이 잘 되었는지 테스트를 하는데 원하는 결과를 얻지 못했습니다.) 의욕만 많아서 급하게 테스트를 하니 디버깅 하기도 어렵고 어디서 어떻게 손을 봐야할지 잘 모르겠어서 다시 천천히 [파이썬 머신러닝 완벽 가이드] 를 공부하고 있는 중입니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
LightGBM
맥os에서 lightGBM을 어떻게 다운로드 할 수 있을까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
주니터노트북 커널죽음
LightGBM을 실행시키면 계속 커널이 죽는다고 뜨는데 해결방법을 모르겠습니다ㅠㅠㅠ 맥북이용자입니다ㅠㅠ
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV 부분과 K fold 관련 질문 드립니다.
안녕하세요. 수업을 잘 듣고 있는 학생입니다. 질문이 있어서 질문을 남깁니다. 첫번째 질문은, stratified K fold 부분을 설명해주실 때, stratified k fold 를 안쓰고 k fold만 쓰게 된다면, train set에 label 이 0,1 데이터 50개씩만 들어가고 test set에는 label 이 2만 들어가있는 데이터 50개만 들어가서 predict 가 제대로 할 수 없다(예측 정확도가 0)고 하셨는데 이 부분은 이해가 됩니다. 근데 직전 강의에서 iris데이터 가지고 stratified가 아닌 그냥 K fold를 써서 예측 정확도 0.9333을 얻은 것 아닌가요? 두 번째 질문은, GridSearchCV 설명 부분에서 제 사이킷 런 버전(2점대 버전)으로는 mean_test_score가 0.9666이 아닌 0.975가 나옵니다. 이것은 버전이 업그레이드 되어서 더 좋은 알고리즘(?)으로 능력치가 향상된것인지? 그런데 또 GridSearchCV 최고 정확도: 0.975, 테스트 데이터 세트 정확도: 0.9667 는 각각 이렇게 나오네요. 왜 두개가 서로 다른것인지도 궁금합니다.