자바라머신러닝님의 게시글 - 인프런

게시글

질문&답변
이게 맞는지 한번 확인 부탁드려요!
Random seed 는 more option 버튼을 클릭해서 설정합니다. supplied test set 은 테스트세트와 훈련데이터가 분리된 경우이고, basic 이란 것은 검증방법에 없는 용어입니다. Cross-Validataion 은 맞게 쓴것 같구요.. Holdout 은 한국어로 분할검증입니다. percentage split 맞습니다.
0
2
334
질문&답변
회귀분석
smllepmg 님의 질문속 회귀방정식은 1차원 단순회귀 선형식입니다. 종속변수(Y) 가 단 1개의 독립변수(X) 에 의해서만 결정되는 경우입니다. 삽입된 이미지의 회귀분석은 다중회귀 선형식으로 종속변수(Y) 가 2개 이상의 독립변수(Xn)들 에 의해서만 결정되는 경우입니다. 참고로 다항회귀식은 X^n 의 독립변수가 제곱형태로 선형이 아닌 곡선형태로 나타내는 경우입니다. 단순회귀식, 다중회귀식, 다항회귀식 .. 이름이 비슷비슷해서 많이 해깔리죠.. 저도 그렇습니다. 다만, 식이 어떤 이름을 갖느냐 보다는 종속변수(Y) 를 결정하는 독립변수(Xn) 의 개수가 몇개인지? 선형이 아닌 곡선의 형태로 종속변수(Y) 를 결정하는지를 알아야 합니다. 이런 회귀식유형은 weka에서 결정하지 않습니다. smllepmg 님께서 실전에서 많은 시행착오를 겪으면서 채득해야할 의사결정사항입니다.
0
1
732
질문&답변
minBuckerSize
https://blog.naver.com/bulleten/221619196531 중간에 설명을 참고하십시요.
0
1
216
질문&답변
Seed의 구체적인 설명이 있으면 좋겠습니다
농사를 비유로 쉽게 설명드리면, 밭에서 씨를 뿌릴때 무작위로 흩어뿌리는 경우가 있어요. 씨앗 무작위 흩어뿌림을 많이 할 수록 씨앗은 땅에 고루 안착되고 경작율은 높아집니다. 마찮가지로 데이터를 무작위로 뽑아내는 횟수 (seed) 를 증가시킴으로써 대표성을 높인다고 보면 됩니다.
0
1
444
질문&답변
데이터 분할해서 모델링
분할검증 때문에 정분류율이 떨어졌다고 생각하면 안됩니다. 데이터세트의 데이터 분포에 따라 분할검증의 정분류율이 높아질 수도, 교차검증이 높아 질수 있습니다. 다양한 데이터세트로 다양한 검증할 때 어떤 상황이 더 좋은지는 실험을 해야 알수 있습니다.
0
1
208
질문&답변
알고리즘 예측확률
용준님 안녕하세요. 답변이 도움이 되셨다면 좋은 수강평과 하트 클릭 부탁드립니다
0
7
670
질문&답변
알고리즘 예측확률
강의에 특징(속성)선택 동영상을 참조해주세요. 질문하신 내용이 포함됩니다. 특징선택도 알고리즘이 많으니 여러개를 조합해서 선택하시는 것을 추천드립니다.
0
7
670
질문&답변
알고리즘 예측확률
안녕하세요. 질문주신 내용을 답변드리면서 보완할 수 있는 아이디어가 생각나서 관련내용을 동영상으로 업로드 하였습니다. 섹션 8 번외편에 Experimenter 시각화 제목으로 올려놨습니다. (사진) 앞으로도 좋은 질문에서 영감을 얻은 아이디어나 다른매체의 좋은 내용은 선별해서 번외편으로 동영상으로 제작하여 강의에 추가하겠습니다.
0
7
670
질문&답변
알고리즘 예측확률
Experimenter 로 비교검정된 수치정보를 weka 에서 시각화 할 수 없는지 문의하셨습니다. Weka 는 약한 시각화 기능을 보완하기 위해 R 과 Python 을 plugin 을 제공하여 Weka 에서 R 과 Python 연동을 지원합니다만, 결국 확률밀도함수와 같은 그래프 시각화는 R 과 Python 코딩작업을 해야 합니다. 만약 R 과 Python 에서 분석하시고자 코딩을 위해 비교검정 데이터를 받으시고 싶다면 아래 2가지 방법을 참조하십시요. 첫번째는 Experimeter 의 시작인 "Setup" 패널에서 "Result Destination" 에 물리적인 파일명을 설정하면 비교검정 결과를 arff 나 csv 파일로 받을 수 있습니다 두번째는 Experimeter의 결과인 "Analyse" 패널에서 "Open Explorer" 을 클릭하면 weka Exlplorer 의 전처리 패널로 이동하면서 비교검정 결과를 raw data 로 확인할 수 있고 "save" 를 클릭하여 arff 나 csv 파일로 받을 수 있습니다 감사합니다.
0
7
670
질문&답변
알고리즘 예측확률
질문 주셔서 감사합니다. 1. 70~80% 예측률 향상 어떤 경우에 어떤 알고리즘이 적합하다고 하는 것은 선입견 입니다. 따라서 질병예측에 적합한 알고리즘을 미리 정하지 마시고 Experimenter 로 다양한 알고리즘을 비교검정 해보십시요. 강의내용에 Experimenter 사용법을 참고해 주세요. 2. 적은양의 데이터 과적합 우려 데이터 건수가 적은 것은 3가지 보완책이 있습니다. 다만 이들은 이론적인 대안 일뿐입니다. 첫째, 가능한한 더 많은 데이터 확보 둘째, 분할검증이 아닌 10 이상 교차검증 실시 세째, 독립변수 데이터 형태가 수치형이면 표준화와 정규화 필터링후 학습 후 Experimenter 로 비교검정 굉장히 이론적인 답변이죠? 데이터 건수가 적은 것은 대표성을 나타내기 어렵기 때문에 더 많은 데이터 확보가 답입니다. 그러나 어디 현실이 그런가요? 따라서 교차검증 및 표준화/정규화 필터링이 약간의 대안은 될수 있습니다. 일단 실행해 보시죠. 그러면 의외의 결과를 얻을 수 있습니다. 감사합니다.
0
7
670