소개
정보화 기획/구축/진단 업무를 수행하였고 스몰데이터분석을 실무에 적용하고 있습니다.현재 데이터분석 분야는 코딩이 과대포장된 진입장벽을 만들었다는 것을 알게 되었습니다.이제는 거품을 걷어내고 데이터분석의 저변화와 자바머신러닝을 준비하고직접 강좌로 자바머신러닝을 확산할 동료들을 만나는 것이 저의 목적입니다.더나아가 POST 정보화시대를 대비하고 영위하는 미래의 모습을 그려봅니다.
강의
수강평
게시글
질문&답변
이게 맞는지 한번 확인 부탁드려요!
Random seed 는 more option 버튼을 클릭해서 설정합니다. supplied test set 은 테스트세트와 훈련데이터가 분리된 경우이고, basic 이란 것은 검증방법에 없는 용어입니다. Cross-Validataion 은 맞게 쓴것 같구요.. Holdout 은 한국어로 분할검증입니다. percentage split 맞습니다.
- 0
- 2
- 297
질문&답변
회귀분석
smllepmg 님의 질문속 회귀방정식은 1차원 단순회귀 선형식입니다. 종속변수(Y) 가 단 1개의 독립변수(X) 에 의해서만 결정되는 경우입니다. 삽입된 이미지의 회귀분석은 다중회귀 선형식으로 종속변수(Y) 가 2개 이상의 독립변수(Xn)들 에 의해서만 결정되는 경우입니다. 참고로 다항회귀식은 X^n 의 독립변수가 제곱형태로 선형이 아닌 곡선형태로 나타내는 경우입니다. 단순회귀식, 다중회귀식, 다항회귀식 .. 이름이 비슷비슷해서 많이 해깔리죠.. 저도 그렇습니다. 다만, 식이 어떤 이름을 갖느냐 보다는 종속변수(Y) 를 결정하는 독립변수(Xn) 의 개수가 몇개인지? 선형이 아닌 곡선의 형태로 종속변수(Y) 를 결정하는지를 알아야 합니다. 이런 회귀식유형은 weka에서 결정하지 않습니다. smllepmg 님께서 실전에서 많은 시행착오를 겪으면서 채득해야할 의사결정사항입니다.
- 0
- 1
- 669
질문&답변
minBuckerSize
https://blog.naver.com/bulleten/221619196531 중간에 설명을 참고하십시요.
- 0
- 1
- 164
질문&답변
Seed의 구체적인 설명이 있으면 좋겠습니다
농사를 비유로 쉽게 설명드리면, 밭에서 씨를 뿌릴때 무작위로 흩어뿌리는 경우가 있어요. 씨앗 무작위 흩어뿌림을 많이 할 수록 씨앗은 땅에 고루 안착되고 경작율은 높아집니다. 마찮가지로 데이터를 무작위로 뽑아내는 횟수 (seed) 를 증가시킴으로써 대표성을 높인다고 보면 됩니다.
- 0
- 1
- 396
질문&답변
데이터 분할해서 모델링
분할검증 때문에 정분류율이 떨어졌다고 생각하면 안됩니다. 데이터세트의 데이터 분포에 따라 분할검증의 정분류율이 높아질 수도, 교차검증이 높아 질수 있습니다. 다양한 데이터세트로 다양한 검증할 때 어떤 상황이 더 좋은지는 실험을 해야 알수 있습니다.
- 0
- 1
- 159
질문&답변
알고리즘 예측확률
용준님 안녕하세요. 답변이 도움이 되셨다면 좋은 수강평과 하트 클릭 부탁드립니다
- 0
- 7
- 579
질문&답변
알고리즘 예측확률
강의에 특징(속성)선택 동영상을 참조해주세요. 질문하신 내용이 포함됩니다. 특징선택도 알고리즘이 많으니 여러개를 조합해서 선택하시는 것을 추천드립니다.
- 0
- 7
- 579
질문&답변
알고리즘 예측확률
안녕하세요. 질문주신 내용을 답변드리면서 보완할 수 있는 아이디어가 생각나서 관련내용을 동영상으로 업로드 하였습니다. 섹션 8 번외편에 Experimenter 시각화 제목으로 올려놨습니다. (사진) 앞으로도 좋은 질문에서 영감을 얻은 아이디어나 다른매체의 좋은 내용은 선별해서 번외편으로 동영상으로 제작하여 강의에 추가하겠습니다.
- 0
- 7
- 579
질문&답변
알고리즘 예측확률
Experimenter 로 비교검정된 수치정보를 weka 에서 시각화 할 수 없는지 문의하셨습니다. Weka 는 약한 시각화 기능을 보완하기 위해 R 과 Python 을 plugin 을 제공하여 Weka 에서 R 과 Python 연동을 지원합니다만, 결국 확률밀도함수와 같은 그래프 시각화는 R 과 Python 코딩작업을 해야 합니다. 만약 R 과 Python 에서 분석하시고자 코딩을 위해 비교검정 데이터를 받으시고 싶다면 아래 2가지 방법을 참조하십시요. 첫번째는 Experimeter 의 시작인 "Setup" 패널에서 "Result Destination" 에 물리적인 파일명을 설정하면 비교검정 결과를 arff 나 csv 파일로 받을 수 있습니다 두번째는 Experimeter의 결과인 "Analyse" 패널에서 "Open Explorer" 을 클릭하면 weka Exlplorer 의 전처리 패널로 이동하면서 비교검정 결과를 raw data 로 확인할 수 있고 "save" 를 클릭하여 arff 나 csv 파일로 받을 수 있습니다 감사합니다.
- 0
- 7
- 579
질문&답변
알고리즘 예측확률
질문 주셔서 감사합니다. 1. 70~80% 예측률 향상 어떤 경우에 어떤 알고리즘이 적합하다고 하는 것은 선입견 입니다. 따라서 질병예측에 적합한 알고리즘을 미리 정하지 마시고 Experimenter 로 다양한 알고리즘을 비교검정 해보십시요. 강의내용에 Experimenter 사용법을 참고해 주세요. 2. 적은양의 데이터 과적합 우려 데이터 건수가 적은 것은 3가지 보완책이 있습니다. 다만 이들은 이론적인 대안 일뿐입니다. 첫째, 가능한한 더 많은 데이터 확보 둘째, 분할검증이 아닌 10 이상 교차검증 실시 세째, 독립변수 데이터 형태가 수치형이면 표준화와 정규화 필터링후 학습 후 Experimenter 로 비교검정 굉장히 이론적인 답변이죠? 데이터 건수가 적은 것은 대표성을 나타내기 어렵기 때문에 더 많은 데이터 확보가 답입니다. 그러나 어디 현실이 그런가요? 따라서 교차검증 및 표준화/정규화 필터링이 약간의 대안은 될수 있습니다. 일단 실행해 보시죠. 그러면 의외의 결과를 얻을 수 있습니다. 감사합니다.
- 0
- 7
- 579