소개
정보화 기획/구축/진단 업무를 수행하였고 스몰데이터분석을 실무에 적용하고 있습니다.현재 데이터분석 분야는 코딩이 과대포장된 진입장벽을 만들었다는 것을 알게 되었습니다.이제는 거품을 걷어내고 데이터분석의 저변화와 자바머신러닝을 준비하고직접 강좌로 자바머신러닝을 확산할 동료들을 만나는 것이 저의 목적입니다.더나아가 POST 정보화시대를 대비하고 영위하는 미래의 모습을 그려봅니다.
강의
전체 3수강평
게시글
질문&답변
2020.08.19
이게 맞는지 한번 확인 부탁드려요!
Random seed 는 more option 버튼을 클릭해서 설정합니다. supplied test set 은 테스트세트와 훈련데이터가 분리된 경우이고, basic 이란 것은 검증방법에 없는 용어입니다. Cross-Validataion 은 맞게 쓴것 같구요.. Holdout 은 한국어로 분할검증입니다. percentage split 맞습니다.
- 0
- 2
- 278
질문&답변
2020.08.17
회귀분석
smllepmg 님의 질문속 회귀방정식은 1차원 단순회귀 선형식입니다. 종속변수(Y) 가 단 1개의 독립변수(X) 에 의해서만 결정되는 경우입니다. 삽입된 이미지의 회귀분석은 다중회귀 선형식으로 종속변수(Y) 가 2개 이상의 독립변수(Xn)들 에 의해서만 결정되는 경우입니다. 참고로 다항회귀식은 X^n 의 독립변수가 제곱형태로 선형이 아닌 곡선형태로 나타내는 경우입니다. 단순회귀식, 다중회귀식, 다항회귀식 .. 이름이 비슷비슷해서 많이 해깔리죠.. 저도 그렇습니다. 다만, 식이 어떤 이름을 갖느냐 보다는 종속변수(Y) 를 결정하는 독립변수(Xn) 의 개수가 몇개인지? 선형이 아닌 곡선의 형태로 종속변수(Y) 를 결정하는지를 알아야 합니다. 이런 회귀식유형은 weka에서 결정하지 않습니다. smllepmg 님께서 실전에서 많은 시행착오를 겪으면서 채득해야할 의사결정사항입니다.
- 0
- 1
- 653
질문&답변
2020.08.13
minBuckerSize
https://blog.naver.com/bulleten/221619196531 중간에 설명을 참고하십시요.
- 0
- 1
- 150
질문&답변
2020.08.04
Seed의 구체적인 설명이 있으면 좋겠습니다
농사를 비유로 쉽게 설명드리면, 밭에서 씨를 뿌릴때 무작위로 흩어뿌리는 경우가 있어요. 씨앗 무작위 흩어뿌림을 많이 할 수록 씨앗은 땅에 고루 안착되고 경작율은 높아집니다. 마찮가지로 데이터를 무작위로 뽑아내는 횟수 (seed) 를 증가시킴으로써 대표성을 높인다고 보면 됩니다.
- 0
- 1
- 382
질문&답변
2020.08.04
데이터 분할해서 모델링
분할검증 때문에 정분류율이 떨어졌다고 생각하면 안됩니다. 데이터세트의 데이터 분포에 따라 분할검증의 정분류율이 높아질 수도, 교차검증이 높아 질수 있습니다. 다양한 데이터세트로 다양한 검증할 때 어떤 상황이 더 좋은지는 실험을 해야 알수 있습니다.
- 0
- 1
- 150