묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 범주형 인코딩 관련 문의
안녕하세요, 작업형 2 모의문제 푸는 도중 궁금한게 있어 질문드립니다. 범주형 변수(object) 중 drop을 하는 경우가 있고 안하는 경우가 있는것 같은데, 어느정도를 기준으로 잡아야 할지 궁금합니다예를 들어 한개의 컬럼 값이 90개여서 원핫인코딩 시 컬럼이 100개가 넘어가는 상황이 발생하더라구요.이런 경우에 drop을 하는게 도움이 될지, 아니면 drop하지 않고 모든 범주형 변수를 인코딩할지 구분이 어렵습니다.
-
미해결빅데이터분석기사 실기대비 (R 활용)
작업형1,2 관련 질문
안녕하세요! :) 저번에 이어 또 질문이 생겨 이렇게 글을 남기게 되었습니다. 작업형1번 문제를 풀다보니 막히는 부분이 생겼는데 도저히 어떤식으로 접근을 해야할 지 감이 안잡혀 질문드리고 싶습니다. 먼저 문제입니다. https://www.kaggle.com/vasilis73/sales-train <sales_train데이터 세트에서 가장 많이 판매된 상품(item_id) 3가지와 전체 상품에 대하여 상품 판매가(item_price) 표준편차 차이를 구하시오> 가장 높은 상품 판매가격 3가지라면 내림차순 정렬해서 풀 수 있을 것 같은데 item_id의 빈도? 를 구해야할 것 같다는 생각이 드는데요, 어떤 식으로 풀어나가야할 지 풀이 부탁드리겠습니다! 마지막으로 작업형 2에 관한 질문입니다 작업형2에서 위의 데이터를 다룰때 chr형 데이터를 전부 범주형태(factor)로 바꿔줘야 하는건지 궁금합니다. 종속변수인 Churn만 팩터형으로 바꿔주고 나머지는 안바꾸고 진행을 하였는데 모델링 코드를 짜고 실행을 시키니 에러가 뜨는것도 아니고 무한 모래시계가 뜨면서 멈춰버립니다... chr형을 안바꿔줘서 그런걸까요? # model1 <- train(Churn ~., data = train, method = 'glm') 꼭 바꿔줘야하는 상황과 안바꿔줘도 되는 상황 같은 게 있는지 궁금합니다.
-
미해결빅데이터분석기사 실기대비 (R 활용)
작업형 2번 관련 (result, auc등)
안녕하세요 올려주신 강의 도움 많이 되고 있습니다! 혼자 공부를 하다보니 몇가지 궁금한 점이 생겼는데요, 첫번째로, 한국데이터산업진흥원에서 발표한 실기 환경 체험하기에서는 write.csv에서 row.names = F를 썼는데요. 강의에서는 안쓰셨는데 안써도 상관없는건지 아니면 적어줘야하는건지 궁금합니다. 두번째로, 강의에서는 result <- data.frame(Y_N = p3[,2]) 이렇게 코딩하셨는데 아래 사진과 같이 custid(작업형2 예제문제기준 고객2482명)도 출력을 하려면 어떻게 해야 좋을지 답변주시면 감사하겠습니다 마지막으로, 작업형2의 예제질문입니다. 학습데이터(train)를 가지고 모델링을 진행 후 p3까지 구한후에 auc(test$gender, p3[,2]) 했을 땐 0.6 정도 나왔는데 전체데이터(df)를 가지고 모델링을 진행하고 X_test로 p3까지 구한 후 auc(test$gender, p3[,2])를 실행하면 값이 1.6정도 나옵니다. 모델의 성능이 1을 넘어버리는데 어디가 잘못된걸까요? model1 <- train(gender~. , data = df, method = 'glm') model2 <- train(gender~. , data = df, method = 'rpart') p1 <- predict(model1, X_test, type = 'prob') p2 <- predict(model2, X_test, type = 'prob') p3 <- (p1 + p2)/2 auc(test$gender, p3[,2]) 질문이 좀 많은데 양해를 구하고 답변 부탁드립니다.