안녕하세요! :)
저번에 이어 또 질문이 생겨 이렇게 글을 남기게 되었습니다.
작업형1번 문제를 풀다보니 막히는 부분이 생겼는데 도저히 어떤식으로 접근을 해야할 지 감이 안잡혀 질문드리고 싶습니다.
먼저 문제입니다.
https://www.kaggle.com/vasilis73/sales-train
<sales_train데이터 세트에서 가장 많이 판매된 상품(item_id) 3가지와 전체 상품에 대하여 상품 판매가(item_price) 표준편차 차이를 구하시오>
가장 높은 상품 판매가격 3가지라면 내림차순 정렬해서 풀 수 있을 것 같은데 item_id의 빈도? 를 구해야할 것 같다는 생각이 드는데요,
어떤 식으로 풀어나가야할 지 풀이 부탁드리겠습니다!
마지막으로 작업형 2에 관한 질문입니다
작업형2에서 위의 데이터를 다룰때 chr형 데이터를 전부 범주형태(factor)로 바꿔줘야 하는건지 궁금합니다.
종속변수인 Churn만 팩터형으로 바꿔주고 나머지는 안바꾸고 진행을 하였는데 모델링 코드를 짜고 실행을 시키니 에러가 뜨는것도 아니고 무한 모래시계가 뜨면서 멈춰버립니다... chr형을 안바꿔줘서 그런걸까요?
# model1 <- train(Churn ~., data = train, method = 'glm')
꼭 바꿔줘야하는 상황과 안바꿔줘도 되는 상황 같은 게 있는지 궁금합니다.