인프런 커뮤니티 질문&답변

라티님의 프로필 이미지
라티

작성한 질문수

빅데이터분석기사 실기대비 (R 활용)

작업형1,2 관련 질문

작성

·

170

0

안녕하세요! :)
저번에 이어 또 질문이 생겨 이렇게 글을 남기게 되었습니다.
 
작업형1번 문제를 풀다보니 막히는 부분이 생겼는데 도저히 어떤식으로 접근을 해야할 지 감이 안잡혀 질문드리고 싶습니다.
 
먼저 문제입니다.
 
https://www.kaggle.com/vasilis73/sales-train
 
<sales_train데이터 세트에서 가장 많이 판매된 상품(item_id) 3가지와 전체 상품에 대하여 상품 판매가(item_price) 표준편차 차이를 구하시오>
 
가장 높은 상품 판매가격 3가지라면 내림차순 정렬해서 풀 수 있을 것 같은데 item_id의 빈도? 를 구해야할 것 같다는 생각이 드는데요,
어떤 식으로 풀어나가야할 지 풀이 부탁드리겠습니다!
 
 
 
마지막으로 작업형 2에 관한 질문입니다
 
 
작업형2에서 위의 데이터를 다룰때 chr형 데이터를 전부 범주형태(factor)로 바꿔줘야 하는건지 궁금합니다.
 
 
종속변수인 Churn만 팩터형으로 바꿔주고 나머지는 안바꾸고 진행을 하였는데 모델링 코드를 짜고 실행을 시키니 에러가 뜨는것도 아니고 무한 모래시계가 뜨면서 멈춰버립니다... chr형을 안바꿔줘서 그런걸까요?
 
# model1 <- train(Churn ~., data = train, method = 'glm')
 
꼭 바꿔줘야하는 상황과 안바꿔줘도 되는 상황 같은 게 있는지 궁금합니다.

 

답변 1

2

companionclub님의 프로필 이미지
companionclub
지식공유자

안녕하세요.

 

1번의 경우

df %>% group_by(item_id) %>% summarize(n = n())

위의 코드를 사용하시면 item_id별로 빈도를 계산하실 수 있습니다. 

2번의 경우

반드시 팩터형으로 변환해줘야 합니다.

문자형은 일반적으로 연산이 불가능하기 때문에 팩터형으로 변환해주면

R에서 자동적으로 One Hot Encoding이 되어서 연산을 가능하게 합니다.

라티님의 프로필 이미지
라티
질문자

답변 감사합니다! 속이 시원하네요~

라티님의 프로필 이미지
라티

작성한 질문수

질문하기