해결된 질문
작성
·
45
·
수정됨
0
안녕하세요. 수업 다 듣고 분석해보려고 합니다.
행 갯수가 수백만개 (컬럼은 수십개)인 데이터를 Tableau Prep에 넣어서 전처리를 하려고 하는데요. 데이터 로드부터 좀 버거워하는 느낌이 드네요.
업로드 할 데이터는 행 갯수가 천만행은 훨씬 넘을 것 같고, Join 및 계산식 등의 전처리가 필요합니다.
이 정도 크기여도 Prep에서 전처리하고 Desktop에서 분석하고 대시보드 만드는데 문제 없을까요?
제 PC가 성능이 다소 떨어지는 면도 있기는 하나, 동일 데이터로 다른 BI에서는 분석이 됐었습니다.
PC 교체를 염두에 두고 있는데, Mac 기준으로 Pro 정도 되어야 하는 건가요? 아니면 그 이하에서도 무리없이 가능한가요?
답변 2
0
안녕하세요, 최정민입니다
긴 답글을 썼는데 날아가버렸습니다 ㅎㅎ;;
수백만개의 행을 가진 데이터셋을 태블로 프렙에 넣으면 저 또한 동일하게 버벅거리는 현상을 겪습니다. 제가 대용량 데이터를 취급할 때 프렙 말고 다른 도구를 사용하는 이유입니다. 저는 Mac Pro M3 쓰고 있는데도 이런 현상이 나타납니다. 아마 다른 기기들도 저 정도 규모이면, 비슷하게 버벅거리는 현상이 있지 않을까 싶습니다
계산식 등은 데이터셋을 구성하는 단계에서 모두 처리하고 태블로로 불러들이십시오. 태블로는 가급적 차트를 그려내는 작업에만 리소스를 할당할 수 있도록 계산 등은 미리 처리하시는게 좋다는 점 말씀드립니다
천만행이 넘는 데이터 원본을 태블로로 불러들이는 것은 그렇게 추천하지 않습니다. 어떤식으로든 돌아는 갈 수 있는데, 너무 느려지는 위험을 감수하셔야할 것입니다. 어떻게 group by를 해서 row의 개수를 줄일지 많은 고민이 필요합니다 ㅠㅠ
구체적 상황을 몰라서 원리 중심으로만 남겼습니다. 혹시 진행 중에 더 궁금하신 부분은 상황과 함께 말씀해주시면 저도 더 생각해보겠습니다!
말씀하신 태블로 프렙 (모든 전처리) --> 태블로 데스크탑으로 이어지는 과정이 정석 맞습니다. 태블로 프렙에서는 전처리 결과 아웃풋 데이터셋 뽑아내실 때 hyper 포맷으로 하시면 좋습니다
표현하고자 하는 차트를 구체적으로 생각하시고, 그 차트를 그리는데 문제 없는 수준까지 데이터 원본을 group by 하시는 것을 권해드립니다. 데이터 용량이 크면 온라인 상에 올렸을 때 버벅거림 이슈가 있을 확률이 높습니다 (물론 데이터 용량이 유일한 이유는 아닙니다)
대용량의 데이터를 취급하는 경우 저는 데이터셋을 어떻게 간소하게 구성할 수 있을지에 대한 답을 찾는 것이 가장 중요한 요소라고 보고 있습니다. 목표로 하는 결과물이 어떤 것인지 구체적으로 그려보시고, 그에 맞게 데이터셋을 가볍게 만드는 방안을 찾아보시면 좋겠습니다!
0
안녕하세요, 인프런 AI 인턴입니다. meatfoodie님께서 질문하신 내용은 대용량 데이터의 태블로 전처리 및 분석 가능성과 관련이 있습니다. 태블로는 일반적으로 대용량 데이터를 처리할 수 있는 강력한 기능을 제공하지만, 중요한 것은 시스템의 성능과 설정입니다.
태블로 Prep과 태블로 Desktop으로 수백만 행의 데이터를 전처리하고 분석할 수 있지만, 다음과 같은 몇 가지 사항을 고려해야 합니다:
시스템 성능: 데이터 처리가 원활하게 이루어지려면 CPU, 메모리, SSD 등의 하드웨어가 중요합니다. MacBook Pro 이상을 추천합니다만, iMac이나 고성능의 MacBook Air에서도 메모리와 저장 장치가 충분하다면 가능할 수 있습니다. 데이터 처리 시 속도와 안정성을 위해 SSD를 사용하시길 권장합니다.
데이터 최적화: 데이터를 전처리할 때, 불필요한 행과 열을 미리 정리하여 데이터의 크기를 줄일 수 있습니다. 데이터 추출을 사용하여 필요한 부분만 가져오도록 하세요.
태블로 Prep의 처리 능력: 태블로 Prep은 많은 줄의 데이터를 병렬 처리할 수 있는 구조로 설계되어 있으니, 데이터의 필터링, 정제 및 집계를 통해 데이터의 크기와 복잡성을 줄여보세요.
추출 사용: 태블로 Desktop에서는 직접 연결(Live)보다는 추출(Extract) 방식으로 데이터를 다루게 되면 성능 향상에 도움이 됩니다.
관련 질문과 답변으로는 태블로 데스크탑에서 대용량데이터연결 문의드립니다를 참고하실 수 있습니다. 이 답변에서는 대용량 데이터의 효율적인 처리 방법과 데이터 전처리의 중요성을 설명하고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
태블로 Prep에서 전처리 (변환, Join, 계산식 등) 하고 Desktop에서 분석하려고 했었는데 여의치 않은가 보네요.
실거래가 데이터인데 전체 연도를 합쳐서 여러 차트를 그려보려고 합니다. (Line, Map 등)
너무 느리지 않는 방법은.. 어떻게 하는게 좋을까요?
그리고 데이터 크기가 큰 경우 대시보드 온라인에 올렸을 때 조회하는데 지연되나요?