인프런 커뮤니티 질문&답변

lsb9938님의 프로필 이미지
lsb9938

작성한 질문수

스파크 머신러닝 완벽 가이드 - Part 1

캐글 Instacart 데이터 세트를 Spark DataFrame으로 변환 및 SQL 적용을 위한 테이블 변환

mac os ) zip 파일 dataframe 오류

작성

·

532

0

안녕하세요 :-) 수업 잘 듣고 있습니다.

다름이 아니라 맥os 환경에서 보여지는 파일 형태가 달라서 문의드립니다.

스크린샷 2023-03-02 오후 12.11.40.png맥 os 환경에서는, order_products_prior.csv.zip 파일을 풀고나면 하나의 csv파일만 나옵니다. 강의 동영상에서 처럼 압축을 푼 뒤에 여러가지의 파일과 폴더가 묶여 나오지 않습니다. 따라서 zip 파일 안에서 csv 파일을 다시 압축을 하고 싶지만 정상적으로 되지 않습니다.

제가 혹시나 해서 압축을 푼 뒤에 다시 csv 파일을 압축해 보았지만 결과는 다른 수강자님께서 겪고 있으셨던 화면과 동일했습니다. (zip 파일안에 다양한 파일이 존재한다는 오류)

혹시 제가 잘못하고 있던 것이라면 첨언 부탁드립니다

감사합니다.

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

강의 영상에서도 order_products_prior.csv.zip을 압축 해제 하면 여러개의 파일과 폴더가 묶여서 나오지 않습니다만,,,

강의 영상에서 order_product_prior.zip을 압축 해제 한 디렉토리에 order_product_prior.csv와 order_product_prior.zip이 있는 것은 제가 order_product_prior.csv을 압축해서 올린 것입니다.

order_products_prior.csv.zip을 압축해제 하면 MACOSX 디렉토리와 order_products__prior.csv 파일이 압축해제 되어서 나옵니다.

이 csv파일을 그대로 올리면 databricks에서 올라가지 않으니 csv 파일을 압축해서 databricks에 올려야 합니다.

order_products_prior.csv.zip을 압축 해제 하면 하나의 csv 파일 order_products__prior.csv 나오는게 정상입니다.

안되시면 다시 글 부탁드립니다.

감사합니다.

lsb9938님의 프로필 이미지
lsb9938
질문자

안녕하세요?

답변 감사합니다.
이전에 "order_products_prior.csv.zip 파일을 풀고나면 하나의 csv파일만 나옵니다. 강의 동영상에서 처럼 압축을 푼 뒤에 여러가지의 파일과 폴더가 묶여 나오지 않습니다." 이 말이 선생님께서 말씀해주신 "order_products_prior.csv.zip을 압축해제 하면 MACOSX 디렉토리와 order_products__prior.csv 파일이 압축해제 되어서 나옵니다." 가 안된다는 뜻이었습니다 ㅎㅎ

잘 전달하지 못한 제 불찰이 있었네요

현재 다시 압축을 풀어보았지만 csv 파일만 나오고 MACOSX 디렉토리는 나오지 않습니다.

맥에서 압축을 푼 csv 파일을 다시 압축해서 진행해보았지만 코드 오류로 나옵니다..🥲

권 철민님의 프로필 이미지
권 철민
지식공유자

불찰이라뇨, 그러실수도 있습니다 ^^

그런데, MACOSX 디렉토리는 사용하지 않습니다. 그래서 신경쓰실 필요 없습니다(아마 windows만 나올 수 있는 디렉토리 일 수 있습니다)

중요한 것은 order_products__prior.csv 파일의 용량이 커서 databricks에 upload가 안됩니다. 그래서 order_products__prior.csv 이 텍스트 파일이니까 해당 파일을 다시 zip 파일로 압축해서 용량을 줄여서 databricks로 로딩을 해야 한다는게 강의 내용입니다.

강의 내용을 전체적인 맥락에서 다시 한번 보셨으면 합니다.

그런데 맥에서 압축을 푼 csv 파일을 다시 압축해서 코드 오류가 난다는게 어느 코드에서 어떻게 오류가 난다는 건지요?

lsb9938님의 프로필 이미지
lsb9938
질문자

image처음부터 새로 데이터를 다운받고 압축해제한 파일들을 data폴더에 넣었습니다

order_products_prior.csv를 해제했을 때 300MG가 넘어있는 상태였기 때문에 order_products_prior2.csv.zip으로 명명한 압축 파일을 생성했습니다 (164.7MB)

image이후 databricks에 이 모든 데이터를 넣어서 다시 코드를 실행했습니다. 현재 위의 코드에서 오류가 발생하였고 이 코드 이전에 있던 코드들에서는 문제가 없었습니다

권 철민님의 프로필 이미지
권 철민
지식공유자

오류 메시지를 자세히 보시면 압축 파일내에 여러개의 파일이 있어서 오류라고 되어 있습니다. __MACOSX 디렉토리까지 함께 압축되어 있습니다.

다시한번 csv 파일만 압축해서 올려 보시기 바랍니다.

lsb9938님의 프로필 이미지
lsb9938

작성한 질문수

질문하기