작성
·
439
0
안녕하세요.
mssql에서 벌크 백업한 binary 파일을 spark를 이용하여 parquet, csv 등 파일 변환이 가능한지.. 질문 드립니다.
감사합니다.
답변 1
1
안녕하십니까,
mssql bulk 백업이 mssql datafile 백업 또는 별도의 mssql 유틸리티로만 인식될 수 있는 파일 형태라면 spark로 바로 로딩할 수는 없습니다.
mssql에서 개별 테이블 들을 csv나 (가능하다면) 특정 application을 사용해서 parquet으로 만들어 주신 다음에 이걸 spark로 로딩 하셔야 할 것 같습니다.
감사합니다.
네, 맞습니다.
Spark에서 mssql 데이터파일을 인지할 수 있는 엔진이 필요한데, 이게 없기 때문에 불가능할 겁니다.
그리고 csv 파일을 spark에서 읽어서 다시 parquet 파일로 만드시면 가능합니다.
spark = SparkSession .builder .appName("How to read CSV file to Parquet") .getOrCreate()
# read csv
data_df = spark.read.option("inferSchema", "true").option("header", "true").csv('csv input_path')
# write parquet
data_df.write.format("parquet").mode("overwrite").save('parquet output_path')
답변 감사드립니다.
mssql 엔진이 있어야 spark로 연결하여 직접 로딩 가능하다는 말씀이신거죠 ~?
그렇다면 , csv 파일을 가져올 수 있다는 가정하에 spark에서 parquet 으로 만드는건 가능하다는 건가요 ?