질문 & 답변 - 인프런 | 커뮤니티

질문 게시판

고민있어요

스터디

팀 프로젝트

멘토링 후기

수강평

With us

인프런 피드

블로그

인프런 소개

공지사항

랠릿

대시보드

강의

로드맵

멘토링

더보기

묻고 답해요

150만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

순위 정보를
불러오고 있어요

해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

Replica Placement 질문입니다.

4분 50초 경" rack 전체가 뻗는것 보다 노드 하나 뻗는 확률이 더 올라간다? "라고 해주셨는데 잘 이해가 가지 않아서 질문드립니다.제가 이해한 바로는결국 신뢰성과 가용성 둘중 하나는 포기를 해야하고 그 둘 사이의 타협적 결정을 잘 해야 한다.가용성을 위해 단일 노드에 모든 복제본을 둘 경우 속도는 빠르지만 신뢰성 보장이 어렵고 장애 대응이 불가능 하다.신뢰성을 위해 복제본을 모든 데이터 센터 혹은 많은 가상 노드에 복제해둘 경우 신뢰성은 극한으로 올라가지만 데이터를 가져오는데 시간이 너무 오래결려 가용성이 떨어진다.그래서 그 둘 사이의 타협점을 구한 것이 Replica Placement다.위처럼 이해하면 될까요??

최지혁 · 2024.02.15 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

1

조회수

216

답변

2
미해결
스파크 머신러닝 완벽 가이드 - Part 1

MLOps 관련 MLFLow 및 Databricks 모델 서빙

안녕하세요 강사님, 좋은 강의 감사드립니다! 요즘 MLOps 관련 model deploy 및 serving 하는 것이 더 중요해지고 있는데 관련 강의를 준비하고 계신지 궁금합니다. 처음에는 이 강의에 추가로 강의를 올리시는 것도 계획 중이신지 여쭙고 싶었으나, 해당 강의와 model을 deploy하고 serving 하는 것은 강의의 범위에서 벗어나는 것도 같네요 ㅎㅎ Databricks에서도 MLFlow 이용해서 experiment를 하는 것이 꽤 잘 되어 있는 것 같던데 혹시라도 관련 강의 준비하고 계시다면 너무 기대됩니다!

oleole · 2024.02.14 · 스파크 머신러닝 완벽 가이드 - Part 1

투표점수

0

조회수

277

답변

1
미해결
스파크 머신러닝 완벽 가이드 - Part 1

train파일 업로드 중에 해당 경로가 없다고 뜹니다

cannot access '/FileStore': No such file or directory

김영진 · 2024.01.26 · 스파크 머신러닝 완벽 가이드 - Part 1

투표점수

0

조회수

270

답변

2
해결됨
빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

수업에 쓰인 코드 관련

안녕하세요. 강사님.좋은 강의 이번에도 감사드려요~현재 우분투로 이미지를 만들고 있는데명령어를 타이핑 시 종종 오타가 있습니다.그래서 명령어를 혹시 모아둔 곳이 있는지 질문드립니니다. 아래에 어떤 분께서 비슷한 질문을 남기셔서프로모션도 봤는데 ,전자책의 위치현재 code lab 의 코드들 위치프로모션의 구체적인 방법등이 잘 이해가 되지 않습니다.감사합니다.

Jason.king · 2024.01.25 · 빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

투표점수

0

조회수

333

답변

2
미해결
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

스파크 아키텍쳐 관련 문의 드립니다.

스파크 아키텍쳐 부분을 보는데 Yarn Runtime Architecture 에서 4.Negotiate resources 이후 5과정을 갈때 속해 있던 Slave Node 에서 실행되는게 아니라 굳이 다른 Slave Node 로 가서 실행을 하는데 이유가 있나요? 4.Negotiate resources 과정을 리소스 분배? 라우팅 같은 개념으로 이해를 하면 될까요?

backboss · 2024.01.25 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

1

조회수

287

답변

2
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

강의 연장 문의 드립니다.

안녕하세요. 강사님. 훌륭한 강의 잘 들었습니다. (금일 완강했어요 -_- v)강의를 듣다가 좋아서 클러스터 구축도 같이 신청하였습니다. 회사일을 병행하다 보니 오늘 막 강의를 다 들었는데 마지막 ( ELK /EFK/Docker 관련 등등) 은 제가 하는 일이라서 쉽게 들었습니다. 그런데 데이터 pyspark 같은 것은 여전히 생소하기만 합니다. 그래서 강의 연장을 부탁드립니다. 좋은 강의라 몇번을 더 보면서 레퍼런스 삼으려고 합니다. 부탁드립니다. 그간 정말 재미있었어요. 이제 클러스터도 보러 가려구요. 감사합니다.

Jason.king · 2024.01.20 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

285

답변

2
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

섹션2 실습 1에서 질문 있습니다.

안녕하세요, 강사님.좋은 강의 올려주셔서 감사합니다. 보면서 열심히 따라하고 있습니다. 저는 비전공자라서 처음 들을 때는 물음표의 연속이었지만 신기하게 두번째 들을 때는 이해가 되고 점점 따라하기 수월해지고 있습니다.다름이 아니라 두가지 질문이 있어서 문의드립니다.1. ec2 linux/Ubuntu를 ssh로 접속한 상태에서 크롬페이지를 새창으로 뿅 띄우는 것이 안됩니다 ㅠㅠ처음에 스크립트를 실행했을 때는 아래와 같은 에러 때문에 실행이 안되었습니다.AttributeError: 'str' object has no attribute 'capabilities'여러가지 찾아보니 이유는 셀리니움이 업데이트 되어서 이제 크롬 드라이버를 다운받지 않아도 된다고 하더라구요. 그래서 아래와 같이 추가하고 경로를 비우고 실행하면 된다고 합니다.chrome_options = webdriver.ChromeOptions()driver = webdriver.Chrome()그랬더니 에러를 뿜지 않고 그냥 스크립트가 종료되어 버리는 것 같아요. 다만 sudo를 이용해서 스크립트를 실행하면 아래와 같은 에러가 나타납니다. =====ubuntu@ip-172-31-43-47:~/bigdata$ sudo python3 5_chrome.pyTraceback (most recent call last): File "/home/ubuntu/bigdata/5_chrome.py", line 4, in <module> driver = webdriver.Chrome() File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/chrome/webdriver.py", line 45, in init super().__init__( File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/chromium/webdriver.py", line 61, in init super().__init__(command_executor=executor, options=options) File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/webdriver.py", line 209, in init self.start_session(capabilities) File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/webdriver.py", line 293, in start_session response = self.execute(Command.NEW_SESSION, caps)["value"] File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/webdriver.py", line 348, in execute self.error_handler.check_response(response) File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/errorhandler.py", line 229, in check_response raise exception_class(message, screen, stacktrace)selenium.common.exceptions.SessionNotCreatedException: Message: session not created: Chrome failed to start: exited normally. (session not created: DevToolsActivePort file doesn't exist) (The process started from chrome location /usr/bin/google-chrome is no longer running, so ChromeDriver is assuming that Chrome has crashed.)Stacktrace:#0 0x562ff172ef83 <unknown>#1 0x562ff13e7cf7 <unknown>#2 0x562ff141f60e <unknown>#3 0x562ff141c26e <unknown>#4 0x562ff146c80c <unknown>#5 0x562ff1460e53 <unknown>#6 0x562ff1428dd4 <unknown>#7 0x562ff142a1de <unknown>#8 0x562ff16f3531 <unknown>#9 0x562ff16f7455 <unknown>#10 0x562ff16dff55 <unknown>#11 0x562ff16f80ef <unknown>#12 0x562ff16c399f <unknown>#13 0x562ff171c008 <unknown>#14 0x562ff171c1d7 <unknown>#15 0x562ff172e124 <unknown>#16 0x7fc769a94ac3 <unknown>====혹시나 해서 linux 인스턴스에서 다시 수행해보았지만 linux에서는 sudo 일 때와 아닐 때 모두 에러 메시지는 똑같네요... ㅠㅠ 뒤에 실습 2에서 linkedIn을 제어할 때에도 새롭게 창이 뜨는 것으로 보이니 해결하고 넘어가야 할텐데 답을 찾을 수가 없습니다 ㅠㅠ무엇이 문제일까요? 도와주세요 선생님 ㅠㅠ 2."https://docs.python.org/3.5/library/"페이지를 크롤링해오는 스크립트가 에러 없이 일부만 실행되는 현상이 있는데 이유를 모르겠습니다. 스크립트를 실행하면 딱 이렇게 pygments.css 까지만 크롤링이 되고 그 다음 단계인 /library/intro.html 아래 페이지 정보는 크롤링되지 않은 상태에서 작업이 끝납니다.======================(venv) [ec2-user@ip-xxx-xxx bigdata]$ python3 practice1.pydownloaded = https://docs.python.org/3.5/library/analyzed html = https://docs.python.org/3.5/library/downloaded = https://docs.python.org/3.5/_static/pydoctheme.cssdownloaded = https://docs.python.org/3.5/_static/pygments.css====================== 몇번이나 공유해주신 코드와 비교해보아도 틀린 부분을 못찾겠네요 ㅠㅠ 스크립트가 에러를 뿜지도 않고 일단 일부 정보라도 가져오는 상태라 더 확인이 어렵습니다 ㅠㅠ혹시 이런 경우에 대해 어떻게 해결하는지 아실까요?새해 복 많이 받으세요!

Hannah Uh · 2024.01.05 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

453

답변

2
미해결
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

3.0에서 추가된 shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 쓰는게 좋을까요?

3.0에서 추가된 merge, shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 효과적일까요? 문서에서는 아쉽게도 각 힌트가 뭘 수행하는 지와 BROADCAST > MERGE > SHUFFLE_HASH > SHUFFLE_REPLICATE_NL 순서로 힌트 우선순위를 정한다는 것만 적혀있네요. spark optimizer가 어떤 기준으로 join 전략을 택하는지도 알려주시면 좋을 것 같아요.

김문수 · 2024.01.02 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

1

조회수

260

답변

1
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

슬라이드 자료

아래와 같은 양식으로 질문을 남겨주세요 🙂수업을 들으시면 이해하기 어려운 부분이 있으면 상세히 질문을 남겨주세요.서로 Tone and Manner 를 지키며, 즐거운 수업 시간을 만들어보아요.잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요 강의를 통해 열심히 공부중인 학생 입니다.혹시 슬라이드 자료를 따로 열람 가능한지 여쭙고 싶습니다. 좋은 강의 잘듣고 공부하고 있습니다. 감사합니다.

pixlo · 2024.01.01 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

232

답변

1
해결됨
빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

강의자료

혹시 강의 자료는 어디서 얻을 수 있을까요? 개인적으로 인프런 강의 구매한 사람 입니다.

Yeonwoo Jung · 2023.12.30 · 빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

투표점수

0

조회수

200

답변

1
해결됨
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

데이터 엔지니터의 현 트렌드가 궁금합니다

안녕하세요완강후 카산드라 db 와 stream join한 강의를 다시 보고 카산드라에 대한 개념에 공부를 하던 와중 데이터 엔지니어의 현 트렌드에 대한 내용이 갑자기 궁금한데 물어볼곳이 없어서 질문을 좀 드려봅니다..제가 생각하기에 현 트렌트가데이터 엔진 프레임워크 : spark스케줄링 및 파이프라인 형성등 : airflow웨어하우스 : prestonosql : mongodbrdb : postgresmessage broker : kafka분석툴 : tableau등등 이정도로 요즘 잘나가는 프로그램들인것 같은데 맞을까요?spark stream을 사용하면서 mongodb 보다 cassandra를 사용하는게 좀더 효율이 좋은가요?개발자도 결국 트렌드에 맞게 공부하는게 자신의 커리어를 잘 쌓는게 아닐까 하는 생각이 요즘 계속 머리속에 맴도네요

준혁 · 2023.12.29 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

1

조회수

397

답변

1
해결됨
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

스칼라강의도 제작하신다고 하셨는데 계획하고 계실까요??

궁금해서 질문올려봅니다

준혁 · 2023.12.23 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

1

조회수

243

답변

2
해결됨
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

pyspark / spark 차이점 질문드립니다.

안녕하세요 선생님 🙂강의 초반부를 듣다가 궁금증이 생겨서 질문드립니다.pyspark의 경우 pandas와 거의 동일한 패키지 함수(? 함수라고 설명하는게 맞는지 모르겠네요..ㅎㅎ) 방식으로 구동되는 것으로 보이는데요.scalar를 기반으로한 spark도 pyspark와 유사하게 패키지의 함수를 사용하나요?스칼라 도큐먼트를 봐도 spark에서는 어떻게 사용하는것인지 감이 안와서 질문드립니다. ㅎㅎ (https://docs.scala-lang.org/ko/tour/tour-of-scala.html)오늘도 행복한 하루되세요!감사합니다.

JP · 2023.12.19 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

1

조회수

966

답변

1
미해결
스파크 머신러닝 완벽 가이드 - Part 1

강의가 재생되지 않음

안녕하세요 본 강의 챕터9 마지막 강의와 챕터10 첫번쨰 강의가 재생되지 않습니다.지금까지 강의 잘 듣고있었는데 해당 부분만 진행이되지 않아 문의드립니다.

묘기 · 2023.12.13 · 스파크 머신러닝 완벽 가이드 - Part 1

투표점수

0

조회수

202

답변

2
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

수강기간 연장 가능할까요?

안녕하세요 ㅎㅎ 수업을 잘 듣고 있습니다. ^^ 직장생활 하면서 듣기가 쉽지 않네요 ㅜㅜ 수강기한이 얼마 남지 않아서 가능하다면 연장이 가능할까요? 감사합니다.

lion2908 · 2023.12.07 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

267

답변

1
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

섹션7] 과제 2번 질문

섹션7] 과제2번 질문있습니다. users1 = [(0, "ALEX"), (1, "BERT"), (2, "CURT"), (3, "DONT")] subs1 = [(0, "Writing"), (0, "Gym"), (1, "Swimming")] userRDD = sc.parallelize(users1) subsRDD = sc.parallelize(subs1) mergedRDD = userRDD.rightOuterJoin(subsRDD) mergedRDD.map(lambda value : value[1][0] + " loves " + value[1][1]) 조인되어서 collect 되었을 때 데이터 구조가 key (leftvalue, rightvalue) 이렇게 반복구조가 되는 것 같은데 답이 ['ALEX loves Writing'] 이것만 나오는 것이 아니라 ['ALEX loves Writing', 'ALEX loves Gym', 'BERT loves Swimming'] 이렇게 나오는 이유를 모르겠습니다. 좋은 강의 잘 듣고 있습니다. 감사합니다. 아래와 같은 양식으로 질문을 남겨주세요 🙂수업을 들으시면 이해하기 어려운 부분이 있으면 상세히 질문을 남겨주세요.서로 Tone and Manner 를 지키며, 즐거운 수업 시간을 만들어보아요.잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.

Jason.king · 2023.11.24 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

1

조회수

354

답변

2
해결됨
빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

QJM의 Split Brain 해결법과 Zookeper의 Split Brain 해결법의 차이에 대한 질문

안녕하세요. 강사님의 강의를 듣는 도중, 질문의 내용과 같이, Zookeper의 Split Brain 방식과 QJM의 Split Brain 방식의 차이가 헷갈려서, 질문 드리게 되었습니다.제가 이해한 바는 다음과 같습니다.먼저, Network File System의 문제점은 네트워크 문제 발생시에 동기화 문제가 발생하는 Split Brain Issue가 발생합니다. 이는, 두개의 Active NameNode가 생기기 때문에, 데이터의 corruption이 발생하기 때문에, 저희는 Quorum Journal Manager방식을 채택한 것입니다. 이때, QJM의 경우에도 Split Brain 이슈가 발생이 가능하나, 자체적으로 해결할 수 있다고 했습니다. 해당 방법을 찾아보니, 충분한 수의 Journal Node가 살아있다면, 데이터의 일관성을 유지하기 위해 다수결 원칙을 적용하여 정상적인 Jouranl Node들 간의 동의를 얻게 된다는 점입니다. 저는 해당 방법을 찾아보며, zookeper와 같은 Consoliation Algorithms 방식을 사용하고 있구나... 생각이 들었습니다. 그러니까 Split Brain 이슈 중 하나인 데이터 충돌이 발생했을 때, 맞지 않는 데이터를 지우고, 다수가 가지고 있는 데이터로 통일한다는 것인가..? 라는 생각이 들었습니다. 그러다가, Final Wrap UP 수업에서, zookeper의 경우 NN을 모니터링하며, 장애발생시 (이를 테면, Split Brain과 같은 이슈), StandBy NameNode를 Active NameNode로 전환하며, 여러 개의 Standby NN이 있을 경우 Leader 투표 기능을 통해, Active NameNode를 선출하는 기능이라고 정리하였습니다. Q1. 시간 순으로 어떻게 되는지가 헷갈립니다. 주키퍼를 통해 상시 모니터링을 하다가, 해당 이슈가 발생할 시, 재빠르게 Active Node로 전환이 되고 나서, 해당 Split Brain 이슈가 발생하며 데이터 충돌이 발생했던 부분을 QJM에서 다수결 원칙을 통해, 올바르지 않은 Journal Node에 있는 데이터는 삭제하며, 데이터의 일관성을 유지한다는 것일까요? Q2. 만약에 Active Node로 전환이 이루어졌는데도, 해당 문제가 지속적으로 해결이 되지 못해서, QJM에서 다수결 원칙을 통해 해결을 못하는 상황이 발생하면, 심각한 문제상황이라고 볼 수 있는건가요? 잘못 설계해서, 삭제된 데이터는 복구를 할 수 없는건가요? Q3. Network File System의 경우 hdfs-site.xml에 fencing을 추가함으로써, Split Brain issue를 해결할 수 있다고 공부할 수 있었습니다. 그런데, 상기 방법이 있는데도 불구하고, QJM 방식을 사용하는 이유는, 일정정도 해당 문제가 발생할 시, 데이터의 정합성을 보장해준다는 부분 때문에 차용하는 것일까요?

minsubrother · 2023.11.20 · 빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

투표점수

1

조회수

292

답변

1
미해결
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

spark_kafka 실행시 java.lang.IllegalArgumentException 에러

Streaming에서 Kafka 데이타 추출하기 부분 진행하고 있는데요 spark_kafka.py 실행시 에러가 납니다. ㅠ root@81599cbd6b8f:/opt/bitnami/spark/work# spark-submit --master spark://spark:7077 --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.4.1 spark_kafka.py ..... --------------------------------------------------------------------- | | modules || artifacts | | conf | number| search|dwnlded|evicted|| number|dwnlded| --------------------------------------------------------------------- | default | 11 | 11 | 11 | 0 || 11 | 11 | --------------------------------------------------------------------- :: retrieving :: org.apache.spark#spark-submit-parent-8f3a0b4c-b23d-4dfa-b9b0-8649735433fc confs: [default] 11 artifacts copied, 0 already retrieved (56445kB/64ms) 23/11/18 23:57:21 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 23/11/18 23:57:24 WARN ResolveWriteToStream: spark.sql.adaptive.enabled is not supported in streaming DataFrames/Datasets and will be disabled. 23/11/18 23:57:24 WARN OffsetSeqMetadata: Updating the value of conf 'spark.sql.shuffle.partitions' in current session from '3' to '200'. 23/11/18 23:57:24 ERROR MicroBatchExecution: Query [id = 40288f62-daae-4e69-80db-ff6f83156268, runId = 535853f9-9153-44be-8eca-19f75ee8b4ea] terminated with error java.lang.IllegalArgumentException: Expected e.g. {"topicA":{"0":23,"1":-1},"topicB":{"0":-2}}, got {"logOffset":2} at org.apache.spark.sql.kafka010.JsonUtils$.partitionOffsets(JsonUtils.scala:75) at org.apache.spark.sql.kafka010.KafkaMicroBatchStream.deserializeOffset(KafkaMicroBatchStream.scala:216) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$getStartOffset$1(MicroBatchExecution.scala:454) at scala.Option.map(Option.scala:230) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.getStartOffset(MicroBatchExecution.scala:454) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$constructNextBatch$4(MicroBatchExecution.scala:489) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken(ProgressReporter.scala:411) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken$(ProgressReporter.scala:409) at org.apache.spark.sql.execution.streaming.StreamExecution.reportTimeTaken(StreamExecution.scala:67) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$constructNextBatch$2(MicroBatchExecution.scala:488) at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:286) at scala.collection.Iterator.foreach(Iterator.scala:943) at scala.collection.Iterator.foreach$(Iterator.scala:943) at scala.collection.AbstractIterator.foreach(Iterator.scala:1431) at scala.collection.IterableLike.foreach(IterableLike.scala:74) at scala.collection.IterableLike.foreach$(IterableLike.scala:73) at scala.collection.AbstractIterable.foreach(Iterable.scala:56) at scala.collection.TraversableLike.map(TraversableLike.scala:286) at scala.collection.TraversableLike.map$(TraversableLike.scala:279) at scala.collection.AbstractTraversable.map(Traversable.scala:108) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$constructNextBatch$1(MicroBatchExecution.scala:477) at scala.runtime.java8.JFunction0$mcZ$sp.apply(JFunction0$mcZ$sp.java:23) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.withProgressLocked(MicroBatchExecution.scala:802) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.constructNextBatch(MicroBatchExecution.scala:473) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runActivatedStream$2(MicroBatchExecution.scala:266) at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken(ProgressReporter.scala:411) at org.apache.spark.sql.execution.streaming.ProgressReporter.reportTimeTaken$(ProgressReporter.scala:409) at org.apache.spark.sql.execution.streaming.StreamExecution.reportTimeTaken(StreamExecution.scala:67) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.$anonfun$runActivatedStream$1(MicroBatchExecution.scala:247) at org.apache.spark.sql.execution.streaming.ProcessingTimeExecutor.execute(TriggerExecutor.scala:67) at org.apache.spark.sql.execution.streaming.MicroBatchExecution.runActivatedStream(MicroBatchExecution.scala:237) at org.apache.spark.sql.execution.streaming.StreamExecution.$anonfun$runStream$1(StreamExecution.scala:306) at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23) at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:827) at org.apache.spark.sql.execution.streaming.StreamExecution.org$apache$spark$sql$execution$streaming$StreamExecution$$runStream(StreamExecution.scala:284) at org.apache.spark.sql.execution.streaming.StreamExecution$$anon$1.run(StreamExecution.scala:207) Traceback (most recent call last): File "/opt/bitnami/spark/work/spark_kafka.py", line 38, in <module> query.awaitTermination() File "/opt/bitnami/spark/python/lib/pyspark.zip/pyspark/sql/streaming/query.py", line 201, in awaitTermination File "/opt/bitnami/spark/python/lib/py4j-0.10.9.7-src.zip/py4j/java_gateway.py", line 1322, in __call__ File "/opt/bitnami/spark/python/lib/pyspark.zip/pyspark/errors/exceptions/captured.py", line 175, in deco pyspark.errors.exceptions.captured.StreamingQueryException: [STREAM_FAILED] Query [id = 40288f62-daae-4e69-80db-ff6f83156268, runId = 535853f9-9153-44be-8eca-19f75ee8b4ea] terminated with exception: Expected e.g. {"topicA":{"0":23,"1":-1},"topicB":{"0":-2}}, got {"logOffset":2}

Oh Suhyeon · 2023.11.19 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

1

조회수

911

답변

9
해결됨
빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

HDFS Federation 질문있습니다!

빠짐없이 하나씩 하나씩 가르쳐주시니 저같은 레벨은 계속 반복해서 보면 큰 도움이될 것 같습니다!강의 나오는 개념중에 HDFS Fedeartion이 여러개 네임스페이스? 네임서비스를 지원하다고 하는데 코드랩에서는 일단 하나만 써서 진행하시는 것 같은데.. 혹시 2개 이상하려고 하면 어떻게 설정해야할까요.. 혹시 빅데이터 직무 면접때 공격으로 나올것같아서요..ㅋㅋ

breeze90 · 2023.11.17 · 빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

투표점수

2

조회수

241

답변

2
해결됨
빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

안녕하세요, 성능평가에 대해 궁금합니다.

제가 강의에서 놓친 부분이 있는지 모르겠지만,제가 만든 빅데이터 클러스터가 잘 만들었는지 아닌지 궁금할 때가 있는데요 ! 제가 만든 클러스터의 성능평가에 대한 부분은 어떻게 진행해야 하는지 궁금합니다.

grgwde23 · 2023.11.16 · 빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

투표점수

1

조회수

240

답변

2

인기 태그

주간 인기글

순위 정보를
불러오고 있어요