묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
venv 환경 패키지 설치 방법 문의
requests 패키지를 설치하려 하는데 안됩니다.혹시 venv 환경에서 패키지 설치하는 방법은 좀 다른가요? (venv2023) ubuntu@ip-172-31-12-30:~/2023_BIGDATA$ sudo pip install requests Requirement already satisfied: requests in /usr/local/lib/python3.10/dist-packages (2.31.0)Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.10/dist-packages (from requests) (3.3.2)Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests) (3.6)Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests) (2.2.1)Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests) (2024.2.2)WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
docker 설치 이후에 터미널 여는 부분에서 막혔습니다
1:40 쯤 터미널 열어서 하시는데터미널 탭이 안보입니다.어떻게 해야하나요?윈도우 운영체제 입니다
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
가상머신 설치부터 안됩니다.
안녕하세요Jupyter terminal 오픈하고, crawling 실습하기 위한 준비부터 문제가 발생했어요 ㅜ폴더까지 생성을 했는데, virtualenv 활성화하기 위해 source이라는 명령어가 실행이 되지 않습니다. jupyter notebook workspace도 실행되지 않고...vim 명령어도 인식 하지 못합니다. 빠른 속도에 추가 설명이 없어서, 어디서 어떻게 실행을 하는지 제가 이해하지 못한것 같습니다. visual studio code에서도 실행을 해봤는데, 같은 부분에 계속 예러가 납니다. 도와주세요. 제가 어떻게 하면 되나요?
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.
안녕하세요? 강의 자료로 주신 docker-compose 파일을 바탕으로 실습을 하고 있습니다. 프로그램을 실행할 때 마다 app-<timestamp>-<executor_id> 형식의 폴더가 docker-compose.yml가 위치한 곳과 같은 곳에 생기는데, 저는 spark-events 내부에만 저장하고 싶은데 어떤 설정을 해야 하는지 잘 모르겠습니다... spark-defaults.confspark.eventLog.enabled true spark.eventLog.dir file:/tmp/spark-events spark.history.fs.logDirectory file:/tmp/spark-events 강의 자료에 나온 docker-compose.yml 중 spark의 volumes와 enviroment 부분 volumes: - .:/opt/bitnami/spark/work - ./spark_conf/log4j2.properties:/opt/bitnami/spark/conf/log4j2.properties - ./spark_conf/spark-defaults.conf:/opt/bitnami/spark/conf/spark-defaults.conf - ./spark-events:/tmp/spark-events environment: - SPARK_MODE=master - SPARK_RPC_AUTHENTICATION_ENABLED=no - SPARK_RPC_ENCRYPTION_ENABLED=no - SPARK_LOCAL_STORAGE_ENCRYPTION_ENABLED=no - SPARK_SSL_ENABLED=no - SPARK_USER=spark spark 프로그램 실행시 app 폴더가 생기는 사진
-
해결됨빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵
섹션 9. Codelab Guidance 재생 오류
안녕하세요. 섹션 9. Godelab Guidance 영상만 재생이 되지 않는데 확인 부탁드립니다. (다른 영상은 재생 잘 됩니다.)감사합니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
pyspark.SparkContext 실행 오류 관련 질문
안녕하세요. 실습 환경 구축 중 다음과 같은 에러 메세지가 발생합니다. 구글링을 통해 Java설치 및 JAVA_HOME 설정을 해줬는데 해결이 되지 않는 것 같습니다. 도움 부탁드립니다ㅠ
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
Replica Placement 질문입니다.
4분 50초 경" rack 전체가 뻗는것 보다 노드 하나 뻗는 확률이 더 올라간다? "라고 해주셨는데 잘 이해가 가지 않아서 질문드립니다.제가 이해한 바로는결국 신뢰성과 가용성 둘중 하나는 포기를 해야하고 그 둘 사이의 타협적 결정을 잘 해야 한다.가용성을 위해 단일 노드에 모든 복제본을 둘 경우 속도는 빠르지만 신뢰성 보장이 어렵고 장애 대응이 불가능 하다.신뢰성을 위해 복제본을 모든 데이터 센터 혹은 많은 가상 노드에 복제해둘 경우 신뢰성은 극한으로 올라가지만 데이터를 가져오는데 시간이 너무 오래결려 가용성이 떨어진다.그래서 그 둘 사이의 타협점을 구한 것이 Replica Placement다.위처럼 이해하면 될까요??
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
MLOps 관련 MLFLow 및 Databricks 모델 서빙
안녕하세요 강사님, 좋은 강의 감사드립니다! 요즘 MLOps 관련 model deploy 및 serving 하는 것이 더 중요해지고 있는데 관련 강의를 준비하고 계신지 궁금합니다. 처음에는 이 강의에 추가로 강의를 올리시는 것도 계획 중이신지 여쭙고 싶었으나, 해당 강의와 model을 deploy하고 serving 하는 것은 강의의 범위에서 벗어나는 것도 같네요 ㅎㅎ Databricks에서도 MLFlow 이용해서 experiment를 하는 것이 꽤 잘 되어 있는 것 같던데 혹시라도 관련 강의 준비하고 계시다면 너무 기대됩니다!
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
train파일 업로드 중에 해당 경로가 없다고 뜹니다
cannot access '/FileStore': No such file or directory
-
해결됨빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵
수업에 쓰인 코드 관련
안녕하세요. 강사님.좋은 강의 이번에도 감사드려요~현재 우분투로 이미지를 만들고 있는데명령어를 타이핑 시 종종 오타가 있습니다.그래서 명령어를 혹시 모아둔 곳이 있는지 질문드립니니다. 아래에 어떤 분께서 비슷한 질문을 남기셔서프로모션도 봤는데 ,전자책의 위치현재 code lab 의 코드들 위치프로모션의 구체적인 방법등이 잘 이해가 되지 않습니다.감사합니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
스파크 아키텍쳐 관련 문의 드립니다.
스파크 아키텍쳐 부분을 보는데 Yarn Runtime Architecture 에서 4.Negotiate resources 이후 5과정을 갈때 속해 있던 Slave Node 에서 실행되는게 아니라 굳이 다른 Slave Node 로 가서 실행을 하는데 이유가 있나요? 4.Negotiate resources 과정을 리소스 분배? 라우팅 같은 개념으로 이해를 하면 될까요?
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
강의 연장 문의 드립니다.
안녕하세요. 강사님. 훌륭한 강의 잘 들었습니다. (금일 완강했어요 -_- v)강의를 듣다가 좋아서 클러스터 구축도 같이 신청하였습니다. 회사일을 병행하다 보니 오늘 막 강의를 다 들었는데 마지막 ( ELK /EFK/Docker 관련 등등) 은 제가 하는 일이라서 쉽게 들었습니다. 그런데 데이터 pyspark 같은 것은 여전히 생소하기만 합니다. 그래서 강의 연장을 부탁드립니다. 좋은 강의라 몇번을 더 보면서 레퍼런스 삼으려고 합니다. 부탁드립니다. 그간 정말 재미있었어요. 이제 클러스터도 보러 가려구요. 감사합니다.
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
섹션2 실습 1에서 질문 있습니다.
안녕하세요, 강사님.좋은 강의 올려주셔서 감사합니다. 보면서 열심히 따라하고 있습니다. 저는 비전공자라서 처음 들을 때는 물음표의 연속이었지만 신기하게 두번째 들을 때는 이해가 되고 점점 따라하기 수월해지고 있습니다.다름이 아니라 두가지 질문이 있어서 문의드립니다.1. ec2 linux/Ubuntu를 ssh로 접속한 상태에서 크롬페이지를 새창으로 뿅 띄우는 것이 안됩니다 ㅠㅠ처음에 스크립트를 실행했을 때는 아래와 같은 에러 때문에 실행이 안되었습니다.AttributeError: 'str' object has no attribute 'capabilities'여러가지 찾아보니 이유는 셀리니움이 업데이트 되어서 이제 크롬 드라이버를 다운받지 않아도 된다고 하더라구요. 그래서 아래와 같이 추가하고 경로를 비우고 실행하면 된다고 합니다.chrome_options = webdriver.ChromeOptions()driver = webdriver.Chrome()그랬더니 에러를 뿜지 않고 그냥 스크립트가 종료되어 버리는 것 같아요. 다만 sudo를 이용해서 스크립트를 실행하면 아래와 같은 에러가 나타납니다. =====ubuntu@ip-172-31-43-47:~/bigdata$ sudo python3 5_chrome.pyTraceback (most recent call last): File "/home/ubuntu/bigdata/5_chrome.py", line 4, in <module> driver = webdriver.Chrome() File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/chrome/webdriver.py", line 45, in init super().__init__( File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/chromium/webdriver.py", line 61, in init super().__init__(command_executor=executor, options=options) File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/webdriver.py", line 209, in init self.start_session(capabilities) File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/webdriver.py", line 293, in start_session response = self.execute(Command.NEW_SESSION, caps)["value"] File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/webdriver.py", line 348, in execute self.error_handler.check_response(response) File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/errorhandler.py", line 229, in check_response raise exception_class(message, screen, stacktrace)selenium.common.exceptions.SessionNotCreatedException: Message: session not created: Chrome failed to start: exited normally. (session not created: DevToolsActivePort file doesn't exist) (The process started from chrome location /usr/bin/google-chrome is no longer running, so ChromeDriver is assuming that Chrome has crashed.)Stacktrace:#0 0x562ff172ef83 <unknown>#1 0x562ff13e7cf7 <unknown>#2 0x562ff141f60e <unknown>#3 0x562ff141c26e <unknown>#4 0x562ff146c80c <unknown>#5 0x562ff1460e53 <unknown>#6 0x562ff1428dd4 <unknown>#7 0x562ff142a1de <unknown>#8 0x562ff16f3531 <unknown>#9 0x562ff16f7455 <unknown>#10 0x562ff16dff55 <unknown>#11 0x562ff16f80ef <unknown>#12 0x562ff16c399f <unknown>#13 0x562ff171c008 <unknown>#14 0x562ff171c1d7 <unknown>#15 0x562ff172e124 <unknown>#16 0x7fc769a94ac3 <unknown>====혹시나 해서 linux 인스턴스에서 다시 수행해보았지만 linux에서는 sudo 일 때와 아닐 때 모두 에러 메시지는 똑같네요... ㅠㅠ 뒤에 실습 2에서 linkedIn을 제어할 때에도 새롭게 창이 뜨는 것으로 보이니 해결하고 넘어가야 할텐데 답을 찾을 수가 없습니다 ㅠㅠ무엇이 문제일까요? 도와주세요 선생님 ㅠㅠ 2."https://docs.python.org/3.5/library/"페이지를 크롤링해오는 스크립트가 에러 없이 일부만 실행되는 현상이 있는데 이유를 모르겠습니다. 스크립트를 실행하면 딱 이렇게 pygments.css 까지만 크롤링이 되고 그 다음 단계인 /library/intro.html 아래 페이지 정보는 크롤링되지 않은 상태에서 작업이 끝납니다.======================(venv) [ec2-user@ip-xxx-xxx bigdata]$ python3 practice1.pydownloaded = https://docs.python.org/3.5/library/analyzed html = https://docs.python.org/3.5/library/downloaded = https://docs.python.org/3.5/_static/pydoctheme.cssdownloaded = https://docs.python.org/3.5/_static/pygments.css====================== 몇번이나 공유해주신 코드와 비교해보아도 틀린 부분을 못찾겠네요 ㅠㅠ 스크립트가 에러를 뿜지도 않고 일단 일부 정보라도 가져오는 상태라 더 확인이 어렵습니다 ㅠㅠ혹시 이런 경우에 대해 어떻게 해결하는지 아실까요?새해 복 많이 받으세요!
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
3.0에서 추가된 shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 쓰는게 좋을까요?
3.0에서 추가된 merge, shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 효과적일까요? 문서에서는 아쉽게도 각 힌트가 뭘 수행하는 지와 BROADCAST > MERGE > SHUFFLE_HASH > SHUFFLE_REPLICATE_NL 순서로 힌트 우선순위를 정한다는 것만 적혀있네요. spark optimizer가 어떤 기준으로 join 전략을 택하는지도 알려주시면 좋을 것 같아요.
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
슬라이드 자료
아래와 같은 양식으로 질문을 남겨주세요 🙂수업을 들으시면 이해하기 어려운 부분이 있으면 상세히 질문을 남겨주세요.서로 Tone and Manner 를 지키며, 즐거운 수업 시간을 만들어보아요.잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요 강의를 통해 열심히 공부중인 학생 입니다.혹시 슬라이드 자료를 따로 열람 가능한지 여쭙고 싶습니다. 좋은 강의 잘듣고 공부하고 있습니다. 감사합니다.
-
해결됨빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵
강의자료
혹시 강의 자료는 어디서 얻을 수 있을까요? 개인적으로 인프런 강의 구매한 사람 입니다.
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
데이터 엔지니터의 현 트렌드가 궁금합니다
안녕하세요완강후 카산드라 db 와 stream join한 강의를 다시 보고 카산드라에 대한 개념에 공부를 하던 와중 데이터 엔지니어의 현 트렌드에 대한 내용이 갑자기 궁금한데 물어볼곳이 없어서 질문을 좀 드려봅니다..제가 생각하기에 현 트렌트가데이터 엔진 프레임워크 : spark스케줄링 및 파이프라인 형성등 : airflow웨어하우스 : prestonosql : mongodbrdb : postgresmessage broker : kafka분석툴 : tableau등등 이정도로 요즘 잘나가는 프로그램들인것 같은데 맞을까요?spark stream을 사용하면서 mongodb 보다 cassandra를 사용하는게 좀더 효율이 좋은가요?개발자도 결국 트렌드에 맞게 공부하는게 자신의 커리어를 잘 쌓는게 아닐까 하는 생각이 요즘 계속 머리속에 맴도네요
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
스칼라강의도 제작하신다고 하셨는데 계획하고 계실까요??
궁금해서 질문올려봅니다
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
pyspark / spark 차이점 질문드립니다.
안녕하세요 선생님 🙂강의 초반부를 듣다가 궁금증이 생겨서 질문드립니다.pyspark의 경우 pandas와 거의 동일한 패키지 함수(? 함수라고 설명하는게 맞는지 모르겠네요..ㅎㅎ) 방식으로 구동되는 것으로 보이는데요.scalar를 기반으로한 spark도 pyspark와 유사하게 패키지의 함수를 사용하나요?스칼라 도큐먼트를 봐도 spark에서는 어떻게 사용하는것인지 감이 안와서 질문드립니다. ㅎㅎ (https://docs.scala-lang.org/ko/tour/tour-of-scala.html)오늘도 행복한 하루되세요!감사합니다.
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
강의가 재생되지 않음
안녕하세요 본 강의 챕터9 마지막 강의와 챕터10 첫번쨰 강의가 재생되지 않습니다.지금까지 강의 잘 듣고있었는데 해당 부분만 진행이되지 않아 문의드립니다.