묻고 답해요
143만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨Airflow 마스터 클래스
Airflow 데이터 처리
안녕하세요! Airflow Python 오퍼레이터를 공부하다가 궁금한게 있어 질문드립니다!Airflow는 Python 기반이기 때문에 코드 내부에서 데이터 수집, 처리 프로그램을 작성할 수 있습니다.하지만 Airflow는 오케스트레이션 도구입니다. 즉, 데이터 처리를 위한 도구는 아닙니다. 그래서 코드 내에서 저런 데이터 수집, 처리 등 오케스트레이션이 아닌 프로그램을 작성하는것에 대해 지양해야하는것으로 알고 있습니다.궁금한점은 커스텀 Python 오퍼레이터로 데이터 수집, 처리 프로그램을 만들어서 실행할 수 있습니다. Airflow를 동작하는 서버에서 오케스트레이션이 아닌 데이터 수집, 처리를 위한 프로그램이 작동하는것이 괜찮은지 의문이 듭니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 타이타닉
# X_train.head()# y_train.head()# X_train.info()# y_train.info()# X_train.isnull().sum()# y_train.isnull().sum()# y_train['Survived'].value_counts()# print(X_train.shape, y_train.shape)# X_train = pd.get_dummies(X_train)# y_train = pd.get_dummies(y_train)# print(X_train.shape, y_train.shape)# target = y_train.pop('Survived')# from sklearn.model_selection import train_test_split# X_tr, X_val, y_tr, y_val = train_test_split(X_train, target, test_size=0.2, random_state=0)# print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=0)rf.fit(X_tr, y_tr)pred = rf.predict(X_val) 다음과 같이 풀이했는데 오류가 뜨는 이유가 뭘까요?그리고 target = y_train.pop['Survived']를 데이터 전처리 때 하는 게 좋을까요 데이터 분리를 할 때 하는 게 좋을까요? 한 셀에서 풀이를 하면 target = ~ 이 셀이 두 번 반복되는데 그럼 다시 오류가 떠서 미리 실행시키고 다음 단계 전에는 숨기기 처리하는게 맞겟죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 제출 형식
선생님 항상 친절한 답변 감사합니다. 작업형2 연습 중에 있는데 EDA도 하고 여러 과정을 거치면서 print문으로 여러줄을 출력해가면서 중간 과정을 확인하며 풀이를 하고 있습니다. 실제 시험에서는 작업형2 코드를 제출할 때 중간 과정에서 확인하기 위한 print문을 주석처리하고 제출을 해야할까요??아니면, "result.csv" 파일만 잘 생성이 되어 제출한다면 문제가 없는 걸까요??
-
해결됨38군데 합격 비법, 2024 코딩테스트 필수 알고리즘
시간 복잡도가 얼마나 걸리는지 확인하는 방법
1. 현재 학습 진도1-10 듣고 있습니다 2. 어려움을 겪는 부분 이 코드에서 for index in range(len(alphabet_occurrence_array)) 는 N이 아니라 상수이기때문에 O(1)라고 말씀해주셨는데 해당 부분이 잘 이해 가지 않습니다.. for문이라도 정해진 숫자의 범위가 돌면 O(n)의 시간 복잡도가 아닌건가요? 만약 이렇게 이해하게 되면 for char in string: 코드에서 string도 배열에 크기에 정해진 숫자만큼만 돌게 되는데.. 헷갈립니다..! 단순히 변수의 for문이면 n 상수의 for문이면 1 이렇게 생각하면 되는건지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
kruskal 관련
비 모수 검정 시 kruskal 분석 사용해서 p value 값은 어떠한 것을 확인하는 건가요?stats.kruskal(df['A'], df['B'], df['C'], df['D']) 에서 나오는 p value는 어떤걸 의미하는건지 궁금합니다.그리고 해당 p value의 가설 귀무 가정을 알수있을까요?
-
미해결파이썬/장고로 결제 시작하기 (Feat. 아임포트) - 기본편
로그아웃 405 에러
로그아웃뷰가 기본적으로 get 요청을 수용하지 않는다고 하던데 이거 뭔가요. 페이지가 없다는 에러가 나오는게 아니고 아예 405 에러가 나오네.. ㅠ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출2회와 3회 작업형 2의 차이
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 2 기출2회 에서는 범주형변수의 컬럼이름만 찾았는데 기출3회에서는 범주형변수와 수치형변수를 분리하는 이유가 무엇인가요?ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수치형 데이터, 범주형 데이터 분리 기준
안녕하세요,수치형 데이터, 범주형 데이터 분리해서 스케일링 및 인코딩을 하셨는데요!수치형 데이터, 범주형 데이터 분리를 할때와 안할때의 차이가 무엇이고, 기준이 무엇일까요? 다시 말씀드리면, 수치형 데이터, 범주형 데이터 분리를 할때와 안할때의 장단점이 궁금하고,어떤 상황에서 분리를 해야하고, 어떤 상황에서 분리를 하지 않아도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 범주형 인코딩 관련 문의
안녕하세요, 작업형 2 모의문제 푸는 도중 궁금한게 있어 질문드립니다. 범주형 변수(object) 중 drop을 하는 경우가 있고 안하는 경우가 있는것 같은데, 어느정도를 기준으로 잡아야 할지 궁금합니다예를 들어 한개의 컬럼 값이 90개여서 원핫인코딩 시 컬럼이 100개가 넘어가는 상황이 발생하더라구요.이런 경우에 drop을 하는게 도움이 될지, 아니면 drop하지 않고 모든 범주형 변수를 인코딩할지 구분이 어렵습니다.
-
해결됨실전도커: 도커로 나만의 딥러닝 클라우드 컴퓨터 만들기
Virtual Machine 생성시 가격문의
472.31/month 라는 가격이 한달 내내 해당 virtual machine을 사용한다고 가정했을때 과금 되는 가격이라고 이해하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 질문입니다.
r2 score에 경의 테스트가거의 0.3이하로만 계속 출력되는것으로 강의에서 확인되는데제가 알기로 0.3이하면 굉장히 낮은수준의 모델로 알고있습니다.시험장에서 0.3이하가 나오더라도 제출하는데 문제없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
csv 파일 만들 때 인코딩 옵션 필요 여부
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요,to_csv로 csv 파일을 만들어서 제출할 때 encoding=‘utf-8’ 옵션을 안넣어도 괜찮을까요?시험문제에서 결과 컬럼명은 항상 영문으로만 출제되나요? (한글로 출제될 때도 인코딩 옵션 따로 안넣어도 되는지 궁금합니다ㅜ)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 제출 결과 제출 방법 관련하여
선생님, 작업형 1을 진행하다가 코드로 어떤 방식으로든 문제 풀다가 정답을 알았지만 본 의도대로 코드를 이용해서 print 를 내기가 생각이 안날 때 단순이 그냥 print('정답') 이라는 식으로 print 되게 처리를 하여도 점수를 다 받을 수 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 질문
시험 일주일을 남기고, 벼락치기를 하는 중이라 너무 헷갈려서 질문 남깁니다.어떤 풀이를 보면 수치형데이터만 사용하고, 어떤 풀이를 보면 수치형과 범주형을 각각 train과 test를 나눠서 사용하기도 하고, 또 X_tr,y_tr을 분리해서 사용하는 풀이가 있는 한편 어떤건 그냥 train, test로 사용하기도 하던데 이런것들은 문제에 따라 다르게 사용해야할까요? 아니면 알고있는만큼 작성하는걸까요?
-
해결됨세계 대회 진출자가 알려주는 코딩테스트 A to Z (with Python)
실전 문제풀이 관련 질문
2022 KAKAO TECH INTERNSHIP 문제 중 코딩테스트 공부 문제에서 실패하는 경우가 있어서 왜 그런지 질문드리려고 합니다. 예시풀이 중 dp풀이랑 비슷하게 풀었는데 다른 점은 저는 dp[alg][cop]을 해당 alg, cop에 도달하기 위해 필요한 최소 비용으로 정의하고 마지막에 최대 alg~+30, co~ +30 중 최소값을 리턴하도록 정의했습니다. 이렇게 하니까 정확성은 다 통과하는데 효율성에서 실패하는 경우가 생기던데 왜그럴까요?def solution(alp, cop, problems): answer = 0 problems += [[0,0,1,0,1], [0,0,0,1,1]] dp = [[1000] * 181 for _ in range(181)] dp[alp][cop] = 0 goal = [alp,cop] for alp_req, cop_req, alp_rwd, cop_rwd, cost in problems: goal[0] = max(goal[0], alp_req) goal[1] = max(goal[1], cop_req) for i in range(alp, 181): for j in range(cop, 181): for alp_req, cop_req, alp_rwd, cop_rwd, cost in problems: if i >= alp_req + alp_rwd and j >= cop_req + cop_rwd: dp[i][j] = min(dp[i][j], dp[i-alp_rwd][j-cop_rwd] + cost) answer = 1000 for row in dp[goal[0]:]: answer = min(answer, min(row[goal[1]:])) return answer
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출 작업형1, 문제 1번 질문입니다.
영상 7분쯤3) 과목 점수 스탠다드 스케일 부분에서 df[["score"]]=scaler.fit_transform(df[["score"]]) 과#데이터프레임 강사님이 작성하신df["score"]=scaler.fit_transform(df[["score"]]) #시리즈 와 같은 결과가 뜨는데 왜 그런걸까요...? 보통 df[cols]=scaler.fit_transform(df[cols])썼던거 같아서요.. 그럼 전자가 맞는 표현 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글
캐글에서 문제를 풀고자하는데 copy&edit 버튼을 눌러도 위의 형식대로 표시가 됩니다! 어떻게 해결하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의고사2
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 시험에서 작업형2문제가 결측값이 있는 문제가 나오면 value_counts()를 통해 가장많이 있는값을 찾아서 fillna() 해주려합니다. train['name'].value_counts() #Hillside Hoteltrain['name'] = train['name'].fillna('Hillside Hotel')test['name'].value_counts() #Brooklyn Apartment test['name'] =test['name'].fillna('Brooklyn Apartment')그런데 train과 test의 value_counts()값이 달라서 train과 test에 다른값(Hillside Hotel 와 Brooklyn Apartment) 을 넣어도 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
xgb warning
시험환경에서 XGB는 warning이 뜨는게 맞는거죠?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4회-시험환경(캐글)
캐글에 시험환경으로 풀어보기로 풀어보려하는데 shift+enter로 실행이 원래 안되는걸까요? 그리고 df.head()를 해도 아래 출력이 안됩니다.