묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6 유형1 문의드립니다.
안녕하세요 문의드립니다.그룹바이 정의값을 df['월평균']으로 넣으면 오류가 나고df['월평균'] = df.groupby('연도')['총범죄'].sum()/12 df['월평균']result로 넣으면 오류가 안나는 이유가 뭘까요?result = df.groupby("연도")['총범죄'].sum()/12 result
-
해결됨직장인에게 꼭 필요한 파이썬-아래아한글 자동화 레시피
수식의 String을 변수에 저장
안녕하세요 일코님이번에 질문드릴 내용은선택된 영역의 수식의 String을 변수에 저장하고 싶어서 질문드립니다. 일전에 질문드린 내용에서hwp.get_selected_pos()를 사용하여 선택된 영역의 위치값을 알 수 있었는데요이 위치값 안에 위치한 수식의 String을 가져오고 싶어서 문의드립니다.123과 1/3은 수식으로 입력된 내용입니다.만약 선택된 내용을 hwp.get_selected_pos()로 받고math_string = '앞은 문자' + 123(123은 수식에서 가져온 'String')이런식으로 변수에 선언해주고 싶다면 어떻게 해야할까요..(문자와 수식이 혼합된 경우 동일한 순서로 값을 받는 방법이 있을지 궁금합니다.) selected_pos 안에 ctrl을 조회하는게 이전에 설명주신 내용에서는 전체 문서의 ctrl_list의 UserDesc를 조회를 하게되는 방식이였는데 선택된 내부의 ctrl만 조회하게 하는 방법은 없는지도 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 randomstate 값
전 강의 분류에서 랜덤포레스트 모델 불러올 때는model = RandomForestClassifier(random_state=2022) randomstate 값 주었는데 이번 강의에서는model = LinearRegression() 값을 주지 않았네요. 전 강의에서는 baseline, 원핫 , 라벨 인코딩 등 여러번 비교하면서 평가해야해서 고정시켜준건가요? 이번 강의에서는 라벨인코딩만 사용하기로 해서 굳이 고정시킬 필요 없나요? 또한 이번 강의에서는 단순 object만 제거하는 baseline, 원핫 인코딩 라벨 인코딩 평가 점수를 비교하지 않는데 이유가 있을까요? 또한 랜덤포레스트, 선형회귀 등 여러 모델이 있는데 어떠한 경우에 각 모델을 사용해야 하는지 기준이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자꾸 오류가 납니다.
# 검증데이터 분리 from sklearn.model_selection import train_test_split X_tr, y_tr, X_val, y_val = train_test_split(train.drop('TravelInsurance', axis=1), train['TravelInsurance'], test_size=0.2, random_state=2002) X_tr.shape, y_tr.shape, X_val.shape, y_val.shape 이렇게 한 이후에 # 랜덤포레스트from sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import accuracy_scoremodel = RandomForestClassifier()model.fit(X_tr, y_tr) (밑에 코드는 생략했습니다) 근데 오류가 model.fit(X_tr, y_tr)에서 난다고 뜹니다.오류 : Found input variables with inconsistent numbers of samples: [1192, 298] 이렇게 뜹니다,. 뭐가 문제인지 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 중 삭제
타겟 데이터를 보고 타겟 데이터에 영향을 주지 않을 만한 요소들 (이 강의에서는 name, host_name, host_id, last_review )을 직접 EDA 할 때 보고 정해주면 되는 것인가요? 만약 필요한 데이터를 삭제한다든가 불 필요한 데이터를 남겨뒀을 때 평가 지표가 낮게 나온다면 다시 불필요한 데이터를 선별하는 전처리 작업을 반복하면서 진행하는 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀, 분류
해당 문제가 회귀 문제인지 분류 문제인지는 평가 방법을 통해 판단하는 것인가요? 아니면 타겟 데이터 형태를 통해서 판단하는 것인가요?타겟 데이터가 0,1 분류 데이터면 분류를하고타겟 데이터가 그렇지 않을 때 회귀 적용하는 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 평가
제 기준에서는 baseline (단순 object 제거)으로 했을 때점수가 가장 높았습니다. 질문 강사님은 레이블 인코딩일 때 auc 점수가 가장 높던데 학습 데이터가 동일하더라도 평가 점수는 다를때가 많나요? 문제에서 auc 등 어떤 지표를 기준으로 평가하는지 명시해주나요? 그러면 그 평가 지표가 가장 높은 피처 엔지니어링 방법으로 진행하면 될까요?수치형 데이터 스케일링은 진행 안 하신 이유가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
model.selection 하는경우와 안하는경우
1) 안녕하세요 sklearn.model_selection ~ 으로 트레인/테스트 분리하는건 어떤상황에서 하고 어떤상황에서 안하는지 궁금합니다. 직전 4회 기출(작업형2)에서는 basic/intermediate 단계에서는 안했던것 같거든요, 마찬가지로 5회기출도 분리하지 않고 랜덤포레스트로 예측진행해도 될까요? 해도되고 안해도되는 상황을 잘모르겠어서 질문드려요 2) 그리고 어떤상황에서는 random_state=2022 이고 어떤때는 random_state=0 이던데 이것도 사용 기준이 있을까요?
-
해결됨[2024] 실무에서 사용하는 클라우드 보안 프로그래밍 (AWS, Python, Terraform)
generate expression 사용 예시
안녕하세요 1.14 generator expression 강의 내용 중에서 athena로 s3의 저장된 로그를 쿼리하여 로그를 긁어온다는 예시에서 2가지 궁금증이 있습니다. 아테나로 긁어온 로그의 용량이 큰 경우, 리스트 컴프랜션으로 올리면 메모리를 많이 차지한다고 말씀해주셨습니다.아테나 쿼리 결과는 보통 s3에 저장되는데, 람다를 예시로 들으신 이유는 어떤 워크플로우를 생각하시고 예시로 들으신건지 궁금합니다.(람다로 아테나 쿼리 결과를 읽고 특정 형태로 파싱하는 경우, 파일을 리스트 컴프랜션으로 읽으면 람다의 메모리를 오바하여 람다가 죽는 경우를 말씀해주신걸까요?)임시스토리지에 저장해서 generate expression을 통해 읽어온다는 부분에서 궁금한 점입니다.레디스로 예를 들면 아테나 쿼리 결과를 [{"key" : "value"}]와 같이 레디스에 저장해둔 후 필요 시 데이터를 generate expression을 사용해서 읽어 온다는 걸까요? 저같은 경우 아테나는 단순 로그 파일을 조회하는 용도로만 사용해 보았고, 람다와 연동해서 사용해 본 경험이 없어 예시로 들어주신 사례가 어떤 상황인지 명확하게 떠오르지가 않습니다.이런 부분은 검색을 통해 개인적으로 찾아봐야 되는게 맞는데, 어떤 키워드로 검색해야 하는지 감이 잘 안와서 질문드리게 됐습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형 (작업형2) 관련 질문
안녕하세요 선생님!xgboost를 사용해 예측을 진행하려고 하니, ValueError: Invalid classes inferred from unique values of `y`. Expected: [0 1 2 3], got [1 2 3 4]위와 같은 에러코드가 나와, chat gpt에 물어보니, XGBoost가 클래스 레이블을 0부터 시작하는 정수 값으로 기대하기 때문입니다. 즉, XGBoost는 클래스 레이블이 [0, 1, 2, 3]과 같은 형식을 갖추기를 기대하는데, 현재 데이터는 [1, 2, 3, 4]로 되어 있습니다.이 문제를 해결하려면 클래스 레이블을 0부터 시작하도록 변경해야 합니다. 라고 답변을 주었는데, 코드를 수정해준 것을 보니, y 변수에 train['Segmentation']을 할당하여 LabelEncoding 을 진행하여 0부터 시작하는 데이터로 변환시켜주는 코드를 줬는데, 이 코드를 사용하여 예측하고 제출 csv 파일까지 만들어 확인해보니, Segmentation 예측을 1,2,3,4 로 한 것이 아닌 0,1,2,3 으로 예측하였는데...xgboost를 사용하기 위해서는 어느 부분을 수정하여야 할까요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4회 유형2 문의드립니다.
기출4회 유형2 문의드립니다.Macro f1-core는 #*****평가(=교차검증)from sklearn.model_selection import cross_val_scorescore = cross_val_score(model, train, train['Segmentation'], scoring='f1_macro', cv=5)print(score)print(score.mean())이렇게 구하면 되는건가요? 그리고 아래와 같이 풀이해봤는데강사님께서 풀이하신 segmentation과 다른데 괜찮나요? 풀이과정에 문제는 없는지 확인 부탁드립니다. # 라이브러리 불러오기import pandas as pd# 데이터 불러오기train = pd.read_csv("train.csv")test = pd.read_csv("test.csv")#*****데이터확인train.shape, test.shapetrain.head(2)test.head(2)#문자형 6개# train.info()#결측치 없음train.isnull().sum()test.isnull().sum()#*****전처리#결측값 없음#train합치기 없음#인코딩from sklearn.preprocessing import LabelEncodercols= train.select_dtypes(include='object')colsfor col in cols : le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])#id삭제train = train.drop('ID',axis=1)test_ = test.pop('ID')#*****분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split( train.drop('Segmentation',axis=1), train['Segmentation'], test_size=0.2, random_state=2022)#*****모델 max_depth=5~7 / n_estimators= 100~1000from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier(random_state=0, max_depth=7, n_estimators=500)model.fit(X_tr, y_tr)pred = model.predict(X_val)#*****평가(=교차검증)from sklearn.model_selection import cross_val_scorescore = cross_val_score(model, train, train['Segmentation'], scoring='f1_macro', cv=5)print(score)print(score.mean())#*****예측pred = model.predict(test)predsubmit = pd.DataFrame({ 'ID': test_ID, 'Segmentation': pred})submit#*****저장submit.to_csv('submission_csv', index=False)pd.read_csv('submission_csv')
-
해결됨Python Streamlit을 활용한 대시보드 만들기 (feat. 빅데이터 분석기사 실기 준비)
가상환경 설치(virtualenv) 중 오류 문의드립니다.
안녕하세요 Evan님의 Streamlit을 활용한 대시보드 만들기 강의를 듣고 있는 구자원 입니다.이제 강의를 수강 시작해서 [1단계 : Python 개발환경설정] 진행하고 있는데요.가상환경 설치(virtualenv) 강의 들으면서 설치 따라 하는 중에pip install numpy pandas jupyterlab streamlit plotly matplotlib seaborn진행하려고 하는데 아래 이미지와 같이 에러 메시지가 떠서 패키지 설치가 안되고 있습니다.아마 강의 후 시간이 지나면서 시간차로 파이썬 버전 문제로 이런 문제가 발생하는 것 같은데 해당 증상 해결법 확인해주실 수 있으신지요?? 확인 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-4 MinMaxScaling
안녕하세요. 범주형/수치형을 구분하지 않고 시험에서 진행하는 것이 좋다고 이전 유사질문에 답변주신 내용은 확인하였으나, 단순 궁금함으로 질문드립니다. 3-4 예시에서 이미 수치형과 범주형 데이터를 구분하여n_train에는 수치형 데이터 타입의 컬럼만 남아있는 것으로 이해했는데 아래와 같이 별도로 cols라는 수치형 컬럼만 모은 리스트를 따로 만들어 코드 작성을 진행하는 이유가 있을까요? n_train[cols] = scaler.fit_transform(n_train[cols]) 여기서 [cols]를 지웠더니 numpy 관련 오류가 나는 것으로 확인하였는데 자세한 내용이 궁금합니다!
-
미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
계속해서 오류가 납니다..
client_id = '***********'client_secret = '*********'naver_open_api = 'https://openapi.naver.com/v1/search/shop.json?query=android'header_params ={'X-Naver-Client-Id':client_id, 'X-Naver-Client-Secret':client_secret}res = requests.get(naver_open_api, headers=header_params)res.content 물론 **은 제 아이디및 비밀번호를 가리기 위해 바꾸어 작성했습니다. 저번과 같은 질문이지만, 말씀해주신 어플리케이션 재등록, url변경, 다른 컴퓨터환경에서 시도 모두 해보았으나 같은 오류가 발생합니다. 또한 해당 url클릭시 다음과 같은 화면의 오류가 발생합니다. 검색을 많이 해보았으나, 도저히 해결이 되지 않아 재차 질문드립니다ㅜㅜ 첫번째 사진이 코드 오류이고, 두번째는 해당 url'https://openapi.naver.com/v1/search/shop.json?query=android'을 눌렀을 때 나오는 오류입니다..도와주시면 정말 감사하겠습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회기출 유형(작업형1)의 첫번째 문제의 해설 이해 안됩니다.
7회 기출 유형의 작업형 1번문제에서 가장 많이 수강한 과목을 찾기 위해서 id_assessment가 높은 과목으로 선정합니다.그런데, id_assessment 숫자가 제일 높은 것이 133인데 설명에서는 value_counts()를 사용해서 33이 제일 높고 이의 id가 12라고 설명하고 있습니다. 원본 data를 봐도 133인데 제가 문제를 잘못 이해하고 있는건지…도움 부탁드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 정리 강의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요. 좋은 강의 항상 감사드립니다.작업형2 강의를 다시 듣고 있는데, 풀이가 다르고 방법이 여러가지이다보니 정리가 어려운 상황입니다. 강사님께서 비슷한 질문글에 작업형2 정리 강의를 조만간 준비하시겠다고 답변하신 것을 보게 되었는데, 혹시 계획이 있으신가요? 감사합니다.
-
미해결파이썬/장고 웹서비스 개발 완벽 가이드 with 리액트 (장고 4.2 기준)
기존에 만들어 진 테이블을 ORM으로 사용하고 싶어요
mysql 에 테이블을 기존에 만들어 둔게 있습니다. 다른 서비스가 데이터를 쌓아 놓는 테이블인데 여기를 ORM으로 조회를 한번 해보고 싶습니다. 로그성 테이블이라 pk가 없습니다.python manage.py inspectdb 로 모델 코드를 만들어 내긴 했습니다.python shell로 조회를 하려고 하는데 id 필드를 찾으려는 시도를 계속 합니다. 기존에 만들어진 DB 스키마를 ORM으로 사용려고 만든 것이 inspectdb 일것 같은데 장고 ORM 구조가 PK를 필수로 가져야 하는 구조인지 궁금합니다.(구글링 해보면 PK가 필수라는 이야기도 있고, CHATGPT에게 물어보면 Meta클래스에 managed가 False이면 괜찮다는 답변이 나오네요) inspectdb로 만들어진 코드에는 Meta 클래스가 아래와 같이 있습니다.class MacLog(models.Model): timestamp = models.DateTimeField() sw_ip = models.CharField(max_length=20) mac = models.CharField(max_length=255) port = models.CharField(max_length=20) class Meta: managed = False db_table = 'mac_log' 다음은 에러가 나는 내용 입니다. >>> from django.db.models import QuerySet >>> from maccol.models import MacLog >>> >>> qs = QuerySet(MacLog) >>> for item in qs: ... print(item) ... None Execution time: 0.019902s [Database: default] Traceback (most recent call last): File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/backends/utils.py", line 89, in _execute return self.cursor.execute(sql, params) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/backends/mysql/base.py", line 75, in execute return self.cursor.execute(query, args) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/MySQLdb/cursors.py", line 179, in execute res = self._query(mogrified_query) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/MySQLdb/cursors.py", line 330, in _query db.query(q) File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/MySQLdb/connections.py", line 261, in query _mysql.connection.query(self, query) MySQLdb.OperationalError: (1054, "Unknown column 'mac_log.id' in 'field list'") The above exception was the direct cause of the following exception: Traceback (most recent call last): File "<console>", line 1, in <module> File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/models/query.py", line 398, in __iter__ self._fetch_all() File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/models/query.py", line 1881, in _fetch_all self._result_cache = list(self._iterable_class(self)) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/models/query.py", line 91, in __iter__ results = compiler.execute_sql( ^^^^^^^^^^^^^^^^^^^^^ File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/models/sql/compiler.py", line 1562, in execute_sql cursor.execute(sql, params) File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django_extensions/management/debug_cursor.py", line 49, in execute return utils.CursorWrapper.execute(self, sql, params) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/backends/utils.py", line 67, in execute return self._execute_with_wrappers( ^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/backends/utils.py", line 80, in _execute_with_wrappers return executor(sql, params, many, context) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/backends/utils.py", line 84, in _execute with self.db.wrap_database_errors: File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/utils.py", line 91, in __exit__ raise dj_exc_value.with_traceback(traceback) from exc_value File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/backends/utils.py", line 89, in _execute return self.cursor.execute(sql, params) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/django/db/backends/mysql/base.py", line 75, in execute return self.cursor.execute(query, args) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/MySQLdb/cursors.py", line 179, in execute res = self._query(mogrified_query) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/MySQLdb/cursors.py", line 330, in _query db.query(q) File "/Users/dcu/workspace/maccol/venv/lib/python3.11/site-packages/MySQLdb/connections.py", line 261, in query _mysql.connection.query(self, query) django.db.utils.OperationalError: (1054, "Unknown column 'mac_log.id' in 'field list'")
-
미해결프로그래밍 시작하기 : 파이썬 입문 (Inflearn Original)
강의자료
강의자료 다운이 안되서 강의자료 요청한지 2주째 안오는데 빨리 좀 보내주세요..byerlaekdnjs@naver.com
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출유형(작업형3) 질문이요!
17:20 쯤에요 from statsmodels.formula.api imprt ols 에서 ols 대신에 logit을 써도 가능할까요?? 문제마다 ols 나 logit 이나 등등 어떤거를 써야하는지 이해가 어려워서 logit 하나만 사용하려고 생각중이어서요 ㅠㅠ..
-
미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
from airflow.sensors.sql import SqlSensor에 대해 질문 있습니다.
선생님이 4:21초에 from airflow.sensors.sql import SqlSensor는 provider에 있는게 아니라 core에 있는 sensor라고 알려주셨는데 airflow 버전 2.9.1에서는 SqlSensor가 apache-airflow-providers-common-sql 패키지에 포함되어 있다고 하는데 그러면 버전 2.9.1에서는 airflow core에 있는 sensor를 사용하지 못하는 건가요??