게시글
질문&답변
2022.03.24
파일 병합 질문 드립니다
def generate_dateframe_by_path(PATH): file_list, csv_list = os.listdir(PATH), list() first_doc = True for file in file_list: if file.split(".")[-1] == 'csv': csv_list.append(file) csv_list.sort() #sort() 기본 오름차순정렬 for file in csv_list: csv_list의 file들이 하나씩 차례로 들어올거고 doc = create_dateframe(file) 그 파일들을 df으로 하나씩 만들고 if first_doc: 처음들어온 doc이라면 우선 if구문이 실행될건데 final_doc, first_doc = doc, False 위에서 first_doc =True로 지정했던 상태로, fisrt_doc = False로 바꾸고, 이번에 들어온 doc을 final_doc에 저장해라 else: 거고 그리고 다음 파일이 들어올 땐 fisrt_doc이 False이기 때문에 else문이 실행되고 final_doc = pd.merge(final_doc, doc, how='outer', left_index=True, right_index=True) 이번에 들어온 doc과 이전의 파일들이 저장된 final_doc을 합쳐서 새로운 final_doc을 생성 if 사과면: 먹는다. else: 먹지 않는다. 이런식으로 if else문을 설명하시더라구요. 초보입장에서 다른 초보분들한테 혹시 도움이 되지 않을까 해서 해석해봤습니다 ㅎ..ㅎ
- 0
- 2
- 229
고민있어요
2022.03.21 10:35
혼자 코드 복습하고 전체코드 작성해볼때 팁이 있을까요? ㅠㅠ
- 0
- 0
- 137
질문&답변
2022.03.17
countryflag 사이트가 지금 막혔나요?!
국기 페이지도 flagcdn이랑 다른분이 올린 홈페이지 둘다 해봤는데 똑같이 해도 국기 사진이 물음표로 뜨네요 ㅠㅠ 그거 말고 오류나는건 없는데 국기 사진이 안 뜨는 이유를 도저히 모르겠습니다 ..
- 0
- 3
- 272
질문&답변
2020.09.15
공부방법 질문
와 선생님 정말 감사합니다!!!!! 이렇게 하면서 배워가는것도 재미있는데 뭔가 정석적인 코스가 있는데 저만 모르고 삽질하는게 아닌가 싶었거든요... ㅠㅠ 역시 많이 해봐야 느는게 맞군요!!! 그리고 좋은 기초강의도 추천해주셔서 정말 감사합니다.
- 1
- 3
- 297
질문&답변
2020.09.09
graphviz 설치
깔끔하게 해결되었어요!! 그래프가 출력되는데 감격받았습니다..
- 0
- 10
- 887
질문&답변
2020.09.06
could not convert string to float 에러..
와우 감사합니다! 강의 너무 재밌어요 >
- 0
- 5
- 35K
질문&답변
2020.09.06
could not convert string to float 에러..
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline titanic_df = pd.read_csv('./titanic_train.csv') titanic_df.head(3) print('\n ### train데이터정보 ###\n') print(titanic_df.info()) titanic_df['Age'].fillna(titanic_df['Age'].mean(), inplace=True) #inplace=True는 기존데이터를 업데이트한다는말 titanic_df['Cabin'].fillna('N', inplace=True) #다른 카테고리성 컬럼인 'N'으로 업데이트 titanic_df['Embarked'].fillna('N', inplace=True) print(titanic_df.isnull()) #null데이터를 True로 표시 print('\n데이터세트 컬럼별Null 개수', titanic_df.isnull().sum()) #True값의 합을 컬럼별로 표시 print('\n데이터세트 전체 Null개수', titanic_df.isnull().sum().sum()) print('Sex값 분포: \n', titanic_df['Sex'].value_counts()) #데이터프레임의 컬럼의 데이터가 카테고리성일때 카테고리별 개수 print('Cabin값 분포: \n', titanic_df['Cabin'].value_counts()) print('Embarked값 분포: \n', titanic_df['Embarked'].value_counts()) titanic_df['Cabin'] = titanic_df['Cabin'].str[:1] #데이터프레임에서 []은 필터링을 한다는 의미니, Cabin컬럼의 데이터에 어떤것에 필터링을 하는지 써야함. 그게 .string print(titanic_df['Cabin'].head(3)) titanic_df['Cabin'].value_counts() titanic_df.groupby(['Sex', 'Survived'])['Survived'].count() sns.barplot(x='Sex', y='Survived', data=titanic_df) sns.barplot(x='Pclass', y='Survived', hue='Sex', data=titanic_df) # 나이대별로 카테고리구분하는 함수생성, df의 apply lambda식에 사용 def get_category(age): cat = '' if age
- 0
- 5
- 35K