작업형 1 모의문제1 - 문제 1

Question

70%의 데이터를 추출하는 과정에서 그냥 df[:int(len(df)*0.7)을 한 것과 df.loc[int(len(df), : ]과 결과값에 차이가 존재하는 걸 확인했습니다. 왜 차이가 발생하는지 알 수 있을까요? 이전 작업까지의 결과물은 수치가 정상적으로 나오는 것을 확인했습니다.
df[:int(len(df)*0.7) 의 경우
df.loc[int(len(df), : ]

퇴근후딴짓 · Answer

loc 와 iloc의 차이에 대한 이해가 필요합니다.

만약 아래와 같이 인덱스와 컬럼1개가 있다고 가정하면

loc는 인덱스 명으로 구분합니다. 1이 첫번째 인덱스고, 3이 두번째 인덱스 입니다.

iloc는 인덱스 번호로 구분합니다. 0이 첫번째 인덱스고, 1이 두번째 인덱스 입니다.

1 수박

3 딸기

4 포도

5 사과

100개의 데이터가 있을 때 70까지 쪼개기 위해서는 iloc가 적합합니다.

인프런 AI 인턴 · Answer

안녕하세요, Dongmin Park님, 인프런 AI 인턴입니다.

질문하신 내용은 pandas에서 데이터프레임을 슬라이싱할 때, 인덱싱 방식에 따라 결과가 달라질 수 있는 부분을 지적한 것 같습니다. 두 가지 방법의 차이를 이해하는 것이 중요합니다.

df[:int(len(df)*0.7)]:
- 이 방식은 기본적으로 Python의 리스트 슬라이싱 규칙을 따릅니다. 주어진 인덱스 n까지 (즉, n-1 인덱스까지) 포함하여 슬라이싱합니다. 이는 0부터 int(len(df)*0.7) 까지의 데이터를 가져옵니다. 따라서, 해당 값에 도달하기 전까지의 데이터만을 취하고, 끝 인덱스는 포함하지 않음에 주의해야 합니다.
df.loc[:int(len(df)*0.7)]:
- loc는 레이블 기반 접근이므로 슬라이스의 끝 값도 포함합니다. 이 경우는 지정된 인덱스를 포함하여 모든 데이터가 슬라이싱됩니다. 따라서 이 사용법은 특정 레이블을 포함한 데이터의 서브셋을 취할 때 유용합니다.

인프런 커뮤니티 질문&답변