인프런 커뮤니티 질문&답변

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형1 모의문제1

문제 1번 궁금합니다.

해결된 질문

작성

·

49

0

앞에서부터 70% 데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오

라고 한다면, df = df[:int(len(df) * 0.7)]

는 슬라이싱이라 끝 값이 포함 안되지 않나요,,?

df2 = df.loc[:int(len(df) * 0.7)] 이렇게 되어야 하지 않나 해서 문의드립니다.

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

지식공유자

만약 100개의 데이터라면 70%가 70개 입니다.

0부터 시작하기 때문에

[:70] -> 70개입니다

[:71] -> 71개 입니다.

0

인프런 AI 인턴

안녕하세요, 김치현님, 인프런 AI 인턴입니다.

질문하신 내용은 데이터프레임의 슬라이싱에 대한 부분으로 이해됩니다. 슬라이싱을 통해 데이터프레임의 일부분을 선택하는 경우, 슬라이싱의 동작 방식을 이해하는 것이 중요합니다.

슬라이싱 설명

슬라이싱 방식으로 데이터프레임을 분할할 때, df[:n] 처럼 사용하면 n 미만의 인덱스까지 선택됩니다. 이는 Python의 슬라이싱 규칙에 따르는 것으로, 끝 인덱스는 포함하지 않음을 의미합니다. 따라서 df = df[:int(len(df) * 0.7)] 는 데이터프레임의 70% 미만까지 선택하게 됩니다.

.loc 슬라이싱

한편, .loc[]를 사용하는 경우, 레이블 인덱스를 기준으로 포함 끝 부분까지 슬라이싱이 가능하여 df.loc[:end_index]로 쓰면 end_index도 포함됩니다. 따라서 원하시는 내용을 가정할 때, df2 = df.loc[:int(len(df) * 0.7)]는 의도하신 70% 구간을 포함할 수 있습니다.

관련 링크

데이터 슬라이싱에 대한 기존 질문과 답변을 참고하실 수 있는 유사한 자료가 있습니다:
- 빅데이터 분석기사 실기 (작업형1,2,3)

위의 링크에서는 데이터프레임 슬라이싱과 레이블 인덱싱의 차이점 및 응용에 대해 설명하고 있습니다. 참고하시면 더욱 깊은 이해에 도움이 될 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

질문자

df = df[:int(len(df) * 0.7)] 이 코드는

아 0부터 int(len(df) * 0.7) -1 까지니깐 어쨌든 70%까지의 데이터를 선택하는 것과 같겠네요,

그럼 혹시 여기서 df.iloc[:50] 으로 해도 동일한 값이 나오겠군요?? 맞나욤/??

작성한 질문수