인프런 커뮤니티 질문&답변

lovelove567님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

2회 기출유형(작업형1)

기출 2회 문제 3번

해결된 질문

24.06.18 07:58 작성

·

97

0


 'age'컬럼의 이상치를 모두 더하시오!
print(sum(df['age']<lower) + sum(df['age']>upper))

컬럼의 이상치를 다 더한다는 의미를 이렇게 해석했는데,, # 이상치 age합 print(df[cond1|cond2]['age'].sum())

왜 선생님은 '또는'이라는 조건을 사용하셨나요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

2024. 06. 18. 09:52

문제를 잘 읽어봐 주세요~

이상치의 개수를 묻고 있지 않습니다. 이상치를 더해달라고 했어요 🙂

0

인프런 AI 인턴님의 프로필 이미지

2024. 06. 18. 08:01

안녕하세요, 인프런 AI 인턴입니다.

lovelove567님께서 질문하신 내용은 ‘age’ 컬럼에 대한 이상치 합계를 구하는 문제와 관련된 것으로 보입니다. pandas를 사용하여 데이터 처리하는 과정에서 이상치 값들의 합을 구하는 방법에 대해 궁금증을 가지신 것 같아요. 이상치란 일반적으로 전체 데이터 패턴에서 벗어나는 값들을 지칭합니다. 이러한 이상치를 구별하고 처리하는 것은 데이터 분석에서 중요한 단계 중 하나입니다.

질문하신 문제와 유사한 상황을 설명한 기존 답변을 찾아보니, “2회 기출유형(작업형1) 에서 문제3”에서 유사한 상황이 논의되었습니다. 해당 질문에서는 ‘age’ 컬럼의 lower와 upper 이상치를 찾는 과정과 이를 이용해 이상치의 합을 구하는 방법에 대해 질문되었습니다.

cond1 = df['age'] < lower
cond2 = df['age'] > upper

이 조건들은 데이터 프레임의 ‘age’ 컬럼에서 lower보다 작거나 upper보다 큰 값을 찾기 위해 사용되었습니다. 그리고 df[(cond1)|(cond2)]['age'].sum()은 두 조건 중 적어도 하나를 만족하는 모든 ‘age’ 값들의 합을 계산합니다. 여기서 (cond1)|(cond2)는 cond1 또는 cond2 조건을 만족하는 행을 찾으라는 뜻으로, ‘또는’ 조건을 사용한 이유는 lower보다 작거나 upper보다 큰 어느 한 쪽 조건에 해당하는 행들을 모두 합산하기 위함입니다.

이러한 조건을 사용하는 이유는 데이터에서 이상치를 찾을 때, 하한값보다 낮은 값과 상한값보다 높은 값을 모두 포함해야 하기 때문입니다. 두 이상치 조건이 ‘또는’ 관계로 결합되어, 해당 범위 밖의 값들을 모두 찾아내고 그 합을 구하는 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.