안녕하세요.
좋은 강의 감사드립니다.
덕분에 잘 배우고 있습니다.
문제 2.
주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함.
그리고 30% 미만, 20% 이상인 결측치가 있는 컬럼은 최빈값으로 값을 대체하고
'f3'컬럼의 'gold' 값을 가진 데이터 수를 출력하세요!
문제2를 대하고 순간 다음과 같은 고민을 했었습니다.
1번을 수행하여 'f1'컬럼의 결측치 행을 삭제한 후
2번을 하려니 'f3'컬럼의 결측치 갯수가 18개만 남더군요.
그럼 18개는 최초 데이터 100개의 20% 미만일까?
그렇지 않다. 'f1'컬럼 결측치를 제거한 후 데이터 갯수 69개의 20%~30%(14~20)에 해당한다.그렇다면 'f3'컬럼의 최빈 값은
'f1'컬럼의 결측치를 제거하기 전의 값을 사용해야할까 아니면 결측치 제거 후의 값을 사용해야 할까?
결과적으로는 어떤 방식으로 하던 답은 56으로 일치했지만 주어진 데이터에 따라 다른 값이 나올 수도 있을 것 같습니다.
혼돈을 없애기 위해 문제 2의 문항 순서를 바꾸면 어떨까요?
30% 미만, 20% 이상인 결측치가 있는 컬럼은 최빈값으로 값을 대체하고
주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함.
'f3'컬럼의 'gold' 값을 가진 데이터 수를 출력하세요!
안녕하세요! "질문&답변"이 아닌 "고민있어요" 카테고리에 올려주셔서 제가 늦게 인지했네요!
제안 너무 감사합니다.
참고해서 아래와 같이 변경하도록 하겠습니다.
- 주어진 데이터에서 결측치가 30% 이상인 컬럼을 A, 결측치가 30% 미만, 20% 이상인 컬럼을 B라고 가정하자. - A에 해당하는 컬럼은 결측치가 있는 데이터(행)를 삭제하시오. - B에 해당하는 컬럼은 결측치를 최빈값으로 대체하시오. - 'f3'컬럼의 'gold' 값을 가진 데이터 수를 구하시오
답글