자격증/ADsP (데이터분석 준전문가)

[데이터분석 준전문가 Day 6/독학] ADsP 3-3 결측값 처리와 이상값 검색 정리본

thisisjade 2022. 8. 8. 14:31
728x90

 

3과목 공부 시작

 

[결측 데이터] - 누락된 데이터 및 비어있는 데이터를 의미

  • 완전 무작위 결측: 변수 상에 발생한 결측값이 다른 변수들과 전혀 관계가 없는 경우
  • 무작위 결측: 특정 변수와 관련이 있지만 그 변수의 결과는 관계가 없는 경우
  • 비 무작위 결측: 누락된 변수 결과가 다른 변수와 관련이 있는 경우

 

[결측값 처리방법]

- 명시적 모형에 의한 대체

  • 확률분포를 따른다고 가정한 후에 분포의 모수들을 추정하여 대체
  • 평균 대체, 중앙값 대체, 확률 대체, 비율 대체, 회귀 대체, 확률적회귀 대체, 분포를 가정한 대체

 

- 내재적 모형에 의한 대체

  • 확률분포를 따른다고 가정하지 않고 가능한 정확한 값을 가지고 대체
  • 핫덱 대체: 데이터 내의 응답 값을 사용해서 결측값을 대체하는  방법
  • 콜드덱 대체: 동일한 조사 자료가 아니라 다른 조사의 값으로 대체

 

- 혼합된 대체

  • 명시적 모형 대체와 내재적 모형 대체를 혼합하여 사용

 

[결측값 제거]

- filter()함수: 결측값 데이터를 조회하고 결측값 데이터를 제거

- na.omit()함수: 모든 결측값을 한번에 제거

- mean()함수: na.rm=T 옵션을 주면 결측값을 제외하고 평균을 계산

 

[데이터 이상값] - 관측된 데이터의 범위에서 벗어나는 아주 큰 값 혹은 아주 작은 값을 의미

  • box plot을 그릴 때 na.rm=T옵션을 사용해서 결측값을 제외

 

 

728x90