728x90
3과목 공부 시작
[결측 데이터] - 누락된 데이터 및 비어있는 데이터를 의미
- 완전 무작위 결측: 변수 상에 발생한 결측값이 다른 변수들과 전혀 관계가 없는 경우
- 무작위 결측: 특정 변수와 관련이 있지만 그 변수의 결과는 관계가 없는 경우
- 비 무작위 결측: 누락된 변수 결과가 다른 변수와 관련이 있는 경우
[결측값 처리방법]
- 명시적 모형에 의한 대체
- 확률분포를 따른다고 가정한 후에 분포의 모수들을 추정하여 대체
- 평균 대체, 중앙값 대체, 확률 대체, 비율 대체, 회귀 대체, 확률적회귀 대체, 분포를 가정한 대체
- 내재적 모형에 의한 대체
- 확률분포를 따른다고 가정하지 않고 가능한 정확한 값을 가지고 대체
- 핫덱 대체: 데이터 내의 응답 값을 사용해서 결측값을 대체하는 방법
- 콜드덱 대체: 동일한 조사 자료가 아니라 다른 조사의 값으로 대체
- 혼합된 대체
- 명시적 모형 대체와 내재적 모형 대체를 혼합하여 사용
[결측값 제거]
- filter()함수: 결측값 데이터를 조회하고 결측값 데이터를 제거
- na.omit()함수: 모든 결측값을 한번에 제거
- mean()함수: na.rm=T 옵션을 주면 결측값을 제외하고 평균을 계산
[데이터 이상값] - 관측된 데이터의 범위에서 벗어나는 아주 큰 값 혹은 아주 작은 값을 의미
- box plot을 그릴 때 na.rm=T옵션을 사용해서 결측값을 제외
728x90
'자격증 > ADsP (데이터분석 준전문가)' 카테고리의 다른 글
[데이터분석 준전문가 Day 7/독학] ADsP 4-2 표본조사 정리본 (0) | 2022.08.09 |
---|---|
[데이터분석 준전문가 Day 7/독학] ADsP 4-1 자료분석 정리본 (0) | 2022.08.09 |
[데이터분석 준전문가 Day 6/독학] ADsP 3-2 R기초와 데이터 마트 정리본 (0) | 2022.08.08 |
[데이터분석 준전문가 Day 5/독학] ADsP 3-1 빅데이터 수집과 정제 플랜 정리본 (0) | 2022.08.05 |
[데이터분석 준전문가 Day 4/독학] ADsP 2-2 분석 마스터 플랜 정리본 (0) | 2022.08.04 |