자격증/ADsP (데이터분석 준전문가)

[데이터분석 준전문가 Day 13/독학] ADsP 5-4 데이터마이닝 모델 성능평가 정리본

thisisjade 2022. 8. 19. 10:21
728x90

 

3과목 공부시작

 

[모델 성능평가]

  • 과적합을 방지해서 실제 업무에 적용할 때 분류와 예측력을 향상
  • 예측 및 분류 모델에 대해서 다양한 세팅
  • 지도학습의 결과 데이터를 사용해서 모델성능을 평가

 

- 예측모델 성능평가

  • 예측된 데이터에 대해서 성능평가를 실시
  • 평균오차, MAPE, RMSE, 향상차트(Lift Chart)를 사용해서 평가

 

- 분류모델 성능평가

  • 분류된 데이터가 올바르게 분류 되었는지 확인
  • 정오행렬(Confusion matrix), 분류행렬, 정확도, 오분류율, 민감도, 특이도, ROC 도표, 향상차트를 사용해서 평가

 

- 랭킹 성능평가

  • 점수를 활용해서 등수로 분류를 확인
  • 향상차트를 사용

 

- 확대 샘플링

  • 샘플링이 적은 경우 개체 수가 증가하거나 cut-off를 증가시켜서 실시

 

[지도학습의 결과 정보]

- 예측값

  • 예측모델로부터 도출된 수치형 데이터
  • 내년의 기업 성장률, 향후 부동산 가격 예측

 

- 예측된 클래스 소속도

  • 분류모델은 결과변수가 범주형인 경우
  • ex. 대출가능 혹은 대출 불가능으로 구분

 

- 경향(Propensity)

  • 결과변수가 범주형인 경우 클래스 소속도의 확률
  • 일반적으로 cut-off를 0.5로 두지만 cut-off를 조정하여 확률을 확인

 

[경향]

- 분류

  • cut-off를 사용해서 클래스 소속을 예측

 

- 랭킹

  • 관심이 있는 클래스에 속할 가능성이 있는 큰 집단을 추출
  • ex. 점수로 정렬하여 상위 20%를 기준으로 분류

 

[예측모델]

  • 가장 대표적인 것은 회귀분석
  • 예측 값이 실제 값과 100% 적중하기 어렵기 때문에 오차를 구해서 어느 정도까지 허용할지를 결정하는 것이 모델 성능평가

 

- 편차

  • 평균으로부터 자료가 어떻게 분포되었는지를 확인

 

- 잔차

  • 회귀분석에서 사용되고 회귀직선 모델에 적합도를 확인
  • 회귀직선하고 실제 데이터가 얼마나 떨어져 있는지 평가

 

- 오차

  • 데이터마이닝에서 모형의 성능을 평가
  • 실제 값과 차이를 의미하고 정합도라고 한다.

 

[예측모델 평가척도]

- 평균오차

  • 예측 값이 평균적으로 반응의 예측을 초과하거나 미달하는지 확인

 

- 절대평균오차

  • 절대값을 사용해서 오차를 확인

 

- 평균백분율오차

  • 예측 값이 실제 값과 얼마나 벗어났는지 확인
  • 오차의 방향이 고려

 

- 절대평균백분율오차

  • 예측결과가 평균적으로 얼마나 실제 값에서 벗어나는지를 백분율 점수로 나타낸다.
  • 퍼센트에 절대값을 준 것

 

- 평균제곱오차의 제곱근

  • 오차에 자승과 루트를 사용해서 표준편차와 비슷하며 많이 사용

 

[향상차트]

  • 관심이 있는 클래스에 속할 가능성이 가장 높은 데이터의 부분집합을 추출
  • 상대적으로 사례를 적게 선택하고 상대적으로 높은 응답자 비율을 찾는 것
  • 기준선은 예측모델을 사용하지 않고 알 수 있는 선이고 기준선을 1로 할 때 예측모델을 사용하면 기준선보다 몇 배 더 높은 정확도를 갖는지 분석하는 것

 

[분류모델]

  • 결과값이 범주형으로 대출 가능 혹은 불가, 신용상태 우수, 불량등의 데이터로 분류
  • 데이터를 가장 잘 분류할 수 있는 예측 변수를 찾는 것이 가장 중요

 

[분류모델 평가기준]

- 일반화 가능성

  • 데이터를 확장해서 적용 가능한지 평가
  • 모집단 내의 다른 데이터에 적용해서 안정적인 결과를 제공하는 것을 의미

 

- 효율성

  • 얼마나 효과적으로 구축 되었는지를 평가
  • 적은 입력변수를 필요로 할수록 효율적

 

- 예측과 분류의 정확성

  • 분석모형의 정확성 측면에서 평가

 

[오분류 오차]

  • 오차는 실제 값과 예측 값의 차이로 분석모델이 실제 클래스가 아니라 다른 클래스로 분류한 것을 의미
  • 오차율은 Validation 데이터의 오분류 비율

 

[정오행렬]

  • 분류결과의 정확성을 평가하기 위한 방법을 제공
  • Training 데이터와 Validation 데이터를 사용해서 검증하며, 과적합 검증도 가능

 

[경향]

  • 결과변수가 범주형인 경우 클래스 소속도의 확률

 

[F-Measure]

  • Precision과 Recall을 하나의 지표로 통합해서 정확성을 측정

 

- Precision(정확도)

  • 양성으로 판단하는 것 중에서 진짜 양성의 비율

 

- Recall(재현율)

  • 진짜 양성 중에서 양성으로 올바르게 판단한 비율

 

[ROC]

  • ROC Curves는 모델의 성능을 평가하기 위한 방법 중에 하나로 민감도와 특이도를 사용해서 모델의 성능을 평가

 

- 민감도

  • 실제 양성인데 모델도 양성으로 평가하는 비율
  • 정분류와 오분류 중 과심 대상에 대해서 더 잘 맞추는지 확인

 

- 특이도

  • 정상을 음성으로 평가하는 비율
  • 민감도와 반대로 계산해서 관심없는 대상을 파악

 

 

728x90