728x90
3과목 공부시작
[모델 성능평가]
- 과적합을 방지해서 실제 업무에 적용할 때 분류와 예측력을 향상
- 예측 및 분류 모델에 대해서 다양한 세팅
- 지도학습의 결과 데이터를 사용해서 모델성능을 평가
- 예측모델 성능평가
- 예측된 데이터에 대해서 성능평가를 실시
- 평균오차, MAPE, RMSE, 향상차트(Lift Chart)를 사용해서 평가
- 분류모델 성능평가
- 분류된 데이터가 올바르게 분류 되었는지 확인
- 정오행렬(Confusion matrix), 분류행렬, 정확도, 오분류율, 민감도, 특이도, ROC 도표, 향상차트를 사용해서 평가
- 랭킹 성능평가
- 점수를 활용해서 등수로 분류를 확인
- 향상차트를 사용
- 확대 샘플링
- 샘플링이 적은 경우 개체 수가 증가하거나 cut-off를 증가시켜서 실시
[지도학습의 결과 정보]
- 예측값
- 예측모델로부터 도출된 수치형 데이터
- 내년의 기업 성장률, 향후 부동산 가격 예측
- 예측된 클래스 소속도
- 분류모델은 결과변수가 범주형인 경우
- ex. 대출가능 혹은 대출 불가능으로 구분
- 경향(Propensity)
- 결과변수가 범주형인 경우 클래스 소속도의 확률
- 일반적으로 cut-off를 0.5로 두지만 cut-off를 조정하여 확률을 확인
[경향]
- 분류
- cut-off를 사용해서 클래스 소속을 예측
- 랭킹
- 관심이 있는 클래스에 속할 가능성이 있는 큰 집단을 추출
- ex. 점수로 정렬하여 상위 20%를 기준으로 분류
[예측모델]
- 가장 대표적인 것은 회귀분석
- 예측 값이 실제 값과 100% 적중하기 어렵기 때문에 오차를 구해서 어느 정도까지 허용할지를 결정하는 것이 모델 성능평가
- 편차
- 평균으로부터 자료가 어떻게 분포되었는지를 확인
- 잔차
- 회귀분석에서 사용되고 회귀직선 모델에 적합도를 확인
- 회귀직선하고 실제 데이터가 얼마나 떨어져 있는지 평가
- 오차
- 데이터마이닝에서 모형의 성능을 평가
- 실제 값과 차이를 의미하고 정합도라고 한다.
[예측모델 평가척도]
- 평균오차
- 예측 값이 평균적으로 반응의 예측을 초과하거나 미달하는지 확인
- 절대평균오차
- 절대값을 사용해서 오차를 확인
- 평균백분율오차
- 예측 값이 실제 값과 얼마나 벗어났는지 확인
- 오차의 방향이 고려
- 절대평균백분율오차
- 예측결과가 평균적으로 얼마나 실제 값에서 벗어나는지를 백분율 점수로 나타낸다.
- 퍼센트에 절대값을 준 것
- 평균제곱오차의 제곱근
- 오차에 자승과 루트를 사용해서 표준편차와 비슷하며 많이 사용
[향상차트]
- 관심이 있는 클래스에 속할 가능성이 가장 높은 데이터의 부분집합을 추출
- 상대적으로 사례를 적게 선택하고 상대적으로 높은 응답자 비율을 찾는 것
- 기준선은 예측모델을 사용하지 않고 알 수 있는 선이고 기준선을 1로 할 때 예측모델을 사용하면 기준선보다 몇 배 더 높은 정확도를 갖는지 분석하는 것
[분류모델]
- 결과값이 범주형으로 대출 가능 혹은 불가, 신용상태 우수, 불량등의 데이터로 분류
- 데이터를 가장 잘 분류할 수 있는 예측 변수를 찾는 것이 가장 중요
[분류모델 평가기준]
- 일반화 가능성
- 데이터를 확장해서 적용 가능한지 평가
- 모집단 내의 다른 데이터에 적용해서 안정적인 결과를 제공하는 것을 의미
- 효율성
- 얼마나 효과적으로 구축 되었는지를 평가
- 적은 입력변수를 필요로 할수록 효율적
- 예측과 분류의 정확성
- 분석모형의 정확성 측면에서 평가
[오분류 오차]
- 오차는 실제 값과 예측 값의 차이로 분석모델이 실제 클래스가 아니라 다른 클래스로 분류한 것을 의미
- 오차율은 Validation 데이터의 오분류 비율
[정오행렬]
- 분류결과의 정확성을 평가하기 위한 방법을 제공
- Training 데이터와 Validation 데이터를 사용해서 검증하며, 과적합 검증도 가능
[경향]
- 결과변수가 범주형인 경우 클래스 소속도의 확률
[F-Measure]
- Precision과 Recall을 하나의 지표로 통합해서 정확성을 측정
- Precision(정확도)
- 양성으로 판단하는 것 중에서 진짜 양성의 비율
- Recall(재현율)
- 진짜 양성 중에서 양성으로 올바르게 판단한 비율
[ROC]
- ROC Curves는 모델의 성능을 평가하기 위한 방법 중에 하나로 민감도와 특이도를 사용해서 모델의 성능을 평가
- 민감도
- 실제 양성인데 모델도 양성으로 평가하는 비율
- 정분류와 오분류 중 과심 대상에 대해서 더 잘 맞추는지 확인
- 특이도
- 정상을 음성으로 평가하는 비율
- 민감도와 반대로 계산해서 관심없는 대상을 파악
728x90
'자격증 > ADsP (데이터분석 준전문가)' 카테고리의 다른 글
[데이터분석 준전문가 Day 13/독학] ADsP 5-5 빅데이터 시각화 정리본 (0) | 2022.08.19 |
---|---|
[데이터분석 준전문가 Day 12/독학] ADsP 5-3 비지도학습 정리본 (0) | 2022.08.18 |
[데이터분석 준전문가 Day 11/독학] ADsP 5-2 지도학습 정리본 (0) | 2022.08.17 |
[데이터분석 준전문가 Day 11/독학] ADsP 5-1 데이터마이닝 개요 정리본 (0) | 2022.08.17 |
[데이터분석 준전문가 Day 10/독학] ADsP 4-7 통계분석 정리본 (0) | 2022.08.12 |