자격증/ADsP (데이터분석 준전문가)

[데이터분석 준전문가 Day 9/독학] ADsP 4-6 가설 정리본

thisisjade 2022. 8. 11. 18:57
728x90

 

3과목 공부시작

 

[가설검증]

  • 가설의 진실여부를 증명하는 것
  • 유의성 검정: 통계적 유의성을 검정하는 것
  • 모수에서 표본을 사용하여 진실여부를 True 혹은 False로 판단
  • 귀무가설이 사실이라고 가정하고 검증

 

- 귀무가설

  • 모집단과 표본평균은 같다.
  • 비교하는 값과 차이가 없다는 것은 기본 개념으로 설정하는 가설
  • 일반적으로 진실이라고 믿고 있는 사실
  • 통계적 검정대상

 

- 대립가설

  • 모집단과 표본의 평균은 다르다.
  • 단측가설과 양측가설로 분류
  • 귀무가설과 대립하는 가설로 새로운 사실을 입증
  • 모수의 표본을 사용해서 검증

 

[가설검정의 종류]

  • 귀무가설을 채택할 것인지 기각할 것인지 검증

 

- 우측검정: 오른쪽 5% 내에 있는지를 확인

- 좌측검정: 왼쪽 5% 내에 있는지를 확인

- 양측검정: 우측과 좌측 2.5% 내에 있는지를 확인

 

[가설검증의 절차]

- 귀무가설과 대립가설 설정: 귀무가설을 설정하고 우측검정, 좌측검정, 양측검정을 수행

- 유의수준 설정: 0.05(5%)의 유의수준을 설정

- 검정방법 선택: 통계적분석 방법을 설정

- 검정 통계량 계산: 검정 통계량과 유의확률(p-value)을 계산

- 통계적인 의사결정: 비즈니스적으로 의사결정을 한다.

 

- 검정 통계량

  • 표본 데이터에서 계산되어 가설검정에 사용되는 랜덤변수
  • 귀무가설의 기각 및 채택여부를 판단
  • 통계적 가설검정을 위해서 확률분포를 결정하는데 사용되는 통계량
  • Z분포, F분포 등의 확률분포가 있다.

 

[1종오류와 2종오류]

- 1종 오류(알파 위험)

  • 귀무가설이 진실인데 귀무가설을 기각하는 오류
  • 잘못된 부정적 의견을 표명하는 오류
  • 기각 오류
  • 과소 신뢰의 오류

 

- 2종 오류(베타 위험)

  • 잘못된 적정 의견을 표명하는 오류
  • 채택 오류
  • 과대 신뢰의 오류

 

[유의확률(p-value)]

  • 진실이라는 가정에서 표본 통계량의 값이 나타내는 확률
  • 95%의 신뢰도를 기준으로 가설판단에 사용

 

- p-value < 0.05: 귀무가설이 참일 확률이 매우 작다.

- p-value > 0.1: 귀무가설이 참일 확률이 매우 크다.

 

[검정통계량]

  • 귀무가설이 참이라는 가정에서 얻은 통계량
  • Z-통계량 혹은 T-통계량이 널리 사용
  • 검정통계량 = (표본평균 - 모평균) / 표본표준편차

 

[신뢰구간] - 표본 통계량에서 파생되어서 알 수 없는 모집단 모수값이 포함될 값의 범위

- 신뢰수준: 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제모수를 포함하게 되는 가에 대한 것

- 유의수준: 표본의 평균이 모평균과 같은데, 표본의 평균이 모평균과 다르다고 선택하는 오류를 범할 허용한계

- 신뢰도: 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단하는 확률

  • 검정통계량(Z-score)이 임계값 밖에 있는 경우에 대립가설은 채택
  • p-value가 유의수준(0.05)보다 작으면 대립가설은 채택

 

 

728x90