자격증/ADsP (데이터분석 준전문가)

[데이터분석 준전문가 Day 9/독학] ADsP 4-5 통계적 추론 정리본

thisisjade 2022. 8. 11. 17:19
728x90

 

3과목 공부시작

 

 

[확률분포]

  • 확률변수가 특정 값을 가질 확률을 나타내는 함수
  • 통계량을 분석하여 통계적 의사결정을 내릴 수 있는 기준을 제시

 

- 이산확률분포: 일양균등분포, 이항분포, 포아송분포, 초기하분포, 기하분포

- 연속확률분포: 평균분포(정규분포, t-분포), 분산분포(X제곱분포, f-분포)

 

[확률변수]

  • 일정한 확률을 가지고 발생하는 사건에 여러 가지 값을 부여한 변수
  • 표본공간에 있는 각 원소에 대응하는 규칙 혹은 함수
  • 모든 원소를 실수로 대응하는 함수

 

- 이산확률변수: 정수로 특정한 수치만을 가지고 있다.(ex. 방문자수, 교통사고 건수)

- 연속확률변수: 실수로 어떤 범위의 연속 값을 가질 수 있는 변수(ex. 몸무게, 체온, 출근/퇴근 시간)

 

[이산확률분포]

  • 이산균등분포, 포아송분포, 베르누이분포, 기하분포, 초기하분포, 이항분포, 음의 이항분포, 다항분포
  • 확률변수가 0, 1, 2와 같이 이산적인 형태를 이루는 분포

 

- 이산확률변수

  • 특정 수치만을 가지고 있는 확률변수로 정수로 표현

 

- 이항분포

  • 베르누이 과정의 시행을 반복
  • 두 가지 결과 중 하나만 나타나게 시행하는 것으로 보통 "성공", "실패"로 표현
  • 베르누이분포: 확률변수가 0과 1의 두 가지 결과 값만을 가지고 서로 독립적으로 시행

 

- 포아송분포

  • 데이터 분석자가 설정한 시간에서 사건이 발생하는 건수
  • 포아송분포는 일정한 거리, 공간, 시간 상에서 드물게 발생하는 확률을 계산할 때 사용되는 분포
  • 시간 단위당 도착에 대한 모델에 많이 사용
  • 지수분포: 도착시간에 따른 시간을 측정할 때 사용하는 연속확률분포
  • ex. 일정한 거리의 전선에서 결점 수, 주어진 기간 동안 살인 사건의 수

 

- 초기하분포

  • 주어진 횟수만큼 반복되는 경우 성공할 횟수를 예측
  • 과거의 결과는 현재, 미래의 결과에 영향을 미치는 것으로 분석
  • 베르누이 시행조건에 만족되지 않는 경우 사용되는 확률분포

 

[연속확률분포]

  • 연속확률변수의 값에 대응하는 확률을 표시한 것

 

- 연속확률변수

  • 어떤 범위에서 연속적인 값을 가질 수 있는 실수
  • 자료는 각각 고유의 값을 가지고 있다.
  • ex. 몸무게, 체온, 수명

 

- 정규분포

  • 통계이론에서 중요한 확률분포로 샘플을 추출해서 모집단의 모수를 예측할 때 사용
  • 평균을 중심으로 좌우대칭 구조를 가지고 있는 확률분포
  • 면적을 계산할 때 적분을 사용해서 계산하면 매우 복잡하게 된다.
  • 확률변수를 측정단위와 관계 없이 자료를 표준화시켜서 한다.
  • 표준 확률변수: 표준화 시킨 확률변수, 평균으로부터 떨어진 거리 계산

 

- 경험적 법칙

  • k=1  68.26% 1시그마는 100명 중에서 68명이 1시그마 범위내에 있다는 것
  • k=2  95.44%
  • k=3  99.73%
  • 평균과 표준편차를 사용해서 면적을 계산

 

[통계적 추론] - 우리가 알지 못하는 대상에 대해서 통계적으로 접근하여 알아가는 과정

- 모수적 추론

  • 어떤 대상인 모집단의 분포가 어떤 분포일 것이라고 가정하고 모수에 대해서 추론
  • 모집단이 정규분포를 따른다면 분포의 모수는 평균과 분산

 

- 비모수적 추론

  • 비모수적 추론은 모집단에 대해서 어떠한 가정도 하지 않고 추론
  • 모집단을 몇 개의 모수로 결정하기 어려워서 많은 모수를 사용해야 할 떄 비모수적 추론
  • 정규분포를 가정하지 않기 때문에 평균과 분산이 없고 평균값의 차이, 신뢰구간을 구할 수가 없다.

 

[비모수적 검정]

- 부호 검정

  • 데이터 스토어에 저장된 정형 데이터 및 비정형 데이터를 분석하고 데이터 셋을 준비
  • 모평균가 모중앙 값은 분포 위치를 나타내는 모수로 만약 분포형태가 대칭이면 두 모수는 일치한다.

 

- Wilcoxon의 부호순위 검정

  • 두 집단을 비교할 때 관측치의 크기를 무시하고 B는 Mo을 중심으로 크고 작은 것만 고려

 

[베이지안 추론]

  • 베이지안 확률을 사용해서 추론하는 방법
  • 모수적 추론에서 가정한 분포의 모수로 추론
  • 인공지능에서 사전 데이터로부터 학습된 지식을 추가 데이터로 업데이트 할 때 사용

 

- 베이즈 정리

  • 독립사건 A와 B가 있을 때, A에 대해서 B의 조건부 확률 P(A|B)와 B에 대한 A의 조건부 확률 (B|A)는 일반적으로 같지 않다.

 

- 베이즈 정리를 사용한 베이지안 추론

  • 사전 경험과 현재 데이터를 사용해서 어떤 사건의 확률을 베이즈 정리를 사용해서 추론
  • P(B|A)는 가능도(Likelihood)로 "사건 A가 발생할 떄 명제 B가 발생할 조건부 확률"
  • P(B|A)와 P(A), P(B)를 통해서 P(A|B)를 얻을 수가 있으며 P(A|B)는 사후확률로 B라는 증거가 관찰된 후의 명제에 대한 확률

 

[통계적 추론의 목적과 방법에 따른 분류]

- 점추정

  • 미지의 모수에 대해 표본의 통계량을 사용해서 어떤 값으로 추정하는 과정
  • 단일 값으로 추정하는 방법

 

- 구간추정

  • 모수의 값이 포함될 것이라 생각되는 범위를 통해서 모수를 추정

 

- 가설검정

  • 검정통계량은 귀무가설을 기각하고 대립가설을 채택할지 아니면 귀무가설을 채탱하고 대립가설을 기각할 것인지에 대한 통계량

 

 

728x90