728x90
3과목 공부시작
[확률분포]
- 확률변수가 특정 값을 가질 확률을 나타내는 함수
- 통계량을 분석하여 통계적 의사결정을 내릴 수 있는 기준을 제시
- 이산확률분포: 일양균등분포, 이항분포, 포아송분포, 초기하분포, 기하분포
- 연속확률분포: 평균분포(정규분포, t-분포), 분산분포(X제곱분포, f-분포)
[확률변수]
- 일정한 확률을 가지고 발생하는 사건에 여러 가지 값을 부여한 변수
- 표본공간에 있는 각 원소에 대응하는 규칙 혹은 함수
- 모든 원소를 실수로 대응하는 함수
- 이산확률변수: 정수로 특정한 수치만을 가지고 있다.(ex. 방문자수, 교통사고 건수)
- 연속확률변수: 실수로 어떤 범위의 연속 값을 가질 수 있는 변수(ex. 몸무게, 체온, 출근/퇴근 시간)
[이산확률분포]
- 이산균등분포, 포아송분포, 베르누이분포, 기하분포, 초기하분포, 이항분포, 음의 이항분포, 다항분포
- 확률변수가 0, 1, 2와 같이 이산적인 형태를 이루는 분포
- 이산확률변수
- 특정 수치만을 가지고 있는 확률변수로 정수로 표현
- 이항분포
- 베르누이 과정의 시행을 반복
- 두 가지 결과 중 하나만 나타나게 시행하는 것으로 보통 "성공", "실패"로 표현
- 베르누이분포: 확률변수가 0과 1의 두 가지 결과 값만을 가지고 서로 독립적으로 시행
- 포아송분포
- 데이터 분석자가 설정한 시간에서 사건이 발생하는 건수
- 포아송분포는 일정한 거리, 공간, 시간 상에서 드물게 발생하는 확률을 계산할 때 사용되는 분포
- 시간 단위당 도착에 대한 모델에 많이 사용
- 지수분포: 도착시간에 따른 시간을 측정할 때 사용하는 연속확률분포
- ex. 일정한 거리의 전선에서 결점 수, 주어진 기간 동안 살인 사건의 수
- 초기하분포
- 주어진 횟수만큼 반복되는 경우 성공할 횟수를 예측
- 과거의 결과는 현재, 미래의 결과에 영향을 미치는 것으로 분석
- 베르누이 시행조건에 만족되지 않는 경우 사용되는 확률분포
[연속확률분포]
- 연속확률변수의 값에 대응하는 확률을 표시한 것
- 연속확률변수
- 어떤 범위에서 연속적인 값을 가질 수 있는 실수
- 자료는 각각 고유의 값을 가지고 있다.
- ex. 몸무게, 체온, 수명
- 정규분포
- 통계이론에서 중요한 확률분포로 샘플을 추출해서 모집단의 모수를 예측할 때 사용
- 평균을 중심으로 좌우대칭 구조를 가지고 있는 확률분포
- 면적을 계산할 때 적분을 사용해서 계산하면 매우 복잡하게 된다.
- 확률변수를 측정단위와 관계 없이 자료를 표준화시켜서 한다.
- 표준 확률변수: 표준화 시킨 확률변수, 평균으로부터 떨어진 거리 계산
- 경험적 법칙
- k=1 68.26% 1시그마는 100명 중에서 68명이 1시그마 범위내에 있다는 것
- k=2 95.44%
- k=3 99.73%
- 평균과 표준편차를 사용해서 면적을 계산
[통계적 추론] - 우리가 알지 못하는 대상에 대해서 통계적으로 접근하여 알아가는 과정
- 모수적 추론
- 어떤 대상인 모집단의 분포가 어떤 분포일 것이라고 가정하고 모수에 대해서 추론
- 모집단이 정규분포를 따른다면 분포의 모수는 평균과 분산
- 비모수적 추론
- 비모수적 추론은 모집단에 대해서 어떠한 가정도 하지 않고 추론
- 모집단을 몇 개의 모수로 결정하기 어려워서 많은 모수를 사용해야 할 떄 비모수적 추론
- 정규분포를 가정하지 않기 때문에 평균과 분산이 없고 평균값의 차이, 신뢰구간을 구할 수가 없다.
[비모수적 검정]
- 부호 검정
- 데이터 스토어에 저장된 정형 데이터 및 비정형 데이터를 분석하고 데이터 셋을 준비
- 모평균가 모중앙 값은 분포 위치를 나타내는 모수로 만약 분포형태가 대칭이면 두 모수는 일치한다.
- Wilcoxon의 부호순위 검정
- 두 집단을 비교할 때 관측치의 크기를 무시하고 B는 Mo을 중심으로 크고 작은 것만 고려
[베이지안 추론]
- 베이지안 확률을 사용해서 추론하는 방법
- 모수적 추론에서 가정한 분포의 모수로 추론
- 인공지능에서 사전 데이터로부터 학습된 지식을 추가 데이터로 업데이트 할 때 사용
- 베이즈 정리
- 독립사건 A와 B가 있을 때, A에 대해서 B의 조건부 확률 P(A|B)와 B에 대한 A의 조건부 확률 (B|A)는 일반적으로 같지 않다.
- 베이즈 정리를 사용한 베이지안 추론
- 사전 경험과 현재 데이터를 사용해서 어떤 사건의 확률을 베이즈 정리를 사용해서 추론
- P(B|A)는 가능도(Likelihood)로 "사건 A가 발생할 떄 명제 B가 발생할 조건부 확률"
- P(B|A)와 P(A), P(B)를 통해서 P(A|B)를 얻을 수가 있으며 P(A|B)는 사후확률로 B라는 증거가 관찰된 후의 명제에 대한 확률
[통계적 추론의 목적과 방법에 따른 분류]
- 점추정
- 미지의 모수에 대해 표본의 통계량을 사용해서 어떤 값으로 추정하는 과정
- 단일 값으로 추정하는 방법
- 구간추정
- 모수의 값이 포함될 것이라 생각되는 범위를 통해서 모수를 추정
- 가설검정
- 검정통계량은 귀무가설을 기각하고 대립가설을 채택할지 아니면 귀무가설을 채탱하고 대립가설을 기각할 것인지에 대한 통계량
728x90
'자격증 > ADsP (데이터분석 준전문가)' 카테고리의 다른 글
[데이터분석 준전문가 Day 10/독학] ADsP 4-7 통계분석 정리본 (0) | 2022.08.12 |
---|---|
[데이터분석 준전문가 Day 9/독학] ADsP 4-6 가설 정리본 (0) | 2022.08.11 |
[데이터분석 준전문가 Day 8/독학] ADsP 4-4 추리통계 정리본 (0) | 2022.08.10 |
[데이터분석 준전문가 Day 7/독학] ADsP 4-3 기술통계 정리본 (0) | 2022.08.09 |
[데이터분석 준전문가 Day 7/독학] ADsP 4-2 표본조사 정리본 (0) | 2022.08.09 |