3과목 공부시작
[기술통계]
- 표본: 조사하기 위해 추출한 모집단의 일부 원소
- 모수: 표본 관측으로 구하고자 하는 모집단에 대한 정보
- 모집단으로부터 수집된 자료를 정리, 요약하여 자료의 특징을 분석
- 표 및 그래프, 객관적인 수치를 사용해서 요약
- 질적자료 - 성별, 학년과 같은 구분을 하는 변수
- 연속자료 - 수량과 같은 수치자료
[질적자료 기술통계]
- 도수분포표 (막대그래프)
- 수집된 자료에 대해서 적절한 등급으로 분류해서 정리한 표
- 관측값을 여러 개의 그룹으로 나누고 관측값의 수를 요약 정리한 표
- 분할표(일원분할표, 이원분할표)
[연속자료 기술통계]
- 자료의 분포 특성을 파악하기 위해서 숫자로 표현
- 중심위치: 관측 자료가 어디에 집중되어 있는지를 분석(ex. 산술평균, 중앙값, 최빈값, 기하평균, 조화평균, 가중평균)
- 산포경향: 자료가 중심위치를 기준을 어느 정도 흩어져 있는지를 분석(ex. 범위 편차, 표준편차)
[중심위치]
구분 | 평균 | 중앙값 | 최빈값 |
의미 | 자료의 합을 개수로 나눈 값 | 중앙에 있는 값 | 자료 중 빈도가 가장 많이 나타나는 값 |
장점 | 자료의 값을 모두 사용 | 극단적인 값이 있을 때 자료의 특성을 잘 반영 | 쉽게 계산이 가능 |
단점 | 극단적인 값이 있으면 자료의 특성을 반영하지 못함 | 모든 자료를 사용하지 않음 | 자료의 수가 적으면 중심 경향을 잘 반영하지 못한다. |
- 산술평균: 전체 합계를 개수로 나눈 값
- 가중평균: 평균을 계산할 때 자료의 중요도 및 영향 등에 따라서 가중치를 반영한 평균값
- 기하평균: 연간 경제성장률, 물가 인상율, 연간 이자율 등과 같은 곳에 사용
- 조화평균: 여러 단위가 결합될 때 평균적인 변화를 계산
- 절단평균: 가장 큰 값과 작은 값을 잘라내고 산술평균을 구하는 것
[산포경향]
- 범위
- 자료의 최대 값에서 최소값을 뺀 것
- 이상 값에 민감하게 영향을 받는다.
- 실제로 사용되지 않는다.
- 분산: 편차의 제곱
- 자료가 평균을 중심으로 얼마나 분포하고 있는가를 하나의 수치로 나타내는 통계량
- 확률변수가 기대 값으로부터 얼마나 떨어진 곳에 분포하는지를 나타내는 숫자
- 값이 클 경우 평균으로부터 넓게 퍼져있다는 뜻
- 표준편차: 분산 값의 루트
- 값이 크다: 평균으로부터 멀리 떨어져 있다.
- 값이 작다: 평균 값에 값들이 몰려 있다는 것이다.
- 변동계수
- 측정 단위가 다른 자료나 자료 값의 차이가 너무 큰 경우 사용
- 상대 표준편차
[그래프]
- 히스토그램
- 각 구간별 현황 및 대칭 여부를 확인
- 데이터의 이상값 유무를 확인
- 상자 그림
- 대칭여부, 이상값, 자료의 분포를 확인
- 최대값, 최소값, 중위값 및 이상값을 확인
- 시계열 분석
- 관측치가 시간적 순서를 가지고 있다.
- 시계열 데이터를 사용해서 추세분석, 원인 예측, 전망 등을 분석
- 시계열 데이터의 목적은 미래를 예측한느 것
[시계열 데이터 구성요소]
- 추세: 기술 혁신, 인구증가, 문화의 변화 등과 같이 장기간에 걸쳐 일정한 방향으로 지속적으로 상승하거나 하강하는 경향
- Lowess/Loess 회귀: 특정 범위에 다항 회귀선을 구하여 병합하는 방법
- 이동평균: 특정 기간 동안의 값의 평균변화를 분석
- 계절적 변동: 봄, 여름, 가을, 겨울에 따라서 특정 소비가 증가하거나 감소하는 형태
- 주기적 변경: 경기동향, 실업률, 이자율과 같이 일정한 주기를 가지고 장기간에 걸쳐 변동
- 임의변동: 불규칙 변동이라고 하며 우연한 요인에 의해서 발생되기 때문에 패턴을 가지고 있지않다.
[시계열 예측분석]
- 고전적인 방법: 분해분석법, 이동평균, 지수분할법
- 확률적 방법: 시간영역, 주파수영역
- 단순 이동평균: 이동평균 중에서 추세가 없는 경우에 적용하는 방법
- 평활법: 불규칙한 변동을 평탄하게 하여 예측값을 구하는 방법
- 가중 이동평균
- 단순 이동평균에 가중치가 반영된 것
- m기간의 값에 가중치를 곱해서 예측값이 m+1기간
- 지수평활법
- 과거의 모든 자료를 사용하고 장기적인 추세가 있는 경우에 사용
- 계절모형과 비계절 모형으로 분류
- 자기회귀모델
- 자기회귀, 자기 자신에 대한 변수의 회귀라는 의미
- 목표변수들의 선형조합을 이용하여 관심 변수를 예측하는 방법
- 자기상관모형
- 어떤 Random변수에 대해서 이전의 값이 이후 값에 미치는 상황
[안정적 시계열]
- 정적 데이터
- 평균 분산 등의 통계적 특성이 변화되지 않는 데이터를 의미
- 시간이 지나도 분포도에 변화가 없다.
- 이동 평균 모델: T시점과 이전 시점들 사건의 영향의 가중평균, 오래된 사건은 영향도가 낮아진다.
- 자가 회귀모델: T시점의 값은 이전 트겅 시점의 값에 영향을 준다, 자기상관함수, 자기부분 상관함수를 사용
- 자가회귀 이동평균 모델: 자기 연관성과 자기 회귀성을 검사
- 비정적 데이터
- ARIMA는 시계열 분석기법으로 과거 관측값과 오차를 사용해서 현재 시계열 값을 설명하는 것
- 변동 형태로 예측이 가능한 장점 → 채권시장, 증권시장 등에서 많이 사용
'자격증 > ADsP (데이터분석 준전문가)' 카테고리의 다른 글
[데이터분석 준전문가 Day 9/독학] ADsP 4-5 통계적 추론 정리본 (0) | 2022.08.11 |
---|---|
[데이터분석 준전문가 Day 8/독학] ADsP 4-4 추리통계 정리본 (0) | 2022.08.10 |
[데이터분석 준전문가 Day 7/독학] ADsP 4-2 표본조사 정리본 (0) | 2022.08.09 |
[데이터분석 준전문가 Day 7/독학] ADsP 4-1 자료분석 정리본 (0) | 2022.08.09 |
[데이터분석 준전문가 Day 6/독학] ADsP 3-3 결측값 처리와 이상값 검색 정리본 (0) | 2022.08.08 |