자격증/ADsP (데이터분석 준전문가)

[데이터분석 준전문가 Day 7/독학] ADsP 4-3 기술통계 정리본

thisisjade 2022. 8. 9. 17:13
728x90

 

3과목 공부시작

 

[기술통계]

- 표본: 조사하기 위해 추출한 모집단의 일부 원소

- 모수: 표본 관측으로 구하고자 하는 모집단에 대한 정보

  • 모집단으로부터 수집된 자료를 정리, 요약하여 자료의 특징을 분석
  • 표 및 그래프, 객관적인 수치를 사용해서 요약
  • 질적자료 - 성별, 학년과 같은 구분을 하는 변수
  • 연속자료 - 수량과 같은 수치자료

 

[질적자료 기술통계]

- 도수분포표 (막대그래프)

  • 수집된 자료에 대해서 적절한 등급으로 분류해서 정리한 표
  • 관측값을 여러 개의 그룹으로 나누고 관측값의 수를 요약 정리한 표

 

- 분할표(일원분할표, 이원분할표)

 

[연속자료 기술통계]

  • 자료의 분포 특성을 파악하기 위해서 숫자로 표현
  • 중심위치: 관측 자료가 어디에 집중되어 있는지를 분석(ex. 산술평균, 중앙값, 최빈값, 기하평균, 조화평균, 가중평균)
  • 산포경향: 자료가 중심위치를 기준을 어느 정도 흩어져 있는지를 분석(ex. 범위 편차, 표준편차)

 

[중심위치]

구분 평균 중앙값 최빈값
의미 자료의 합을 개수로 나눈 값 중앙에 있는 값 자료 중 빈도가 가장 많이 나타나는 값
장점 자료의 값을 모두 사용 극단적인 값이 있을 때 자료의 특성을 잘 반영 쉽게 계산이 가능
단점 극단적인 값이 있으면 자료의 특성을 반영하지 못함 모든 자료를 사용하지 않음 자료의 수가 적으면 중심 경향을 잘 반영하지 못한다.

- 산술평균: 전체 합계를 개수로 나눈 값

- 가중평균: 평균을 계산할 때 자료의 중요도 및 영향 등에 따라서 가중치를 반영한 평균값

- 기하평균: 연간 경제성장률, 물가 인상율, 연간 이자율 등과 같은 곳에 사용

- 조화평균: 여러 단위가 결합될 때 평균적인 변화를 계산

- 절단평균: 가장 큰 값과 작은 값을 잘라내고 산술평균을 구하는 것

 

[산포경향]

- 범위

  • 자료의 최대 값에서 최소값을 뺀 것
  • 이상 값에 민감하게 영향을 받는다.
  • 실제로 사용되지 않는다.

 

- 분산: 편차의 제곱

  • 자료가 평균을 중심으로 얼마나 분포하고 있는가를 하나의 수치로 나타내는 통계량
  • 확률변수가 기대 값으로부터 얼마나 떨어진 곳에 분포하는지를 나타내는 숫자
  • 값이 클 경우 평균으로부터 넓게 퍼져있다는 뜻

 

- 표준편차: 분산 값의 루트

  • 값이 크다: 평균으로부터 멀리 떨어져 있다.
  • 값이 작다: 평균 값에 값들이 몰려 있다는 것이다.

 

- 변동계수

  • 측정 단위가 다른 자료나 자료 값의 차이가 너무 큰 경우 사용
  • 상대 표준편차

 

[그래프]

- 히스토그램

  • 각 구간별 현황 및 대칭 여부를 확인
  • 데이터의 이상값 유무를 확인

 

- 상자 그림

  • 대칭여부, 이상값, 자료의 분포를 확인
  • 최대값, 최소값, 중위값 및 이상값을 확인

 

- 시계열 분석

  • 관측치가 시간적 순서를 가지고 있다.
  • 시계열 데이터를 사용해서 추세분석, 원인 예측, 전망 등을 분석
  • 시계열 데이터의 목적은 미래를 예측한느 것

 

[시계열 데이터 구성요소]

- 추세: 기술 혁신, 인구증가, 문화의 변화 등과 같이 장기간에 걸쳐 일정한 방향으로 지속적으로 상승하거나 하강하는 경향

  • Lowess/Loess 회귀: 특정 범위에 다항 회귀선을 구하여 병합하는 방법
  • 이동평균: 특정 기간 동안의 값의 평균변화를 분석

 

- 계절적 변동: 봄, 여름, 가을, 겨울에 따라서 특정 소비가 증가하거나 감소하는 형태

- 주기적 변경: 경기동향, 실업률, 이자율과 같이 일정한 주기를 가지고 장기간에 걸쳐 변동

- 임의변동: 불규칙 변동이라고 하며 우연한 요인에 의해서 발생되기 때문에 패턴을 가지고 있지않다.

 

[시계열 예측분석]

- 고전적인 방법: 분해분석법, 이동평균, 지수분할법

- 확률적 방법: 시간영역, 주파수영역

 

- 단순 이동평균: 이동평균 중에서 추세가 없는 경우에 적용하는 방법

  • 평활법: 불규칙한 변동을 평탄하게 하여 예측값을 구하는 방법

 

- 가중 이동평균

  • 단순 이동평균에 가중치가 반영된 것
  • m기간의 값에 가중치를 곱해서 예측값이 m+1기간

 

- 지수평활법

  • 과거의 모든 자료를 사용하고 장기적인 추세가 있는 경우에 사용
  • 계절모형과 비계절 모형으로 분류

 

- 자기회귀모델

  • 자기회귀, 자기 자신에 대한 변수의 회귀라는 의미
  • 목표변수들의 선형조합을 이용하여 관심 변수를 예측하는 방법

 

- 자기상관모형

  • 어떤 Random변수에 대해서 이전의 값이 이후 값에 미치는 상황

 

[안정적 시계열]

- 정적 데이터

  • 평균 분산 등의 통계적 특성이 변화되지 않는 데이터를 의미
  • 시간이 지나도 분포도에 변화가 없다.
  • 이동 평균 모델: T시점과 이전 시점들 사건의 영향의 가중평균, 오래된 사건은 영향도가 낮아진다.
  • 자가 회귀모델: T시점의 값은 이전 트겅 시점의 값에 영향을 준다, 자기상관함수, 자기부분 상관함수를 사용
  • 자가회귀 이동평균 모델: 자기 연관성과 자기 회귀성을 검사

 

- 비정적 데이터

  • ARIMA는 시계열 분석기법으로 과거 관측값과 오차를 사용해서 현재 시계열 값을 설명하는 것
  • 변동 형태로 예측이 가능한 장점 → 채권시장, 증권시장 등에서 많이 사용

 

 

728x90