자격증/ADsP (데이터분석 준전문가)

[데이터분석 준전문가 Day 10/독학] ADsP 4-7 통계분석 정리본

thisisjade 2022. 8. 12. 17:46
728x90

 

3과목 공부시작

 

[통계분석]

  • 특정집단을 대상으로 자료를 수집하여 대상집단의 정보를 구해서 통계분석 기법으로 통계적 추론을 하는 일련의 과정을 의미

 

[차이검정]

  • 여러 개의 그룹 간의 차이를 비교하는 분석기법으로 평균과 분산차이를 분석

 

- 평균차이검정

  • 어떤 집단간에 평균차이를 검정하는 것으로 질적변수 1개와 연속변수 1개를 분석
  • 질적변수 1개는 집단을 구분하고 연속변수 1개는 평균을 계산

 

[평균검정]

  • 집단 간에 평균 값을 비교하는 분석기법으로 1종 오류가 발생할 수 있다.
  • summary()함수: 평균, 중심값, 최소 및 최대값, 사분위수
  • dim()함수: 관측치와 변수를 확인

 

- One Sample T-test: 하나의 집단에 평균이 얼마인지를 검사하는 방법

  • ex. 질적변수는 남자, 연속변수는 몸무게

 

- Independent Samples T-test: 독립된 두 집단 간에 평균의 차이를 검사하는 방법

  • 변수는 그룹으로 분류되고 그룹 간의 차이를 평균으로 비교하는 방법
  • ex. 범주형 변수: 도심내부, 도심외곽
  • ex. 연속형 변수: 학생들의 성적

 

- Paired Samples T-test: 하나의 집단을 처리 전과 처리 후로 나누어 분석하는 방법

  • 짝을 이루는 변수를 전후에 분류해서 분석

 

- t 검증

  • 두 집단 간에 평균 차이를 검증하기 위해서 사용
  • 표본의 크기가 30보다 크면 표준 정규분포에 가까워지고 30보다 작으면 예측범위가 좀 더 높은 t-분포를 사용해야 한다.

 

[독립표본과 대응표본의 차이점]

- 독립표본

  • 그룹으로 분류하고 그룹의 평균을 계산
  • 그룹간의 평균을 비교
  • ex. 남자의 성적 평균과 여자의 성적 평균을 비교

 

- 대응표본

  • 동일한 대상을 두 번 반복해서 측정
  • 예를 들어 각 객체의 평균을 계산 후에 다시 한 번 객체의 평균을 계산해서 차이를 비교

 

[분산분석]

  • 전체분산을 여러 개로 분할하여 분석하는 것으로 어떤 요인의 영향이 유의한지를 검정
  • 집단이 3개 이상일 경우 사용
  • 두 개 이상의 집단을 비교할 때 사용하며 각 집단의 평균 차이에 의해서 발생되는 집단 간의 분산을 비교

 

- F값

  • F값 = 집단 간의 변량 / 집단 내의 변량
  • F값이 클수록 집단 간 변량이 집단 내 변량보다 커진다는 것을 의미

 

- One way ANOVA: 한 개의 집단구분 변수를 사용

  • 종속변수 한 개와 독립변수 한 개로 이루어진 데이터에서 사용하는 것
  • 종속변수는 집단으로 분류되어 있는 경우에 사용
  • One way ANOVA는 하나의 변수에 그룹이 3개 이상

 

- Two way ANOVA: 동시에 두 개의 집단구분 변수를 사용

  • 독립변수가 두 개 이상인 경우 집단 간의 차이를 분석하여 유의성을 확인
  • 평균 반응 프로파일을 사용하여 두 개의 변수 간에 상호작용을 확인

 

- Repeated Measured ANOVA: 집단이 3개이고 반복적으로 측정

  • 시점 데이터를 사용해서 전과 후로 분석

 

[관계검정]

  • 차이검정: 그룹 간의 차이를 분석(평균, 분산)하는 것
  • 관계검정: 변수와 변수의 관계(연관성)를 검정

 

[상관분석]

  • 두 개의 변수 간에 관계를 통계적 기법으로 분석하는 행위로 변수 간에 인과관계가 명확하지 않을 때 사용
  • 선형관계를 전제

 

- 상관분석

  • 어떤 변수가 원인이고 결과인지를 알 수 없을 때 사용하는 분석
  • 데이터가 밀집하게 모여 있는지를 분석

 

- 회귀분석

  • 독립변수가 종속변수에 미치는 영향을 확인하는 분석 기법
  • 종속변수와 관련있는 독립변수를 찾거나 독립변수들 간 관계를 이해할 때 사용
  • 독립변수 X의 변화에 따른 Y의 변화를 분석

 

- 공분산

  • 두 변수가 공통분산을 사용
  • x의 분산과 y의 분산을 공유
  • 척도 단위에 민감성이 크기 때문에 표준화를 수행해야 한다.
  • 표준화 시킨다는 것은 그 값이 0에서 1사이의 값을 가진다는 의미

 

- 상관계수

  • 두 변수의 관계를 하나의 수치로 나타내는 척도
  • 표본을 대상으로 분석하기 때문에 r으 표본 상관계수, p는 모상관계수
  • 공분산은 척도단위에 민감하게 반응하기 때문에 상관계수는 표준화를 시킨 것이다.
  • 상관계수 r이 0이면 상관관계 없음, 1 혹은 -1이면 상관관계 높음
  • 상관계수가 1에 가까우면 양의 관계, -1에 가까우면 음의 관계

 

- 상관계수의 검정

  • 귀무가설: 두 변수간은 상관관계가 없다.
  • 대립가설: 두 변수간은 상관관계가 있다.
  • x1 벡터와 x2 벡터가 정의되었으면 cor함수를 사용해서 상관계수를 구할 수가 있다.

 

- Pearson 상관계수

  • 두 변수간에 선형관계 크기를 측정
  • 비선형 상관관계는 측정하지 못한다.
  • 연속적 변수만 가능

 

- Spearman 상관계수

  • 두 변수 간에 선형과 비선형 관계를 모두 측정할 수 있다.
  • 연속적인 변수와 이산형, 순서형도 가능

 

[회귀분석]

  • 변수 간의 인과관계를 분석하는 것
  • 상관관계에서 두 가지 변수는 변수 간에 원인과 결과가 없는 균등한 변수
  • 1대 N의 관계에서 데이터를 분석하는 방법

 

- 독립변수와 종속변수

  • 독립변수: 독립변수의 변화가 종속변수에 영향을 주는 변수
  • 종속변수: 독립변수에 영향을 받는 변수

 

[회귀분석의 목적]

- 예측

  • 원인변수에 영향을 받는 기울기(회귀계수)를 찾아서 Y를 예측
  • 변수를 비표준화하여 사용
  • 경제학에서 많이 사용

 

- 설명

  • 원인변수와 종속변수 간의 종속변수에 가장 영향을 주는 변수를 설명
  • 영향력이 높은 원인변수를 설명
  • 변수를 표준화하여 사용
  • 마케팅에서 많이 사용

 

[선형회귀 모델]

  • X변수에 대한 Y변수를 알기 위해서, 가장 좋은 직선을 찾기 위해서 분석
  • 최소제곱법에 의해 직선을 찾게 된다.

 

- X와 Y변수의 관계

  • 확정적 관계: 오차가 없이 X변수만으로 Y변수를 100% 표현할 수 있는 것
  • 확률적 관계: X변수만으로 Y변수를 100% 설명할 수 없는 경우로 오차항이 있다.

 

- 기울기: 통계에서는 회귀계수라고 하고 데이터마이닝에서는 가중치라고한다.

 

- 상관계수와 회귀계수의 차이점

  • 상관계수: 데이터가 모여있는지를 분석
  • 회귀계수: X가 변화할 때 Y가 얼마나 변화하는지를 분석하는 것

 

- 선형회귀 모델의 가정: 독립변수와 종속변수는 선형관계

 

[비용함수]

  • 데이터 분포의 차이를 계산하여 차이가 가장 적은 것을 모델에 사용

 

- 최소제곱법

  • 회기식을 예측하기 위해서 예측치와 관찰치의 차이인 잔차들의 제곱의 합이 최소가 되도록 회귀계수를 추정하는 방법

- 미분과 적분을 하는 이유

  • 미분: 최소점인 0이 되는 지점을 찾기 위해서 한다.
  • 적분: 면적을 계산하기 위해서 한다.

 

- 최소제곱법에서 사용하는 편미분

  • 다변수함수에 대하여 그 중 하나를 주목하고 나머지 변수를 고정시켜 놓고 그 변수로 미분하는 것을 의미

 

- 경사하강법

  • 손실(Cost)을 줄이는 알고리즘으로 미분값(기울기)이 최소가 되는 점을 찾아 Weight(가중치)를 찾는 방법

 

- 편차(Deviation)

  • 평균으로부터 자료가 어떻게 분포되었는지를 확인
  • 분산, 표준편차를 사용

 

- 잔차(Residuals)

  • 회귀분석에서 사용되고 회귀직선 모델에 적합도를 확인

 

- 오차(Error)

  • 데이터마이닝에서 모형의 성능을 평가
  • 실제 값과 차이를 의미하며 정합도라고 한다.

 

- 회귀식의 적합도

  • 회귀모형이 종속변수를 얼마나 잘 설명하고 있는지를 확인

 

[다중선형회귀]

  • 여러 개의 변수를 두고 종속변수에 미치는 영향을 분석
  • 여러 개의 변수 중에서 종속변수에 가장 영향을 많이 미치는 변수가 무엇인지를 분석

 

- 변수 선택 방법

  • Enter(입력): 모든 독립변수를 한꺼번에 투입해서 분석
  • Forward(전진): 아무런 변수도 투입하지 않은 상태에서 투입기준에 따라서 하나씩 변수를 입력
  • Backward(후진): 모든 변수를 투입한 후에 제거기준으로 하나씩 변수를 제거
  • Stepwise(단계선택): Forward와 Backward를 하면서 변수를 추가, 제거 한다.

 

- 다중공선성

  • 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제
  • 독립변수가 많이 투입되면 회귀식의 설명력(결정계수)이 높아지지만 회귀계수를 신뢰하지 못하게 되는 문제

 

[로지스틱 회귀분석]

  • 종속변수가 두가지 분류로 되었을 때 영향을 미치는 독립변수를 분석
  • 종속변수: 범주형 변수를 사용하는 회귀분석 방법
  • 독립변수: 범주형과 연속형으로 혼합된 경우에 사용하는 회귀분석 방법

 

- 비율과 승산비의 차이점

  • 비율: 전체에 대한 퍼센트를 구하는 것
  • 승산비: 비율가 다르게 전체 수에 대한 퍼센트를 구하는 것이 아니라 특정기준으로 기준과의 영향을 파악한다.(ex. 승산비 = 여성/남성)

 

[교차분석]

  • 두 개의 질적변수간에 연관관계를 분석하기 위해서 교차분석표를 작성하고 변수들 간에 관계를 분석하는 방법
  • ex. 연령별, 시간대별 유튜브 채널 선호도 비교

 

- 사전 교차분석: 실험을 설계하고 특정한실험을 하면서 분석을 수행

- 사후 교차분석: 이미 발생한 사건을 기준으로 분석해야 하는 것을 의미

 

 

728x90