[데이터분석 준전문가 Day 10/독학] ADsP 4-7 통계분석 정리본

자격증/ADsP (데이터분석 준전문가)

[데이터분석 준전문가 Day 10/독학] ADsP 4-7 통계분석 정리본

thisisjade 2022. 8. 12. 17:46

728x90

~~3과목 공부시작~~

[통계분석]

특정집단을 대상으로 자료를 수집하여 대상집단의 정보를 구해서 통계분석 기법으로 통계적 추론을 하는 일련의 과정을 의미

[차이검정]

여러 개의 그룹 간의 차이를 비교하는 분석기법으로 평균과 분산차이를 분석

- 평균차이검정

어떤 집단간에 평균차이를 검정하는 것으로 질적변수 1개와 연속변수 1개를 분석
질적변수 1개는 집단을 구분하고 연속변수 1개는 평균을 계산

[평균검정]

집단 간에 평균 값을 비교하는 분석기법으로 1종 오류가 발생할 수 있다.
summary()함수: 평균, 중심값, 최소 및 최대값, 사분위수
dim()함수: 관측치와 변수를 확인

- One Sample T-test: 하나의 집단에 평균이 얼마인지를 검사하는 방법

ex. 질적변수는 남자, 연속변수는 몸무게

- Independent Samples T-test: 독립된 두 집단 간에 평균의 차이를 검사하는 방법

변수는 그룹으로 분류되고 그룹 간의 차이를 평균으로 비교하는 방법
ex. 범주형 변수: 도심내부, 도심외곽
ex. 연속형 변수: 학생들의 성적

- Paired Samples T-test: 하나의 집단을 처리 전과 처리 후로 나누어 분석하는 방법

짝을 이루는 변수를 전후에 분류해서 분석

- t 검증

두 집단 간에 평균 차이를 검증하기 위해서 사용
표본의 크기가 30보다 크면 표준 정규분포에 가까워지고 30보다 작으면 예측범위가 좀 더 높은 t-분포를 사용해야 한다.

[독립표본과 대응표본의 차이점]

- 독립표본

그룹으로 분류하고 그룹의 평균을 계산
그룹간의 평균을 비교
ex. 남자의 성적 평균과 여자의 성적 평균을 비교

- 대응표본

동일한 대상을 두 번 반복해서 측정
예를 들어 각 객체의 평균을 계산 후에 다시 한 번 객체의 평균을 계산해서 차이를 비교

[분산분석]

전체분산을 여러 개로 분할하여 분석하는 것으로 어떤 요인의 영향이 유의한지를 검정
집단이 3개 이상일 경우 사용
두 개 이상의 집단을 비교할 때 사용하며 각 집단의 평균 차이에 의해서 발생되는 집단 간의 분산을 비교

- F값

F값 = 집단 간의 변량 / 집단 내의 변량
F값이 클수록 집단 간 변량이 집단 내 변량보다 커진다는 것을 의미

- One way ANOVA: 한 개의 집단구분 변수를 사용

종속변수 한 개와 독립변수 한 개로 이루어진 데이터에서 사용하는 것
종속변수는 집단으로 분류되어 있는 경우에 사용
One way ANOVA는 하나의 변수에 그룹이 3개 이상

- Two way ANOVA: 동시에 두 개의 집단구분 변수를 사용

독립변수가 두 개 이상인 경우 집단 간의 차이를 분석하여 유의성을 확인
평균 반응 프로파일을 사용하여 두 개의 변수 간에 상호작용을 확인

- Repeated Measured ANOVA: 집단이 3개이고 반복적으로 측정

시점 데이터를 사용해서 전과 후로 분석

[관계검정]

차이검정: 그룹 간의 차이를 분석(평균, 분산)하는 것
관계검정: 변수와 변수의 관계(연관성)를 검정

[상관분석]

두 개의 변수 간에 관계를 통계적 기법으로 분석하는 행위로 변수 간에 인과관계가 명확하지 않을 때 사용
선형관계를 전제

- 상관분석

어떤 변수가 원인이고 결과인지를 알 수 없을 때 사용하는 분석
데이터가 밀집하게 모여 있는지를 분석

- 회귀분석

독립변수가 종속변수에 미치는 영향을 확인하는 분석 기법
종속변수와 관련있는 독립변수를 찾거나 독립변수들 간 관계를 이해할 때 사용
독립변수 X의 변화에 따른 Y의 변화를 분석

- 공분산

두 변수가 공통분산을 사용
x의 분산과 y의 분산을 공유
척도 단위에 민감성이 크기 때문에 표준화를 수행해야 한다.
표준화 시킨다는 것은 그 값이 0에서 1사이의 값을 가진다는 의미

- 상관계수

두 변수의 관계를 하나의 수치로 나타내는 척도
표본을 대상으로 분석하기 때문에 r으 표본 상관계수, p는 모상관계수
공분산은 척도단위에 민감하게 반응하기 때문에 상관계수는 표준화를 시킨 것이다.
상관계수 r이 0이면 상관관계 없음, 1 혹은 -1이면 상관관계 높음
상관계수가 1에 가까우면 양의 관계, -1에 가까우면 음의 관계

- 상관계수의 검정

귀무가설: 두 변수간은 상관관계가 없다.
대립가설: 두 변수간은 상관관계가 있다.
x1 벡터와 x2 벡터가 정의되었으면 cor함수를 사용해서 상관계수를 구할 수가 있다.

- Pearson 상관계수

두 변수간에 선형관계 크기를 측정
비선형 상관관계는 측정하지 못한다.
연속적 변수만 가능

- Spearman 상관계수

두 변수 간에 선형과 비선형 관계를 모두 측정할 수 있다.
연속적인 변수와 이산형, 순서형도 가능

[회귀분석]

변수 간의 인과관계를 분석하는 것
상관관계에서 두 가지 변수는 변수 간에 원인과 결과가 없는 균등한 변수
1대 N의 관계에서 데이터를 분석하는 방법

- 독립변수와 종속변수

독립변수: 독립변수의 변화가 종속변수에 영향을 주는 변수
종속변수: 독립변수에 영향을 받는 변수

[회귀분석의 목적]

- 예측

원인변수에 영향을 받는 기울기(회귀계수)를 찾아서 Y를 예측
변수를 비표준화하여 사용
경제학에서 많이 사용

- 설명

원인변수와 종속변수 간의 종속변수에 가장 영향을 주는 변수를 설명
영향력이 높은 원인변수를 설명
변수를 표준화하여 사용
마케팅에서 많이 사용

[선형회귀 모델]

X변수에 대한 Y변수를 알기 위해서, 가장 좋은 직선을 찾기 위해서 분석
최소제곱법에 의해 직선을 찾게 된다.

- X와 Y변수의 관계

확정적 관계: 오차가 없이 X변수만으로 Y변수를 100% 표현할 수 있는 것
확률적 관계: X변수만으로 Y변수를 100% 설명할 수 없는 경우로 오차항이 있다.

- 기울기: 통계에서는 회귀계수라고 하고 데이터마이닝에서는 가중치라고한다.

- 상관계수와 회귀계수의 차이점

상관계수: 데이터가 모여있는지를 분석
회귀계수: X가 변화할 때 Y가 얼마나 변화하는지를 분석하는 것

- 선형회귀 모델의 가정: 독립변수와 종속변수는 선형관계

[비용함수]

데이터 분포의 차이를 계산하여 차이가 가장 적은 것을 모델에 사용

- 최소제곱법

회기식을 예측하기 위해서 예측치와 관찰치의 차이인 잔차들의 제곱의 합이 최소가 되도록 회귀계수를 추정하는 방법

- 미분과 적분을 하는 이유

미분: 최소점인 0이 되는 지점을 찾기 위해서 한다.
적분: 면적을 계산하기 위해서 한다.

- 최소제곱법에서 사용하는 편미분

다변수함수에 대하여 그 중 하나를 주목하고 나머지 변수를 고정시켜 놓고 그 변수로 미분하는 것을 의미

- 경사하강법

손실(Cost)을 줄이는 알고리즘으로 미분값(기울기)이 최소가 되는 점을 찾아 Weight(가중치)를 찾는 방법

- 편차(Deviation)

평균으로부터 자료가 어떻게 분포되었는지를 확인
분산, 표준편차를 사용

- 잔차(Residuals)

회귀분석에서 사용되고 회귀직선 모델에 적합도를 확인

- 오차(Error)

데이터마이닝에서 모형의 성능을 평가
실제 값과 차이를 의미하며 정합도라고 한다.

- 회귀식의 적합도

회귀모형이 종속변수를 얼마나 잘 설명하고 있는지를 확인

[다중선형회귀]

여러 개의 변수를 두고 종속변수에 미치는 영향을 분석
여러 개의 변수 중에서 종속변수에 가장 영향을 많이 미치는 변수가 무엇인지를 분석

- 변수 선택 방법

Enter(입력): 모든 독립변수를 한꺼번에 투입해서 분석
Forward(전진): 아무런 변수도 투입하지 않은 상태에서 투입기준에 따라서 하나씩 변수를 입력
Backward(후진): 모든 변수를 투입한 후에 제거기준으로 하나씩 변수를 제거
Stepwise(단계선택): Forward와 Backward를 하면서 변수를 추가, 제거 한다.

- 다중공선성

회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제
독립변수가 많이 투입되면 회귀식의 설명력(결정계수)이 높아지지만 회귀계수를 신뢰하지 못하게 되는 문제

[로지스틱 회귀분석]

종속변수가 두가지 분류로 되었을 때 영향을 미치는 독립변수를 분석
종속변수: 범주형 변수를 사용하는 회귀분석 방법
독립변수: 범주형과 연속형으로 혼합된 경우에 사용하는 회귀분석 방법

- 비율과 승산비의 차이점

비율: 전체에 대한 퍼센트를 구하는 것
승산비: 비율가 다르게 전체 수에 대한 퍼센트를 구하는 것이 아니라 특정기준으로 기준과의 영향을 파악한다.(ex. 승산비 = 여성/남성)

[교차분석]

두 개의 질적변수간에 연관관계를 분석하기 위해서 교차분석표를 작성하고 변수들 간에 관계를 분석하는 방법
ex. 연령별, 시간대별 유튜브 채널 선호도 비교

- 사전 교차분석: 실험을 설계하고 특정한실험을 하면서 분석을 수행

- 사후 교차분석: 이미 발생한 사건을 기준으로 분석해야 하는 것을 의미

728x90

저작자표시

'자격증 > ADsP (데이터분석 준전문가)' 카테고리의 다른 글

[데이터분석 준전문가 Day 11/독학] ADsP 5-2 지도학습 정리본 (0)	2022.08.17
[데이터분석 준전문가 Day 11/독학] ADsP 5-1 데이터마이닝 개요 정리본 (0)	2022.08.17
[데이터분석 준전문가 Day 9/독학] ADsP 4-6 가설 정리본 (0)	2022.08.11
[데이터분석 준전문가 Day 9/독학] ADsP 4-5 통계적 추론 정리본 (0)	2022.08.11
[데이터분석 준전문가 Day 8/독학] ADsP 4-4 추리통계 정리본 (0)	2022.08.10

현재글[데이터분석 준전문가 Day 10/독학] ADsP 4-7 통계분석 정리본

Data Area