3과목 공부시작
[통계분석]
- 특정집단을 대상으로 자료를 수집하여 대상집단의 정보를 구해서 통계분석 기법으로 통계적 추론을 하는 일련의 과정을 의미
[차이검정]
- 여러 개의 그룹 간의 차이를 비교하는 분석기법으로 평균과 분산차이를 분석
- 평균차이검정
- 어떤 집단간에 평균차이를 검정하는 것으로 질적변수 1개와 연속변수 1개를 분석
- 질적변수 1개는 집단을 구분하고 연속변수 1개는 평균을 계산
[평균검정]
- 집단 간에 평균 값을 비교하는 분석기법으로 1종 오류가 발생할 수 있다.
- summary()함수: 평균, 중심값, 최소 및 최대값, 사분위수
- dim()함수: 관측치와 변수를 확인
- One Sample T-test: 하나의 집단에 평균이 얼마인지를 검사하는 방법
- ex. 질적변수는 남자, 연속변수는 몸무게
- Independent Samples T-test: 독립된 두 집단 간에 평균의 차이를 검사하는 방법
- 변수는 그룹으로 분류되고 그룹 간의 차이를 평균으로 비교하는 방법
- ex. 범주형 변수: 도심내부, 도심외곽
- ex. 연속형 변수: 학생들의 성적
- Paired Samples T-test: 하나의 집단을 처리 전과 처리 후로 나누어 분석하는 방법
- 짝을 이루는 변수를 전후에 분류해서 분석
- t 검증
- 두 집단 간에 평균 차이를 검증하기 위해서 사용
- 표본의 크기가 30보다 크면 표준 정규분포에 가까워지고 30보다 작으면 예측범위가 좀 더 높은 t-분포를 사용해야 한다.
[독립표본과 대응표본의 차이점]
- 독립표본
- 그룹으로 분류하고 그룹의 평균을 계산
- 그룹간의 평균을 비교
- ex. 남자의 성적 평균과 여자의 성적 평균을 비교
- 대응표본
- 동일한 대상을 두 번 반복해서 측정
- 예를 들어 각 객체의 평균을 계산 후에 다시 한 번 객체의 평균을 계산해서 차이를 비교
[분산분석]
- 전체분산을 여러 개로 분할하여 분석하는 것으로 어떤 요인의 영향이 유의한지를 검정
- 집단이 3개 이상일 경우 사용
- 두 개 이상의 집단을 비교할 때 사용하며 각 집단의 평균 차이에 의해서 발생되는 집단 간의 분산을 비교
- F값
- F값 = 집단 간의 변량 / 집단 내의 변량
- F값이 클수록 집단 간 변량이 집단 내 변량보다 커진다는 것을 의미
- One way ANOVA: 한 개의 집단구분 변수를 사용
- 종속변수 한 개와 독립변수 한 개로 이루어진 데이터에서 사용하는 것
- 종속변수는 집단으로 분류되어 있는 경우에 사용
- One way ANOVA는 하나의 변수에 그룹이 3개 이상
- Two way ANOVA: 동시에 두 개의 집단구분 변수를 사용
- 독립변수가 두 개 이상인 경우 집단 간의 차이를 분석하여 유의성을 확인
- 평균 반응 프로파일을 사용하여 두 개의 변수 간에 상호작용을 확인
- Repeated Measured ANOVA: 집단이 3개이고 반복적으로 측정
- 시점 데이터를 사용해서 전과 후로 분석
[관계검정]
- 차이검정: 그룹 간의 차이를 분석(평균, 분산)하는 것
- 관계검정: 변수와 변수의 관계(연관성)를 검정
[상관분석]
- 두 개의 변수 간에 관계를 통계적 기법으로 분석하는 행위로 변수 간에 인과관계가 명확하지 않을 때 사용
- 선형관계를 전제
- 상관분석
- 어떤 변수가 원인이고 결과인지를 알 수 없을 때 사용하는 분석
- 데이터가 밀집하게 모여 있는지를 분석
- 회귀분석
- 독립변수가 종속변수에 미치는 영향을 확인하는 분석 기법
- 종속변수와 관련있는 독립변수를 찾거나 독립변수들 간 관계를 이해할 때 사용
- 독립변수 X의 변화에 따른 Y의 변화를 분석
- 공분산
- 두 변수가 공통분산을 사용
- x의 분산과 y의 분산을 공유
- 척도 단위에 민감성이 크기 때문에 표준화를 수행해야 한다.
- 표준화 시킨다는 것은 그 값이 0에서 1사이의 값을 가진다는 의미
- 상관계수
- 두 변수의 관계를 하나의 수치로 나타내는 척도
- 표본을 대상으로 분석하기 때문에 r으 표본 상관계수, p는 모상관계수
- 공분산은 척도단위에 민감하게 반응하기 때문에 상관계수는 표준화를 시킨 것이다.
- 상관계수 r이 0이면 상관관계 없음, 1 혹은 -1이면 상관관계 높음
- 상관계수가 1에 가까우면 양의 관계, -1에 가까우면 음의 관계
- 상관계수의 검정
- 귀무가설: 두 변수간은 상관관계가 없다.
- 대립가설: 두 변수간은 상관관계가 있다.
- x1 벡터와 x2 벡터가 정의되었으면 cor함수를 사용해서 상관계수를 구할 수가 있다.
- Pearson 상관계수
- 두 변수간에 선형관계 크기를 측정
- 비선형 상관관계는 측정하지 못한다.
- 연속적 변수만 가능
- Spearman 상관계수
- 두 변수 간에 선형과 비선형 관계를 모두 측정할 수 있다.
- 연속적인 변수와 이산형, 순서형도 가능
[회귀분석]
- 변수 간의 인과관계를 분석하는 것
- 상관관계에서 두 가지 변수는 변수 간에 원인과 결과가 없는 균등한 변수
- 1대 N의 관계에서 데이터를 분석하는 방법
- 독립변수와 종속변수
- 독립변수: 독립변수의 변화가 종속변수에 영향을 주는 변수
- 종속변수: 독립변수에 영향을 받는 변수
[회귀분석의 목적]
- 예측
- 원인변수에 영향을 받는 기울기(회귀계수)를 찾아서 Y를 예측
- 변수를 비표준화하여 사용
- 경제학에서 많이 사용
- 설명
- 원인변수와 종속변수 간의 종속변수에 가장 영향을 주는 변수를 설명
- 영향력이 높은 원인변수를 설명
- 변수를 표준화하여 사용
- 마케팅에서 많이 사용
[선형회귀 모델]
- X변수에 대한 Y변수를 알기 위해서, 가장 좋은 직선을 찾기 위해서 분석
- 최소제곱법에 의해 직선을 찾게 된다.
- X와 Y변수의 관계
- 확정적 관계: 오차가 없이 X변수만으로 Y변수를 100% 표현할 수 있는 것
- 확률적 관계: X변수만으로 Y변수를 100% 설명할 수 없는 경우로 오차항이 있다.
- 기울기: 통계에서는 회귀계수라고 하고 데이터마이닝에서는 가중치라고한다.
- 상관계수와 회귀계수의 차이점
- 상관계수: 데이터가 모여있는지를 분석
- 회귀계수: X가 변화할 때 Y가 얼마나 변화하는지를 분석하는 것
- 선형회귀 모델의 가정: 독립변수와 종속변수는 선형관계
[비용함수]
- 데이터 분포의 차이를 계산하여 차이가 가장 적은 것을 모델에 사용
- 최소제곱법
- 회기식을 예측하기 위해서 예측치와 관찰치의 차이인 잔차들의 제곱의 합이 최소가 되도록 회귀계수를 추정하는 방법
- 미분과 적분을 하는 이유
- 미분: 최소점인 0이 되는 지점을 찾기 위해서 한다.
- 적분: 면적을 계산하기 위해서 한다.
- 최소제곱법에서 사용하는 편미분
- 다변수함수에 대하여 그 중 하나를 주목하고 나머지 변수를 고정시켜 놓고 그 변수로 미분하는 것을 의미
- 경사하강법
- 손실(Cost)을 줄이는 알고리즘으로 미분값(기울기)이 최소가 되는 점을 찾아 Weight(가중치)를 찾는 방법
- 편차(Deviation)
- 평균으로부터 자료가 어떻게 분포되었는지를 확인
- 분산, 표준편차를 사용
- 잔차(Residuals)
- 회귀분석에서 사용되고 회귀직선 모델에 적합도를 확인
- 오차(Error)
- 데이터마이닝에서 모형의 성능을 평가
- 실제 값과 차이를 의미하며 정합도라고 한다.
- 회귀식의 적합도
- 회귀모형이 종속변수를 얼마나 잘 설명하고 있는지를 확인
[다중선형회귀]
- 여러 개의 변수를 두고 종속변수에 미치는 영향을 분석
- 여러 개의 변수 중에서 종속변수에 가장 영향을 많이 미치는 변수가 무엇인지를 분석
- 변수 선택 방법
- Enter(입력): 모든 독립변수를 한꺼번에 투입해서 분석
- Forward(전진): 아무런 변수도 투입하지 않은 상태에서 투입기준에 따라서 하나씩 변수를 입력
- Backward(후진): 모든 변수를 투입한 후에 제거기준으로 하나씩 변수를 제거
- Stepwise(단계선택): Forward와 Backward를 하면서 변수를 추가, 제거 한다.
- 다중공선성
- 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제
- 독립변수가 많이 투입되면 회귀식의 설명력(결정계수)이 높아지지만 회귀계수를 신뢰하지 못하게 되는 문제
[로지스틱 회귀분석]
- 종속변수가 두가지 분류로 되었을 때 영향을 미치는 독립변수를 분석
- 종속변수: 범주형 변수를 사용하는 회귀분석 방법
- 독립변수: 범주형과 연속형으로 혼합된 경우에 사용하는 회귀분석 방법
- 비율과 승산비의 차이점
- 비율: 전체에 대한 퍼센트를 구하는 것
- 승산비: 비율가 다르게 전체 수에 대한 퍼센트를 구하는 것이 아니라 특정기준으로 기준과의 영향을 파악한다.(ex. 승산비 = 여성/남성)
[교차분석]
- 두 개의 질적변수간에 연관관계를 분석하기 위해서 교차분석표를 작성하고 변수들 간에 관계를 분석하는 방법
- ex. 연령별, 시간대별 유튜브 채널 선호도 비교
- 사전 교차분석: 실험을 설계하고 특정한실험을 하면서 분석을 수행
- 사후 교차분석: 이미 발생한 사건을 기준으로 분석해야 하는 것을 의미
'자격증 > ADsP (데이터분석 준전문가)' 카테고리의 다른 글
[데이터분석 준전문가 Day 11/독학] ADsP 5-2 지도학습 정리본 (0) | 2022.08.17 |
---|---|
[데이터분석 준전문가 Day 11/독학] ADsP 5-1 데이터마이닝 개요 정리본 (0) | 2022.08.17 |
[데이터분석 준전문가 Day 9/독학] ADsP 4-6 가설 정리본 (0) | 2022.08.11 |
[데이터분석 준전문가 Day 9/독학] ADsP 4-5 통계적 추론 정리본 (0) | 2022.08.11 |
[데이터분석 준전문가 Day 8/독학] ADsP 4-4 추리통계 정리본 (0) | 2022.08.10 |