728x90
3과목 공부시작
[데이터마이닝 개념]
- 대규모 데이터 베이스를 사용해서 기존에 알려지지 않은 패턴이나 규칙을 찾아내는 과정
- KDD(Knowledge Discovery in Databases)
- 데이터마이닝 발전단계
- 1960년대: Data Collection
- 1980년대: Data Access
- 1990년대: Data Queries
- 2000년대: Data Mining
- 데이터마이닝이 활성화 되는 이유
- 데이터
- 소프트웨어
- 하드웨어
- 비즈니스
- 인공지능, 머신러닝, 딥러닝의 차이점
- 인공지능: 컴퓨터가 사람처럼 생각하고 판단하게 하는 기술
- 머신러닝: 인간의 학습능력을 컴퓨터에 부여하기 위한 기술
- 딥러닝: 빅데이터를 사용하여 학습하고 판단하는 기술
[예측(Estimate)과 설명(Description)]
- 데이터 마이닝
- 지도학습 - 예측: 추정, 분류, 회귀분석, 시계열 분석
- 비지도학습 - 설명: 연관규칙, 군집분석, 비정형, 요약
[예측과 분류]
- 분류는 범주형 결과변수, 예측은 연속형 결과변수
- 분류: 신경망, 로지스틱 회귀분석, 분류나무, 앙상블, 나이브 베이즈, KNN
- 예측: 선형 회귀분석, 신경망, 회귀나무, 앙상블, KNN
- Model-based Learning
- 데이터로 모델을 생성하고 분류 혹은 예측을 수행
- 선형회귀 모델, 비선형회귀 모델, 로지스틱회귀 분석
- 신경망, 의사결정나무, Support Vector Machine
- Instance-based Learning
- 모델을 생성하지 않고 인 데이터를 분류 및 예측
- KNN
- Locally weighted regression
[지도학습]
- 결과변수가 주어진 경우에 변수 간의 관계를 분석
- 예측
- 주어진 데이터를 사용해서 모델을 만들고 결과 값을 예측
- 다중 회귀분석, 주성분 회귀분석, 부분 최소 자승법, 신경망
- 분류
- 데이터를 기반으로 분류규칙을 생성하고 분류규칙을 검증
- 의사결정 나무, 선형 판별분석, 로지스틱 회귀분석, 서포트 벡터 머신
[비지도학습]
- 결과변수가 없는 경우 분석하는 방법
- 객체 간의 관계를 분석하여 결과변수를 분석
- 군집
- 주어진 데이터의 속성을 사용해서 구집화하는 분석기법
- 계층형 군집분석, K-Means 알고리즘
- 연관규칙
- 연관성 변수들 간의 동시발생 빈도를 분석하여 변수들 간의 관계를 파악
- 연관규칙 분석
[강화학습]
- 기계학습의 한분야
- 현재 상태를 분석하고 선택한 행동에 대해서 보상을 하여 학습하게 하는 방법
[데이터마이닝 절차]
- 대용량의 데이터로부터 의미 있는 정보와 지식을 추출하는 과정
- 비즈니스 목적 정의
- 데이터마이닝 분석을 통해서 얻고자 하는 목표를 명확히 해야 한다.
- 연관규칙, 분류, 클러스터링, 순차적 패턴분석
- 데이터 선택
- 계정계 시스템 및 정보계 시스템에서 데이터마이닝 분석 목적에 맞는 데이터를 선택
- Flat file, 계층형 데이터
- 데이터 정제
- 수집된 데이터를 평가하고 오류값 및 이상값 등을 보정
- 결측값, 중복 데이터 등을 정제
- 데이터 보완
- 데이터의 정확성을 높이기 위해서 데이터 양과 깊이를 늘린다.
- 데이터 변환
- 데이터에 포함되어 있는 불필요한 데이터를 삭제하거나 새로운 파생 데이터를 생성
- 데이터 마이닝
- 데이터마이닝 도구를 선정
- 해석 및 평가
- 데이터마이닝 모형을 실제로 적용하여 모형의 적합성을 평가
- Business Intelligence, DSS 등과 함께 사용
[SEMMA]
- SAS에서 개발한 데이터마이닝 방법론으로 샘플링, 데이터 탐색/전처리 등의 단계를 수행
- 통계관점으로 개발된 데이터마이닝 방법론
- SEMMA: Sampling, Exploration, Modification, Modeling, Assessment의 약자
[CRISP-DM 방법론]
- 비즈니스 요구사항에 맞게 데이터마이닝을 반복적으로 수행하는 라이프 사이클
[데이터와 과적합]
- 학습용 데이터
- 검증용 데이터
- 평가용 데이터
- 과적합
- 분석모델을 만들기 위해서 학습 데이터를 너무 과하게 학습시키는 것
728x90
'자격증 > ADsP (데이터분석 준전문가)' 카테고리의 다른 글
[데이터분석 준전문가 Day 12/독학] ADsP 5-3 비지도학습 정리본 (0) | 2022.08.18 |
---|---|
[데이터분석 준전문가 Day 11/독학] ADsP 5-2 지도학습 정리본 (0) | 2022.08.17 |
[데이터분석 준전문가 Day 10/독학] ADsP 4-7 통계분석 정리본 (0) | 2022.08.12 |
[데이터분석 준전문가 Day 9/독학] ADsP 4-6 가설 정리본 (0) | 2022.08.11 |
[데이터분석 준전문가 Day 9/독학] ADsP 4-5 통계적 추론 정리본 (0) | 2022.08.11 |