자격증/ADsP (데이터분석 준전문가)

[데이터분석 준전문가 Day 11/독학] ADsP 5-1 데이터마이닝 개요 정리본

thisisjade 2022. 8. 17. 10:12
728x90

 

3과목 공부시작

 

[데이터마이닝 개념]

  • 대규모 데이터 베이스를 사용해서 기존에 알려지지 않은 패턴이나 규칙을 찾아내는 과정
  • KDD(Knowledge Discovery in Databases)

 

- 데이터마이닝 발전단계

  • 1960년대: Data Collection
  • 1980년대: Data Access
  • 1990년대: Data Queries
  • 2000년대: Data Mining

 

- 데이터마이닝이 활성화 되는 이유

  • 데이터
  • 소프트웨어
  • 하드웨어
  • 비즈니스

 

- 인공지능, 머신러닝, 딥러닝의 차이점

  • 인공지능: 컴퓨터가 사람처럼 생각하고 판단하게 하는 기술
  • 머신러닝: 인간의 학습능력을 컴퓨터에 부여하기 위한 기술
  • 딥러닝: 빅데이터를 사용하여 학습하고 판단하는 기술

 

[예측(Estimate)과 설명(Description)]

- 데이터 마이닝

  • 지도학습 - 예측: 추정, 분류, 회귀분석, 시계열 분석
  • 비지도학습 - 설명: 연관규칙, 군집분석, 비정형, 요약

 

[예측과 분류]

  • 분류는 범주형 결과변수, 예측은 연속형 결과변수
  • 분류: 신경망, 로지스틱 회귀분석, 분류나무, 앙상블, 나이브 베이즈, KNN
  • 예측: 선형 회귀분석, 신경망, 회귀나무, 앙상블, KNN

 

- Model-based Learning

  • 데이터로 모델을 생성하고 분류 혹은 예측을 수행
  • 선형회귀 모델, 비선형회귀 모델, 로지스틱회귀 분석
  • 신경망, 의사결정나무, Support Vector Machine

 

- Instance-based Learning

  • 모델을 생성하지 않고 인 데이터를 분류 및 예측
  • KNN
  • Locally weighted regression

 

[지도학습]

  • 결과변수가 주어진 경우에 변수 간의 관계를 분석

 

- 예측

  • 주어진 데이터를 사용해서 모델을 만들고 결과 값을 예측
  • 다중 회귀분석, 주성분 회귀분석, 부분 최소 자승법, 신경망

 

- 분류

  • 데이터를 기반으로 분류규칙을 생성하고 분류규칙을 검증
  • 의사결정 나무, 선형 판별분석, 로지스틱 회귀분석, 서포트 벡터 머신

 

[비지도학습]

  • 결과변수가 없는 경우 분석하는 방법
  • 객체 간의 관계를 분석하여 결과변수를 분석

 

- 군집

  • 주어진 데이터의 속성을 사용해서 구집화하는 분석기법
  • 계층형 군집분석, K-Means 알고리즘

 

- 연관규칙

  • 연관성 변수들 간의 동시발생 빈도를 분석하여 변수들 간의 관계를 파악
  • 연관규칙 분석

 

[강화학습]

  • 기계학습의 한분야
  • 현재 상태를 분석하고 선택한 행동에 대해서 보상을 하여 학습하게 하는 방법

 

[데이터마이닝 절차]

  • 대용량의 데이터로부터 의미 있는 정보와 지식을 추출하는 과정

 

- 비즈니스 목적 정의

  • 데이터마이닝 분석을 통해서 얻고자 하는 목표를 명확히 해야 한다.
  • 연관규칙, 분류, 클러스터링, 순차적 패턴분석

 

- 데이터 선택

  • 계정계 시스템 및 정보계 시스템에서 데이터마이닝 분석 목적에 맞는 데이터를 선택
  • Flat file, 계층형 데이터

 

- 데이터 정제

  • 수집된 데이터를 평가하고 오류값 및 이상값 등을 보정
  • 결측값, 중복 데이터 등을 정제

 

- 데이터 보완

  • 데이터의 정확성을 높이기 위해서 데이터 양과 깊이를 늘린다.

 

- 데이터 변환

  • 데이터에 포함되어 있는 불필요한 데이터를 삭제하거나 새로운 파생 데이터를 생성

 

- 데이터 마이닝

  • 데이터마이닝 도구를 선정

 

- 해석 및 평가

  • 데이터마이닝 모형을 실제로 적용하여 모형의 적합성을 평가
  • Business Intelligence, DSS 등과 함께 사용

 

[SEMMA]

  • SAS에서 개발한 데이터마이닝 방법론으로 샘플링, 데이터 탐색/전처리 등의 단계를 수행
  • 통계관점으로 개발된 데이터마이닝 방법론
  • SEMMA: Sampling, Exploration, Modification, Modeling, Assessment의 약자

 

[CRISP-DM 방법론]

  • 비즈니스 요구사항에 맞게 데이터마이닝을 반복적으로 수행하는 라이프 사이클

 

[데이터와 과적합]

 

- 학습용 데이터

- 검증용 데이터

- 평가용 데이터

 

- 과적합

  • 분석모델을 만들기 위해서 학습 데이터를 너무 과하게 학습시키는 것

 

 

728x90