자격증/ADsP (데이터분석 준전문가)

[데이터분석 준전문가 Day 3/독학] ADsP 2-1 데이터 분석의 이해 정리본

thisisjade 2022. 8. 3. 12:07
728x90

 

2과목 공부 시작

 

[빅데이터 분석 방법론]

- 암묵지를 형식지화, 형식지를 체계화하여 방법론 등장

  • 암묵지: 사람의 학습, 경험으로 얻은 지식을 사용하여 빅데이터 분석 수행
  • 형식지: 사람의 학습과 경험을 문서화하여 지식으로 창출
  • 방법론: 형식지를 좀 더 구체적으로 만들기 위해 정의하여 문서화한 것

 

[빅데이터 분석 방법론의 적용 모델]

- 폭포수 모델

  • 순차적 단계
  • 고객의 요구사항 확인이 어려운 문제가 있어서 프로토타이핑 모델이 등장

 

- 프로토타이핑 모델

  • 프로토타입을 먼저 만들고 고객에게 확인 후에 개발하는 모델

 

- 반복 점증형 모델

  • 규모가 큰 빅데이터 사업에 적용해야 하는 모델
  • 요구사항, 분석, 설계, 구현, 테스트를 반복

 

- 나선형 모델

  • 폭포수 모델과 프로토 타이핑 모델이 통합된 모델
  • 반복적으로 위험분석을 수행하여 위험을 관리
  • 단계: 계획 및 목표 설정, 위험 분석, 개발 및 검증, 고객평가 및 다음 단계 수립

 

[빅데이터 분석과제 도출]

- 하향식 접근법: 문제를 해결하기 위한 체계적이록 단계화 되어 있는 접근방법

  • 비즈니스 모델 기반: 비지니스 모델을 분석하여 고객, 업무 단위로 문제 발굴
  • 외부참조 모델 기반: 유사업종, 동종기업의 사례를 벤치마킹 해서 업무별, 산업별로 문제 발굴
  • 분석 유즈케이스 정의: 문제에 대한 설명과 문제를 해결할 경우의 효과를 명시해서 문제 발굴

 

[분석 유즈케이스 정의]

- 문제 정의 단계

  • 특정 문제를 수행하기 위해 필요한 데이터와 분석기법을 정의

 

- 해결방안 탐색 단계

  • 분석문제를 해결하기 위한 방법을 탐색하는 단계

 

- 타당성 검토 단계

  • 경제적 타당성 검토
  • 데이터 및 기술적 타당성 검토

 

[상향식 접근법]

- 원천 데이터 분석

  • 다양한 원천 데이터를 분석하여 여러가지 비지니스 문제를 도출하는 과정
  • 장바구니 분석, 군집분석, 상관관계 분석

 

- 프로토타이핑 접근

  • 사용자의 요구사항 파악이 어렵고 데이터 소스 파악이 어려운 경우 프로토타입을 활용하여 분석
  • 반복적으로 수행하면서 개선

 

[KDD 분석 방법론] - 프로 파일링 기술에 사용하여 통계적인 패턴이나 지식을 발견하기 위해 정리한 데이터마이닝 프로세스

- 데이터 선정: 프로젝트 목표에 맞는 원시 데이터를 분석

  • OLTP: 실시간으로 처리하는 시스템으로 계정계라고도 한다.
  • Data Warehouse: OLTP 시스템에서 데이터를 추출, 정제, 적재 구축하여 통합된 데이터베이스, 주제지향적, 통합적, 비휘발성, 읽기전용의 특성을 가지고 있어 정보계라고도 한다.

 

- 데이터 전처리: 잡음(Noise), 이상치(Outlier), 결측치(Missing Value)를 파악하고 제거하는 작업

  • 핵심: 데이터를 정제
  • 변수확인
  • 원시 데이터 확인
  • 결측값 처리
  • 이상값 처리

 

- 데이터 변환

  • 표준화 및 정규화
  • 정규분포화
  • 범주화
  • 개수축소
  • 이상값 처리
  • 시그널 데이터 압축

 

- 데이터마이닝

  • 데이터마이닝 기법을 선택
  • 알고리즘을 최적화 시켜서 실행할 수 있는 데이터마이닝 도구를 사용

 

- 해석 및 평가

  • 데이터마이닝 분석과정에서 발견된 오류를 확인, 모형 평가
  • 데이터마이닝 분석결과를 해석하고 평가, 비즈니스 도메인 활용

 

[데이터마이닝, 딥러닝의 차이점]

  • 데이터마이닝은 데이터 분석을 통해 비즈니스를 응용하는 것이 목적
  • 딥러닝은 정확한 값을 예측하는 것이 목적

 

[CRISP-DM분석 방법론]

  • 비즈니스 요구사항에 맞게 데이터마이닝을 반복적으로 수행하는 라이프 사이클
  • 비즈니스 문제 인식 및 해결을 위한 데이터마이닝 프로세스
  • 데이터마이닝 기법을 적용하고 데이터마이닝 결과를 해석

 

[CRISP-DM 라이프 사이클]

- 비즈니스 이해: 비즈니스 관점에서 데이터마이닝 수행을 위해서 계획수립

- 데이터 이해: 데이터에서 통찰력을 발견하고 숨겨진 의미를 가정하여 새로운 데이터를 이해

- 데이터 준비

- 모델링

- 평가

 

[3계층 빅데이터 분석 방법론]

- 단계: 빅데이터 분석을 하기 위한 절차

- 태스크:  단계별로 수행해야 하는 일

- 스텝: Input → Tools → Output으로 만들어지는 단위 프로세스 

 

- WBS(Work Breakdown Structure): 프로젝트의 범위 세분화

- Work Package: 프로젝트 관리자가 관리할 수 있는 단위 

 

[5단계 빅데이터 분석 방법론]

- 분석기획: 비즈니스 이해 및 범위설정, 프로젝트 정의 및 계획수립, 프로젝트 위험계획 수립

- 데이터 준비: 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검

- 데이터 분석: 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증, 모델 적용 및 운영방안 수립

- 시스템 구현: 설계 및 구현, 시스템 테스트 및 운영

- 데이터 평가 및 전개: 모델 발전계획 수립, 프로젝트 평가 및 보고

 

[분석 프로젝트 관리 영역]

  • Data Size(데이터 크기)
  • Data Complexity(데이터 복잡도)
  • Speed(속도)
  • Analytic & Complexity(분석과 복잡도)
  • Accuracy & Precision(정확도와 정밀도)

 

[정확도와 정밀도]

- 정확도: 분석모델이 실제 값과 차이가 적다는 의미

- 정밀도: 분석모델을 반복적으로 수행해도 편차가 작다는 의미

  • 편향: 예측 값들이 멀리 떨어져 있으면 높다고 한다.
  • 분산: 예측 값들이 멀리 흩어져 있으면 높다고 한다.

 

[프로젝트와 운영의 차이점]

- 프로젝트: 유일성을 가지고 종료일자가 있어 한시적으로 수행, 점진적으로 상세화되는 것이 특징

- 운영: 반복적이고 지속적으로 관리하는 작업

 

[빅데이터 분석 프로젝트 관리영역]

  • 범위
  • 일정
  • 원가
  • 품질
  • 인력
  • 의사소통
  • 위험관리
  • 구매조달
  • 이해관계자
  • 통합

 

확실히 2과목이 어려워요... 외울게 많습니다!

728x90