2과목 공부 시작
[빅데이터 분석 방법론]
- 암묵지를 형식지화, 형식지를 체계화하여 방법론 등장
- 암묵지: 사람의 학습, 경험으로 얻은 지식을 사용하여 빅데이터 분석 수행
- 형식지: 사람의 학습과 경험을 문서화하여 지식으로 창출
- 방법론: 형식지를 좀 더 구체적으로 만들기 위해 정의하여 문서화한 것
[빅데이터 분석 방법론의 적용 모델]
- 폭포수 모델
- 순차적 단계
- 고객의 요구사항 확인이 어려운 문제가 있어서 프로토타이핑 모델이 등장
- 프로토타이핑 모델
- 프로토타입을 먼저 만들고 고객에게 확인 후에 개발하는 모델
- 반복 점증형 모델
- 규모가 큰 빅데이터 사업에 적용해야 하는 모델
- 요구사항, 분석, 설계, 구현, 테스트를 반복
- 나선형 모델
- 폭포수 모델과 프로토 타이핑 모델이 통합된 모델
- 반복적으로 위험분석을 수행하여 위험을 관리
- 단계: 계획 및 목표 설정, 위험 분석, 개발 및 검증, 고객평가 및 다음 단계 수립
[빅데이터 분석과제 도출]
- 하향식 접근법: 문제를 해결하기 위한 체계적이록 단계화 되어 있는 접근방법
- 비즈니스 모델 기반: 비지니스 모델을 분석하여 고객, 업무 단위로 문제 발굴
- 외부참조 모델 기반: 유사업종, 동종기업의 사례를 벤치마킹 해서 업무별, 산업별로 문제 발굴
- 분석 유즈케이스 정의: 문제에 대한 설명과 문제를 해결할 경우의 효과를 명시해서 문제 발굴
[분석 유즈케이스 정의]
- 문제 정의 단계
- 특정 문제를 수행하기 위해 필요한 데이터와 분석기법을 정의
- 해결방안 탐색 단계
- 분석문제를 해결하기 위한 방법을 탐색하는 단계
- 타당성 검토 단계
- 경제적 타당성 검토
- 데이터 및 기술적 타당성 검토
[상향식 접근법]
- 원천 데이터 분석
- 다양한 원천 데이터를 분석하여 여러가지 비지니스 문제를 도출하는 과정
- 장바구니 분석, 군집분석, 상관관계 분석
- 프로토타이핑 접근
- 사용자의 요구사항 파악이 어렵고 데이터 소스 파악이 어려운 경우 프로토타입을 활용하여 분석
- 반복적으로 수행하면서 개선
[KDD 분석 방법론] - 프로 파일링 기술에 사용하여 통계적인 패턴이나 지식을 발견하기 위해 정리한 데이터마이닝 프로세스
- 데이터 선정: 프로젝트 목표에 맞는 원시 데이터를 분석
- OLTP: 실시간으로 처리하는 시스템으로 계정계라고도 한다.
- Data Warehouse: OLTP 시스템에서 데이터를 추출, 정제, 적재 구축하여 통합된 데이터베이스, 주제지향적, 통합적, 비휘발성, 읽기전용의 특성을 가지고 있어 정보계라고도 한다.
- 데이터 전처리: 잡음(Noise), 이상치(Outlier), 결측치(Missing Value)를 파악하고 제거하는 작업
- 핵심: 데이터를 정제
- 변수확인
- 원시 데이터 확인
- 결측값 처리
- 이상값 처리
- 데이터 변환
- 표준화 및 정규화
- 정규분포화
- 범주화
- 개수축소
- 이상값 처리
- 시그널 데이터 압축
- 데이터마이닝
- 데이터마이닝 기법을 선택
- 알고리즘을 최적화 시켜서 실행할 수 있는 데이터마이닝 도구를 사용
- 해석 및 평가
- 데이터마이닝 분석과정에서 발견된 오류를 확인, 모형 평가
- 데이터마이닝 분석결과를 해석하고 평가, 비즈니스 도메인 활용
[데이터마이닝, 딥러닝의 차이점]
- 데이터마이닝은 데이터 분석을 통해 비즈니스를 응용하는 것이 목적
- 딥러닝은 정확한 값을 예측하는 것이 목적
[CRISP-DM분석 방법론]
- 비즈니스 요구사항에 맞게 데이터마이닝을 반복적으로 수행하는 라이프 사이클
- 비즈니스 문제 인식 및 해결을 위한 데이터마이닝 프로세스
- 데이터마이닝 기법을 적용하고 데이터마이닝 결과를 해석
[CRISP-DM 라이프 사이클]
- 비즈니스 이해: 비즈니스 관점에서 데이터마이닝 수행을 위해서 계획수립
- 데이터 이해: 데이터에서 통찰력을 발견하고 숨겨진 의미를 가정하여 새로운 데이터를 이해
- 데이터 준비
- 모델링
- 평가
[3계층 빅데이터 분석 방법론]
- 단계: 빅데이터 분석을 하기 위한 절차
- 태스크: 단계별로 수행해야 하는 일
- 스텝: Input → Tools → Output으로 만들어지는 단위 프로세스
- WBS(Work Breakdown Structure): 프로젝트의 범위 세분화
- Work Package: 프로젝트 관리자가 관리할 수 있는 단위
[5단계 빅데이터 분석 방법론]
- 분석기획: 비즈니스 이해 및 범위설정, 프로젝트 정의 및 계획수립, 프로젝트 위험계획 수립
- 데이터 준비: 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검
- 데이터 분석: 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증, 모델 적용 및 운영방안 수립
- 시스템 구현: 설계 및 구현, 시스템 테스트 및 운영
- 데이터 평가 및 전개: 모델 발전계획 수립, 프로젝트 평가 및 보고
[분석 프로젝트 관리 영역]
- Data Size(데이터 크기)
- Data Complexity(데이터 복잡도)
- Speed(속도)
- Analytic & Complexity(분석과 복잡도)
- Accuracy & Precision(정확도와 정밀도)
[정확도와 정밀도]
- 정확도: 분석모델이 실제 값과 차이가 적다는 의미
- 정밀도: 분석모델을 반복적으로 수행해도 편차가 작다는 의미
- 편향: 예측 값들이 멀리 떨어져 있으면 높다고 한다.
- 분산: 예측 값들이 멀리 흩어져 있으면 높다고 한다.
[프로젝트와 운영의 차이점]
- 프로젝트: 유일성을 가지고 종료일자가 있어 한시적으로 수행, 점진적으로 상세화되는 것이 특징
- 운영: 반복적이고 지속적으로 관리하는 작업
[빅데이터 분석 프로젝트 관리영역]
- 범위
- 일정
- 원가
- 품질
- 인력
- 의사소통
- 위험관리
- 구매조달
- 이해관계자
- 통합
확실히 2과목이 어려워요... 외울게 많습니다!
'자격증 > ADsP (데이터분석 준전문가)' 카테고리의 다른 글
[데이터분석 준전문가 Day 5/독학] ADsP 3-1 빅데이터 수집과 정제 플랜 정리본 (0) | 2022.08.05 |
---|---|
[데이터분석 준전문가 Day 4/독학] ADsP 2-2 분석 마스터 플랜 정리본 (0) | 2022.08.04 |
[데이터분석 준전문가 Day 2/독학] ADsP 1-3 데이터 사이언스와 전략 인사이트 정리본 (0) | 2022.08.02 |
[데이터분석 준전문가 Day 2/독학] ADsP 1-2 데이터의 가치와 미래 정리본 (0) | 2022.08.02 |
[데이터분석 준전문가 Day 1/독학] ADsP 1-1 데이터 이해 정리본 (0) | 2022.08.01 |