728x90
공부를 하니까 굉장히 알차네요(비꼬는 거 아님)
그럼 시작합니다.
[빅데이터]
- 다양한 형태의 데이터로 양이 매우 방대하여 기존의방법으로 데이터를 수집, 저장, 분석하기 어려운 데이터
- 정형과 비정형 데이터에서 가치를 추출하기 위한 분석기술
- 사물인터넷(IoT)의 등장으로 실시간성 데이터로 변화
[빅데이터의 특성 3V+2V]
- Volume(규모): 일상화된 정보기술로 디지털 정보량이 기하급수적으로 폭증
- Variety(다양성): 텍스트 이외의 멀티미디어 데이터와 같은 비정형 데이터가 증가
- Velocity(속도): 가치 있는 정보의 적시 활용을 위한 데이터 분석속도가 중요
- Veracity(정확성): 질 높은 데이터를 활용해야 분석의 정확도가 높아짐
- Value(가치): 사용자에게 가치 있는 정보를 창출함
[빅데이터의 미래 - 구축 및 운영을 위한 테크닉 7가지]
- 연관규칙 학습(Association Rule Learning): 변수들간의 관련성을 분석
- 유형분석(Classification Tree Analysis): 문서 분류, 조직 그룹화
- 기계학습(Machine Learning): 데이터를 학습하여 예측
- 유전 알고리즘(Genetic Algorithms): 유전자 데이터 분석을 통해 특정 알고리즘을 도출, 활용
- 회귀분석(Regression Analysis): 독립변수와 종속변수의 관계를 분석
- 감성분석(Sentiment Analysis): 특정 주제에 대해 말을 하거나 글을 쓴 사람의 감정을 분석
- 소셜 네트워크 분석(Social Network Analysis): 사람의 관계를 파악하고 영향력 있는 사람을 분석
[빅데이터 활용을 위한 3대 요소]
- 자원: 빅데이터 - 정형, 비정형데이터 포함 실시간 데이터 수집, 전처리 과정을 통해 데이터 품질 확보
- 기술: 빅데이터 플랫폼 - 분산 파일 시스템, NoSQL, HBase, 자연어 처리, 데이터마이닝 등으로 데이터를 분석하고 가시화
- 인력: 데이터 사이언티스트 - 여러가지 학문을 학습하고 실무에서 사용할 수 있는 전문가
[빅데이터 처리 프로세스]
- 빅데이터 처리
- 데이터 소스: 내부 데이터, 외부 데이터, 미디어 정보
- 데이터 수집: 입력, 로그수집기, 크롤링, 센싱
- 데이터 저장: 정형데이터, 비정형 데이터, 저장장치
- 데이터 처리: 배치처리, 실시간처리, 분산처리
- 빅데이터 분석
- 데이터 분석: 전처리, 분석방법, 머신러닝, 딥러닝
- 데이터 표현: 시간시각화, 관계시각화, 공간시각화, 분포시각화
[빅데이터 처리 프로세스별 기술]
- 소스
- 내부 데이터: Database, File Management System
- 외부 데이터: File, Multimedia, Streaming
- 수집
- 크롤링: 웹로봇을 사용한 웹페이지 수집
- ETL(Extraction, Transformatiion, Load): 추출, 변환, 적재
- 저장
- NoSQL Databases: 비정형 데이터 관리
- Storage: 빅데이터 저장
- Servers: 초경량 서버
- 처리
- Map Reduce: 데이터 추출
- Processing: 다중 업무처리
- 분석
- NLP(Natural Language Processing): 자연어 처리
- Machine Learning: 데이터 패턴 발견
- Serialization: 데이터 순서화
- 표현
- Visualization: 도표, 그래픽으로 가시화
- Acquisition: 데이터 획득 및 재해석
[데이터 레이크]
- 원시 데이터를 본연의 형식 그대로 저장
- 사물인터넷(IoT)에서 데이터 레이크의 중요성이 커진다.
[빅데이터 저장방식]
- RDB: 관계형 데이터베이스 - Oracle, MySQL, MSSQL
- NoSQL: Key-value, column기반 사용 - Mongo DB, HBase, Cassandra
- 분산 파일 시스템: 여러 서버에 분산하여 저장 - HDFS
[빅데이터 위기요인 및 통제방안]
- 사생활 침입: 개인정보를 사용하는 분석자가 책임
- 책임원칙 훼손: 기존의 책임원칙을 강화
- 데이터 오용: 데이터 알고리즘에 대한 접근권한 허용, 인증 방안 도입
[비식별화 조치]
- 비식별화: 개인을 식별할 수 있는 요소들의 전부 혹은 일부를 삭제, 대체하는 과정을 의미
- 가명처리(Pseudonymisation): 주요 식별 요소를 다른 값으로 대체
- 총계처리(Aggregation) or 평균값 대체(Replacement): 데이터의 총합 값을 보여줌
- 데이터 값 삭제(Data Reduction): 개인식별에 중요한 값을 삭제
- 범주화(Data Suppression): 범주의 값으로 변환하여 명확한 값을 감춤
- 데이터 마스킹(Data Masking): 개인식별자가 보이지 않도록 처리하여 개인을 식별하지 못하도록 함
728x90
'자격증 > ADsP (데이터분석 준전문가)' 카테고리의 다른 글
[데이터분석 준전문가 Day 5/독학] ADsP 3-1 빅데이터 수집과 정제 플랜 정리본 (0) | 2022.08.05 |
---|---|
[데이터분석 준전문가 Day 4/독학] ADsP 2-2 분석 마스터 플랜 정리본 (0) | 2022.08.04 |
[데이터분석 준전문가 Day 3/독학] ADsP 2-1 데이터 분석의 이해 정리본 (0) | 2022.08.03 |
[데이터분석 준전문가 Day 2/독학] ADsP 1-3 데이터 사이언스와 전략 인사이트 정리본 (0) | 2022.08.02 |
[데이터분석 준전문가 Day 1/독학] ADsP 1-1 데이터 이해 정리본 (0) | 2022.08.01 |