자격증/ADsP (데이터분석 준전문가)

[데이터분석 준전문가 Day 2/독학] ADsP 1-2 데이터의 가치와 미래 정리본

thisisjade 2022. 8. 2. 11:06
728x90

 

공부를 하니까 굉장히 알차네요(비꼬는 거 아님)

그럼 시작합니다.

 

[빅데이터]

  • 다양한 형태의 데이터로 양이 매우 방대하여 기존의방법으로 데이터를 수집, 저장, 분석하기 어려운 데이터
  • 정형과 비정형 데이터에서 가치를 추출하기 위한 분석기술
  • 사물인터넷(IoT)의 등장으로 실시간성 데이터로 변화

 

[빅데이터의 특성 3V+2V]

  • Volume(규모): 일상화된 정보기술로 디지털 정보량이 기하급수적으로 폭증
  • Variety(다양성): 텍스트 이외의 멀티미디어 데이터와 같은 비정형 데이터가 증가
  • Velocity(속도): 가치 있는 정보의 적시 활용을 위한 데이터 분석속도가 중요
  • Veracity(정확성): 질 높은 데이터를 활용해야 분석의 정확도가 높아짐
  • Value(가치): 사용자에게 가치 있는 정보를 창출함

 

[빅데이터의 미래 - 구축 및 운영을 위한 테크닉 7가지]

  • 연관규칙 학습(Association Rule Learning): 변수들간의 관련성을 분석
  • 유형분석(Classification Tree Analysis): 문서 분류, 조직 그룹화
  • 기계학습(Machine Learning): 데이터를 학습하여 예측
  • 유전 알고리즘(Genetic Algorithms): 유전자 데이터 분석을 통해 특정 알고리즘을 도출, 활용
  • 회귀분석(Regression Analysis): 독립변수와 종속변수의 관계를 분석
  • 감성분석(Sentiment Analysis): 특정 주제에 대해 말을 하거나 글을 쓴 사람의 감정을 분석
  • 소셜 네트워크 분석(Social Network Analysis): 사람의 관계를 파악하고 영향력 있는 사람을 분석

 

[빅데이터 활용을 위한 3대 요소]

  • 자원: 빅데이터 - 정형, 비정형데이터 포함 실시간 데이터 수집, 전처리 과정을 통해 데이터 품질 확보
  • 기술: 빅데이터 플랫폼 - 분산 파일 시스템, NoSQL, HBase, 자연어 처리, 데이터마이닝 등으로 데이터를 분석하고 가시화
  • 인력: 데이터 사이언티스트 - 여러가지 학문을 학습하고 실무에서 사용할 수 있는 전문가

 

[빅데이터 처리 프로세스]

 

- 빅데이터 처리

  • 데이터 소스: 내부 데이터, 외부 데이터, 미디어 정보
  • 데이터 수집: 입력, 로그수집기, 크롤링, 센싱
  • 데이터 저장: 정형데이터, 비정형 데이터, 저장장치
  • 데이터 처리: 배치처리, 실시간처리, 분산처리

 

- 빅데이터 분석

  • 데이터 분석: 전처리, 분석방법, 머신러닝, 딥러닝
  • 데이터 표현: 시간시각화, 관계시각화, 공간시각화, 분포시각화

 

[빅데이터 처리 프로세스별 기술]

 

- 소스

  • 내부 데이터: Database, File Management System
  • 외부 데이터: File, Multimedia, Streaming

 

- 수집

  • 크롤링: 웹로봇을 사용한 웹페이지 수집
  • ETL(Extraction, Transformatiion, Load): 추출, 변환, 적재

 

- 저장

  • NoSQL Databases: 비정형 데이터 관리
  • Storage: 빅데이터 저장
  • Servers: 초경량 서버

 

- 처리

  • Map Reduce: 데이터 추출
  • Processing: 다중 업무처리

 

- 분석

  • NLP(Natural Language Processing): 자연어 처리
  • Machine Learning: 데이터 패턴 발견
  • Serialization: 데이터 순서화

 

- 표현

  • Visualization: 도표, 그래픽으로 가시화
  • Acquisition: 데이터 획득 및 재해석

 

[데이터 레이크]

  • 원시 데이터를 본연의 형식 그대로 저장
  • 사물인터넷(IoT)에서 데이터 레이크의 중요성이 커진다.

 

[빅데이터 저장방식]

  • RDB: 관계형 데이터베이스 - Oracle, MySQL, MSSQL
  • NoSQL: Key-value, column기반 사용 - Mongo DB, HBase, Cassandra
  • 분산 파일 시스템: 여러 서버에 분산하여 저장 - HDFS

 

[빅데이터 위기요인 및 통제방안]

  • 사생활 침입: 개인정보를 사용하는 분석자가 책임
  • 책임원칙 훼손: 기존의 책임원칙을 강화
  • 데이터 오용: 데이터 알고리즘에 대한 접근권한 허용, 인증 방안 도입

 

[비식별화 조치]

- 비식별화: 개인을 식별할 수 있는 요소들의 전부 혹은 일부를 삭제, 대체하는 과정을 의미

  • 가명처리(Pseudonymisation): 주요 식별 요소를 다른 값으로 대체
  • 총계처리(Aggregation) or 평균값 대체(Replacement): 데이터의 총합 값을 보여줌
  • 데이터 값 삭제(Data Reduction): 개인식별에 중요한 값을 삭제
  • 범주화(Data Suppression): 범주의 값으로 변환하여 명확한 값을 감춤
  • 데이터 마스킹(Data Masking): 개인식별자가 보이지 않도록 처리하여 개인을 식별하지 못하도록 함

 

728x90