728x90

자격증/ADsP (데이터분석 준전문가) 20

[데이터분석 준전문가 Day 13/독학] ADsP 5-5 빅데이터 시각화 정리본

3과목 공부시작 [빅데이터 시각화] 빅데이터 분석을 통해 얻은 결과를 누구나 이해하기 쉽게 시각적으로 표시한 과정 [정보 시각화] - 시간 시각화 막대 그래프, 누적 막대 그래프, 점 그래프 시간 흐름에 따른 변화를 보기 위해서 시각화 - 분포 시각화 파이차트, 도우넛 차트, 트리맵, 누적 연속 그래프 시간, 분류, 세부 분류, 가짓수 등으로 데이터를 분포하여 전체 분포, 최대, 최소 분포 등을 확인 - 관계 시각화 산점도, 버블차트, 히스토그램 상관성 분석은 2개의 연속변수 간의 분산을 확인해서 얼마나 평균으로부터 뭉쳐 있는지 확인 - 비교 시각화 히트맵, 스타차트, 평행 좌표계, 다차원 척도법 - 공간 시각화 지도맵핑 지도를 활용해서 공간에 대한 직관성을 높이기 위한 방법

[데이터분석 준전문가 Day 13/독학] ADsP 5-4 데이터마이닝 모델 성능평가 정리본

3과목 공부시작 [모델 성능평가] 과적합을 방지해서 실제 업무에 적용할 때 분류와 예측력을 향상 예측 및 분류 모델에 대해서 다양한 세팅 지도학습의 결과 데이터를 사용해서 모델성능을 평가 - 예측모델 성능평가 예측된 데이터에 대해서 성능평가를 실시 평균오차, MAPE, RMSE, 향상차트(Lift Chart)를 사용해서 평가 - 분류모델 성능평가 분류된 데이터가 올바르게 분류 되었는지 확인 정오행렬(Confusion matrix), 분류행렬, 정확도, 오분류율, 민감도, 특이도, ROC 도표, 향상차트를 사용해서 평가 - 랭킹 성능평가 점수를 활용해서 등수로 분류를 확인 향상차트를 사용 - 확대 샘플링 샘플링이 적은 경우 개체 수가 증가하거나 cut-off를 증가시켜서 실시 [지도학습의 결과 정보] - ..

[데이터분석 준전문가 Day 12/독학] ADsP 5-3 비지도학습 정리본

3과목 공부시작 [비지도학습] 목표변수가 없는 상태에서 학습을 통해서 모델을 만드는 분석기법 [군집분석] 객체들을 유사한 속성으로 군집하는 데이터마이닝 기법 계층적 방법과 비계층적 방법 각 객체 간의 유사도를 측정하여 군집을 생성 [군집분석 유사성 척도] - 거리 척도 거리 값을 생성하여 그 값을 기준으로 군집을 생성 거리 값이 가까우면 유사성이 높고 거리 값이 멀어지면 유사성이 낮아짐 - 상관계수 척도 객체 간에 상관계수를 계산하여 유사성을 결정 객체 간에 상관계수가 크면 유사성은 높아지고 상관계수가 작으면 유사성은 낮아진다. [거리척도를 사용한 유사성 계산기법] - 유클리디안 거리 n차원의 공간에서 두 점간의 거리를 계산하는 공식 L2 Distance 각 객체의 속성 값을 기준으로 각 객체사이의 유사..

[데이터분석 준전문가 Day 11/독학] ADsP 5-2 지도학습 정리본

3과목 공부시작 [지도학습] 예측기법: 회귀분석, 선형모형, 비선형모형 분류기법: 의사결정나무, 서포트 벡터 머신, 판별분석, 로지스틱 회귀분석 학습데이터는 분류 알고리즘을 사용해서 분류모형을 만들고 검증 데이터로 분류모형의 타당성을 확인 Train data: 분석모델을 만들기 위해서 사용되는 학습용 데이터 Validation data: 분석모델을 검증하기 위한 데이터 Test data: 최종 분석모델을 확인하기 위한 결과용 데이터 [다중 회귀분석] k개의 독립변수가 종속변수 Y를 종속하는 경우 다중 회귀분석을 사용 전진 선택법: 독립변수 중에서 종속변수에 영향이 가장 큰 변수부터 모형에 포함시키는 방법 후진 제거법: 독립변수를 모두 포함시켜서 모형을 만들고 가장 영향이 적은 변수부터 제거하는 방법 단계..

[데이터분석 준전문가 Day 11/독학] ADsP 5-1 데이터마이닝 개요 정리본

3과목 공부시작 [데이터마이닝 개념] 대규모 데이터 베이스를 사용해서 기존에 알려지지 않은 패턴이나 규칙을 찾아내는 과정 KDD(Knowledge Discovery in Databases) - 데이터마이닝 발전단계 1960년대: Data Collection 1980년대: Data Access 1990년대: Data Queries 2000년대: Data Mining - 데이터마이닝이 활성화 되는 이유 데이터 소프트웨어 하드웨어 비즈니스 - 인공지능, 머신러닝, 딥러닝의 차이점 인공지능: 컴퓨터가 사람처럼 생각하고 판단하게 하는 기술 머신러닝: 인간의 학습능력을 컴퓨터에 부여하기 위한 기술 딥러닝: 빅데이터를 사용하여 학습하고 판단하는 기술 [예측(Estimate)과 설명(Description)] - 데이터..

[데이터분석 준전문가 Day 10/독학] ADsP 4-7 통계분석 정리본

3과목 공부시작 [통계분석] 특정집단을 대상으로 자료를 수집하여 대상집단의 정보를 구해서 통계분석 기법으로 통계적 추론을 하는 일련의 과정을 의미 [차이검정] 여러 개의 그룹 간의 차이를 비교하는 분석기법으로 평균과 분산차이를 분석 - 평균차이검정 어떤 집단간에 평균차이를 검정하는 것으로 질적변수 1개와 연속변수 1개를 분석 질적변수 1개는 집단을 구분하고 연속변수 1개는 평균을 계산 [평균검정] 집단 간에 평균 값을 비교하는 분석기법으로 1종 오류가 발생할 수 있다. summary()함수: 평균, 중심값, 최소 및 최대값, 사분위수 dim()함수: 관측치와 변수를 확인 - One Sample T-test: 하나의 집단에 평균이 얼마인지를 검사하는 방법 ex. 질적변수는 남자, 연속변수는 몸무게 - In..

[데이터분석 준전문가 Day 9/독학] ADsP 4-6 가설 정리본

3과목 공부시작 [가설검증] 가설의 진실여부를 증명하는 것 유의성 검정: 통계적 유의성을 검정하는 것 모수에서 표본을 사용하여 진실여부를 True 혹은 False로 판단 귀무가설이 사실이라고 가정하고 검증 - 귀무가설 모집단과 표본평균은 같다. 비교하는 값과 차이가 없다는 것은 기본 개념으로 설정하는 가설 일반적으로 진실이라고 믿고 있는 사실 통계적 검정대상 - 대립가설 모집단과 표본의 평균은 다르다. 단측가설과 양측가설로 분류 귀무가설과 대립하는 가설로 새로운 사실을 입증 모수의 표본을 사용해서 검증 [가설검정의 종류] 귀무가설을 채택할 것인지 기각할 것인지 검증 - 우측검정: 오른쪽 5% 내에 있는지를 확인 - 좌측검정: 왼쪽 5% 내에 있는지를 확인 - 양측검정: 우측과 좌측 2.5% 내에 있는지를..

[데이터분석 준전문가 Day 9/독학] ADsP 4-5 통계적 추론 정리본

3과목 공부시작 [확률분포] 확률변수가 특정 값을 가질 확률을 나타내는 함수 통계량을 분석하여 통계적 의사결정을 내릴 수 있는 기준을 제시 - 이산확률분포: 일양균등분포, 이항분포, 포아송분포, 초기하분포, 기하분포 - 연속확률분포: 평균분포(정규분포, t-분포), 분산분포(X제곱분포, f-분포) [확률변수] 일정한 확률을 가지고 발생하는 사건에 여러 가지 값을 부여한 변수 표본공간에 있는 각 원소에 대응하는 규칙 혹은 함수 모든 원소를 실수로 대응하는 함수 - 이산확률변수: 정수로 특정한 수치만을 가지고 있다.(ex. 방문자수, 교통사고 건수) - 연속확률변수: 실수로 어떤 범위의 연속 값을 가질 수 있는 변수(ex. 몸무게, 체온, 출근/퇴근 시간) [이산확률분포] 이산균등분포, 포아송분포, 베르누이..

[데이터분석 준전문가 Day 8/독학] ADsP 4-4 추리통계 정리본

3과목 공부시작 [확률] 확률 0과1 사이의 숫자로 표현 표본 자료를 사용해서 구한 통계량과 모집단의 모수를 추론 [추리통계학] 통계학은 전수조사를 할 수가 없어서 표본조사를 한다. 표본조사는 표본오차를 발생 표본오차는 모집단의 모수와 표본 간에 발생하는 오차 [확률] 고전적: 이론적인 확률 경험적: 실험을 통해서 얻어진 확률(ex. 불량율) 주관적: 전문가의 의견으로 주관적으로 판단되는 확률 [확률계산] - 확률: 사건의 발생할 경우의 수/ 전체경우의 수 표본공간: S로 표시하며 통계적 시험에서 발생할 수 있는 경우의 수이다. 사건: 특정 결과가 발생하는 모임으로 A, B, C 등으로 표현한다. [카운팅] 사건이 발생할 수 있는 경우의 수를 계산 곱셈의 법칙을 사용해서 계산 [순열(Permutation..

[데이터분석 준전문가 Day 7/독학] ADsP 4-3 기술통계 정리본

3과목 공부시작 [기술통계] - 표본: 조사하기 위해 추출한 모집단의 일부 원소 - 모수: 표본 관측으로 구하고자 하는 모집단에 대한 정보 모집단으로부터 수집된 자료를 정리, 요약하여 자료의 특징을 분석 표 및 그래프, 객관적인 수치를 사용해서 요약 질적자료 - 성별, 학년과 같은 구분을 하는 변수 연속자료 - 수량과 같은 수치자료 [질적자료 기술통계] - 도수분포표 (막대그래프) 수집된 자료에 대해서 적절한 등급으로 분류해서 정리한 표 관측값을 여러 개의 그룹으로 나누고 관측값의 수를 요약 정리한 표 - 분할표(일원분할표, 이원분할표) [연속자료 기술통계] 자료의 분포 특성을 파악하기 위해서 숫자로 표현 중심위치: 관측 자료가 어디에 집중되어 있는지를 분석(ex. 산술평균, 중앙값, 최빈값, 기하평균,..

[데이터분석 준전문가 Day 7/독학] ADsP 4-2 표본조사 정리본

3과목 공부시작 [표본조사] 모집단의 특성을 나타내는 일부 표본을 추출하기 위해서 자료를 수집하는 행위 모집단의 대상이 너무 많기 때문에 현실적으로 모집단을 전수조사 하는 것은 불가능 - 확률표집과 비확률표집 확률표집: 수학적인 지침에 의해서 선정되는 표본추출법, 표본의 오차를 계산해야 한다. 비확률표집: 수학적으로 계산할 수 없는 경우에 사용되는 표본추출법, 표본의 오차를 계산할 수가 없다. [확률표집] - 단순 무작위 표집: 랜덤하게 모수에서 표본을 반복적으로 추출하는 것으로 난수표 및 체계적 표집법을 사용 난수표: 생성된 난수에 해당하는 개체를 조사 체계적 표집법: 난수에 추출 간격을 더해서 추출하는 방법 - 층화표집법: 소집단으로 분류하고 각 소집단으로부터 무작위로 표본을 추출 - 군집표집법: 군..

[데이터분석 준전문가 Day 7/독학] ADsP 4-1 자료분석 정리본

3과목 공부시작 [자료분석] 관련지식과 통계지식을 사용해서 최선의 의사결정을 하기 위해 자료를 정리하고 분석하는 활동 변수: 값이 달라질 수 있는 것 상수: 값이 달라지지 않는 것 관측치: 모집단으로 추출된 표본의 수 모수: 전체 집단을 설명하는 진실된 값, 통계는 전수조사를 할 수 없기 떄문에 모수와 표본 간의 오차 범위를 예측 잔차: 관측 값과 계산 값의 차이를 의미, 잔차를 연구하여 각종 오차를 계산 [함수] dim()함수: 관측치와 변수를 확인 head()함수: 상위 6개의 데이터를 조회해서 화면에 출력 str()함수: 변수리스트와 변수의 데이터 타입(ex. 정수, 실수, 범주형) [변수] - 측정결과가 조사대상과 다른 값으로 나타날 수 있는 속성 혹은 특성 - 독립변수와 종속변수 독립변수: 설명..

[데이터분석 준전문가 Day 6/독학] ADsP 3-3 결측값 처리와 이상값 검색 정리본

3과목 공부 시작 [결측 데이터] - 누락된 데이터 및 비어있는 데이터를 의미 완전 무작위 결측: 변수 상에 발생한 결측값이 다른 변수들과 전혀 관계가 없는 경우 무작위 결측: 특정 변수와 관련이 있지만 그 변수의 결과는 관계가 없는 경우 비 무작위 결측: 누락된 변수 결과가 다른 변수와 관련이 있는 경우 [결측값 처리방법] - 명시적 모형에 의한 대체 확률분포를 따른다고 가정한 후에 분포의 모수들을 추정하여 대체 평균 대체, 중앙값 대체, 확률 대체, 비율 대체, 회귀 대체, 확률적회귀 대체, 분포를 가정한 대체 - 내재적 모형에 의한 대체 확률분포를 따른다고 가정하지 않고 가능한 정확한 값을 가지고 대체 핫덱 대체: 데이터 내의 응답 값을 사용해서 결측값을 대체하는 방법 콜드덱 대체: 동일한 조사 자..

[데이터분석 준전문가 Day 6/독학] ADsP 3-2 R기초와 데이터 마트 정리본

3과목 공부 시작 [R언어] - R환경: R 프로그램, 텍스트 마이닝, 데이터 마이닝, 최신 알고리즘, 그래픽 툴 시각화 도구를 제공하여 빅데이터 분석 도구로 활용 실행: CTRL+R, CTRL+ENTER 삭제: CTRL+L - 산술 연산자(모르는 것만) 몫: %/% - 할당 연산자 ←, =: 오른쪽의 값을 왼쪽에 저장 →: 왼쪽의 값을 오른쪽에 저장 [특수 데이터 타입] NULL: 존재하지 않은 객체로 지정 NA: 결측값(Missing Value)을 의미 NaN: 수학적으로 계산이 불가능한 수를 의미 Inf: 양의 무한대를 의미 -Inf: 음의 무한대를 의미 [데이터 타입 확인 함수] - mode()함수: 데이터 타입을 문자열로 출력 - is 함수: is로 시작하는 함수들은 TRUE와 FALSE로 반환..

[데이터분석 준전문가 Day 5/독학] ADsP 3-1 빅데이터 수집과 정제 플랜 정리본

3과목 공부 시작 [데이터 유형] - 정형 데이터 관계형 데이터베이스, 데이터베이스 스키마 지원 데이터 종류: RDB, 스프레드시트 - 반정형 데이터 스토리지에 저장되는 데이터 파일 XML 형태의 데이터로 값과 형식이 일관성이 없다 데이터 종류: HTML, XML, JSON, 웹페이지, 웹로그, 센서데이터 - 비정형 데이터 언어분석이 가능한 텍스트 데이터 형태와 구조가 복잡한 이미지, 동영상 같은 멀티미디어 데이터 데이터 종류: 소셜 데이터, 문서, 이미지, 오디오, 비디오 [데이터 유형별 수집기술] - 정형 데이터: ETL, FTP, Open API - 반정형 데이터: Crawling, RSS, Open API, FTP - 비정형 데이터: Crawling, RSS, Open API, Streaming,..

[데이터분석 준전문가 Day 4/독학] ADsP 2-2 분석 마스터 플랜 정리본

2과목 공부 시작 [빅데이터 분석 마스터 플랜] - 수행하는 과제 중에서 비지니스 전략적 중요성과 성과를 분석해서 과제의 적용 우선순위를 결정 - 분석과제 우선순위 고려사항 전략적 중요도 비즈니스 성과 및 ROI 실행 용이성 - 적용범위 및 방식 고려사항 업무내재화적용 수준 분석 데이터적용 수준 기술적용 수준 [빅데이터 수행 과제 우선순위 평가] - 전략적 중요성 - 비즈니스 성과 및 ROI - 실행 용이성 - 분석과제 도출 → 우선순위 평가 → 우선순위 정련 [데이터 분석과제 평가 시 고려사항] - 시급성 전략적 중요도 목표가치 - 난이도 데이터 수집, 저장, 가공 비용 분석 적용 비용 분석수준 [분석과제 우선순위 선정 매트릭스] 1 2 3 4 y축 - 난이도 x축 - 시급성 - 시급성 우선순위 기준:..

[데이터분석 준전문가 Day 3/독학] ADsP 2-1 데이터 분석의 이해 정리본

2과목 공부 시작 [빅데이터 분석 방법론] - 암묵지를 형식지화, 형식지를 체계화하여 방법론 등장 암묵지: 사람의 학습, 경험으로 얻은 지식을 사용하여 빅데이터 분석 수행 형식지: 사람의 학습과 경험을 문서화하여 지식으로 창출 방법론: 형식지를 좀 더 구체적으로 만들기 위해 정의하여 문서화한 것 [빅데이터 분석 방법론의 적용 모델] - 폭포수 모델 순차적 단계 고객의 요구사항 확인이 어려운 문제가 있어서 프로토타이핑 모델이 등장 - 프로토타이핑 모델 프로토타입을 먼저 만들고 고객에게 확인 후에 개발하는 모델 - 반복 점증형 모델 규모가 큰 빅데이터 사업에 적용해야 하는 모델 요구사항, 분석, 설계, 구현, 테스트를 반복 - 나선형 모델 폭포수 모델과 프로토 타이핑 모델이 통합된 모델 반복적으로 위험분석을..

[데이터분석 준전문가 Day 2/독학] ADsP 1-3 데이터 사이언스와 전략 인사이트 정리본

공 부 시 작 [빅데이터 분석기획 3가지 역량(데이터 사이언티스트의 역량)] 수학과 통계 정보기술 도메인 지식 [데이터 사이언티스트의 하드 스킬, 소프트 스킬] 하드 스킬: 이론적 지식, 기술적 숙련과 관련된 능력 - 머신러닝, 통계, 분산 컴퓨팅 등의 능력 소프트 스킬: 데이터의 가치를 발견하고 기회를 만드는 능력 - 창의적 사고, 비주얼라이제이션, 커뮤니케이션 능력 [빅데이터 분석 주제 유형] - 분석 대상, 분석방법에 따라서 분류 최적화(Optimization): 분석대상 및 분석방법을 알고 있는 경우 솔루션(Solution): 분석대상은 알고 있지만 분석방법을 알지 못하는 경우 통찰(Insight): 분석대상이 불명확하지만 분석방법을 알고 있는 경우 발견(Discovery): 분석대상과 분석방법을..

[데이터분석 준전문가 Day 2/독학] ADsP 1-2 데이터의 가치와 미래 정리본

공부를 하니까 굉장히 알차네요(비꼬는 거 아님) 그럼 시작합니다. [빅데이터] 다양한 형태의 데이터로 양이 매우 방대하여 기존의방법으로 데이터를 수집, 저장, 분석하기 어려운 데이터 정형과 비정형 데이터에서 가치를 추출하기 위한 분석기술 사물인터넷(IoT)의 등장으로 실시간성 데이터로 변화 [빅데이터의 특성 3V+2V] Volume(규모): 일상화된 정보기술로 디지털 정보량이 기하급수적으로 폭증 Variety(다양성): 텍스트 이외의 멀티미디어 데이터와 같은 비정형 데이터가 증가 Velocity(속도): 가치 있는 정보의 적시 활용을 위한 데이터 분석속도가 중요 Veracity(정확성): 질 높은 데이터를 활용해야 분석의 정확도가 높아짐 Value(가치): 사용자에게 가치 있는 정보를 창출함 [빅데이터의..

[데이터분석 준전문가 Day 1/독학] ADsP 1-1 데이터 이해 정리본

취준(이직준비)을 하면서 토스와 같이 공부를 하려고 합니다. 저는 정보처리기사와 SQLD자격증이 있습니다. ADsP는 시험을 보고 떨어져서 재시험입니다.(52점 탈 ㅠㅠ) 8월 28일 접수를 했습니다. 이번에는 제대로 준비해서 합격해보려고 합니다. [공부 시작] 데이터: 추론과 추정의 근거를 이루는 사실 특성 내용 존재적 특성 객관적인 사실을 의미 당위적 특성 추론, 예측, 전망, 추정을 위한 근거 데이터의 유형: 정성적 데이터, 정량적 데이터로 분류 유형 내용 정성적 데이터 언어, 문자등의 형태로 데이터 저장과 분석 등에 많은 시간이 소모 정량적 데이터 수치, 도형, 기호 등의 형태로 정형화된 데이터, 비용 소모 적음 지식창조 메커니즘 특성 내용 공동화 암묵지를 고차원의 암묵지로 전환 표출화 암묵지를 ..

728x90