728x90

자격증 24

[데이터분석 준전문가 Day 13/독학] ADsP 5-5 빅데이터 시각화 정리본

3과목 공부시작 [빅데이터 시각화] 빅데이터 분석을 통해 얻은 결과를 누구나 이해하기 쉽게 시각적으로 표시한 과정 [정보 시각화] - 시간 시각화 막대 그래프, 누적 막대 그래프, 점 그래프 시간 흐름에 따른 변화를 보기 위해서 시각화 - 분포 시각화 파이차트, 도우넛 차트, 트리맵, 누적 연속 그래프 시간, 분류, 세부 분류, 가짓수 등으로 데이터를 분포하여 전체 분포, 최대, 최소 분포 등을 확인 - 관계 시각화 산점도, 버블차트, 히스토그램 상관성 분석은 2개의 연속변수 간의 분산을 확인해서 얼마나 평균으로부터 뭉쳐 있는지 확인 - 비교 시각화 히트맵, 스타차트, 평행 좌표계, 다차원 척도법 - 공간 시각화 지도맵핑 지도를 활용해서 공간에 대한 직관성을 높이기 위한 방법

[데이터분석 준전문가 Day 13/독학] ADsP 5-4 데이터마이닝 모델 성능평가 정리본

3과목 공부시작 [모델 성능평가] 과적합을 방지해서 실제 업무에 적용할 때 분류와 예측력을 향상 예측 및 분류 모델에 대해서 다양한 세팅 지도학습의 결과 데이터를 사용해서 모델성능을 평가 - 예측모델 성능평가 예측된 데이터에 대해서 성능평가를 실시 평균오차, MAPE, RMSE, 향상차트(Lift Chart)를 사용해서 평가 - 분류모델 성능평가 분류된 데이터가 올바르게 분류 되었는지 확인 정오행렬(Confusion matrix), 분류행렬, 정확도, 오분류율, 민감도, 특이도, ROC 도표, 향상차트를 사용해서 평가 - 랭킹 성능평가 점수를 활용해서 등수로 분류를 확인 향상차트를 사용 - 확대 샘플링 샘플링이 적은 경우 개체 수가 증가하거나 cut-off를 증가시켜서 실시 [지도학습의 결과 정보] - ..

[데이터분석 준전문가 Day 12/독학] ADsP 5-3 비지도학습 정리본

3과목 공부시작 [비지도학습] 목표변수가 없는 상태에서 학습을 통해서 모델을 만드는 분석기법 [군집분석] 객체들을 유사한 속성으로 군집하는 데이터마이닝 기법 계층적 방법과 비계층적 방법 각 객체 간의 유사도를 측정하여 군집을 생성 [군집분석 유사성 척도] - 거리 척도 거리 값을 생성하여 그 값을 기준으로 군집을 생성 거리 값이 가까우면 유사성이 높고 거리 값이 멀어지면 유사성이 낮아짐 - 상관계수 척도 객체 간에 상관계수를 계산하여 유사성을 결정 객체 간에 상관계수가 크면 유사성은 높아지고 상관계수가 작으면 유사성은 낮아진다. [거리척도를 사용한 유사성 계산기법] - 유클리디안 거리 n차원의 공간에서 두 점간의 거리를 계산하는 공식 L2 Distance 각 객체의 속성 값을 기준으로 각 객체사이의 유사..

[데이터분석 준전문가 Day 11/독학] ADsP 5-2 지도학습 정리본

3과목 공부시작 [지도학습] 예측기법: 회귀분석, 선형모형, 비선형모형 분류기법: 의사결정나무, 서포트 벡터 머신, 판별분석, 로지스틱 회귀분석 학습데이터는 분류 알고리즘을 사용해서 분류모형을 만들고 검증 데이터로 분류모형의 타당성을 확인 Train data: 분석모델을 만들기 위해서 사용되는 학습용 데이터 Validation data: 분석모델을 검증하기 위한 데이터 Test data: 최종 분석모델을 확인하기 위한 결과용 데이터 [다중 회귀분석] k개의 독립변수가 종속변수 Y를 종속하는 경우 다중 회귀분석을 사용 전진 선택법: 독립변수 중에서 종속변수에 영향이 가장 큰 변수부터 모형에 포함시키는 방법 후진 제거법: 독립변수를 모두 포함시켜서 모형을 만들고 가장 영향이 적은 변수부터 제거하는 방법 단계..

[데이터분석 준전문가 Day 11/독학] ADsP 5-1 데이터마이닝 개요 정리본

3과목 공부시작 [데이터마이닝 개념] 대규모 데이터 베이스를 사용해서 기존에 알려지지 않은 패턴이나 규칙을 찾아내는 과정 KDD(Knowledge Discovery in Databases) - 데이터마이닝 발전단계 1960년대: Data Collection 1980년대: Data Access 1990년대: Data Queries 2000년대: Data Mining - 데이터마이닝이 활성화 되는 이유 데이터 소프트웨어 하드웨어 비즈니스 - 인공지능, 머신러닝, 딥러닝의 차이점 인공지능: 컴퓨터가 사람처럼 생각하고 판단하게 하는 기술 머신러닝: 인간의 학습능력을 컴퓨터에 부여하기 위한 기술 딥러닝: 빅데이터를 사용하여 학습하고 판단하는 기술 [예측(Estimate)과 설명(Description)] - 데이터..

[데이터분석 준전문가 Day 10/독학] ADsP 4-7 통계분석 정리본

3과목 공부시작 [통계분석] 특정집단을 대상으로 자료를 수집하여 대상집단의 정보를 구해서 통계분석 기법으로 통계적 추론을 하는 일련의 과정을 의미 [차이검정] 여러 개의 그룹 간의 차이를 비교하는 분석기법으로 평균과 분산차이를 분석 - 평균차이검정 어떤 집단간에 평균차이를 검정하는 것으로 질적변수 1개와 연속변수 1개를 분석 질적변수 1개는 집단을 구분하고 연속변수 1개는 평균을 계산 [평균검정] 집단 간에 평균 값을 비교하는 분석기법으로 1종 오류가 발생할 수 있다. summary()함수: 평균, 중심값, 최소 및 최대값, 사분위수 dim()함수: 관측치와 변수를 확인 - One Sample T-test: 하나의 집단에 평균이 얼마인지를 검사하는 방법 ex. 질적변수는 남자, 연속변수는 몸무게 - In..

[데이터분석 준전문가 Day 9/독학] ADsP 4-6 가설 정리본

3과목 공부시작 [가설검증] 가설의 진실여부를 증명하는 것 유의성 검정: 통계적 유의성을 검정하는 것 모수에서 표본을 사용하여 진실여부를 True 혹은 False로 판단 귀무가설이 사실이라고 가정하고 검증 - 귀무가설 모집단과 표본평균은 같다. 비교하는 값과 차이가 없다는 것은 기본 개념으로 설정하는 가설 일반적으로 진실이라고 믿고 있는 사실 통계적 검정대상 - 대립가설 모집단과 표본의 평균은 다르다. 단측가설과 양측가설로 분류 귀무가설과 대립하는 가설로 새로운 사실을 입증 모수의 표본을 사용해서 검증 [가설검정의 종류] 귀무가설을 채택할 것인지 기각할 것인지 검증 - 우측검정: 오른쪽 5% 내에 있는지를 확인 - 좌측검정: 왼쪽 5% 내에 있는지를 확인 - 양측검정: 우측과 좌측 2.5% 내에 있는지를..

[데이터분석 준전문가 Day 9/독학] ADsP 4-5 통계적 추론 정리본

3과목 공부시작 [확률분포] 확률변수가 특정 값을 가질 확률을 나타내는 함수 통계량을 분석하여 통계적 의사결정을 내릴 수 있는 기준을 제시 - 이산확률분포: 일양균등분포, 이항분포, 포아송분포, 초기하분포, 기하분포 - 연속확률분포: 평균분포(정규분포, t-분포), 분산분포(X제곱분포, f-분포) [확률변수] 일정한 확률을 가지고 발생하는 사건에 여러 가지 값을 부여한 변수 표본공간에 있는 각 원소에 대응하는 규칙 혹은 함수 모든 원소를 실수로 대응하는 함수 - 이산확률변수: 정수로 특정한 수치만을 가지고 있다.(ex. 방문자수, 교통사고 건수) - 연속확률변수: 실수로 어떤 범위의 연속 값을 가질 수 있는 변수(ex. 몸무게, 체온, 출근/퇴근 시간) [이산확률분포] 이산균등분포, 포아송분포, 베르누이..

[데이터분석 준전문가 Day 8/독학] ADsP 4-4 추리통계 정리본

3과목 공부시작 [확률] 확률 0과1 사이의 숫자로 표현 표본 자료를 사용해서 구한 통계량과 모집단의 모수를 추론 [추리통계학] 통계학은 전수조사를 할 수가 없어서 표본조사를 한다. 표본조사는 표본오차를 발생 표본오차는 모집단의 모수와 표본 간에 발생하는 오차 [확률] 고전적: 이론적인 확률 경험적: 실험을 통해서 얻어진 확률(ex. 불량율) 주관적: 전문가의 의견으로 주관적으로 판단되는 확률 [확률계산] - 확률: 사건의 발생할 경우의 수/ 전체경우의 수 표본공간: S로 표시하며 통계적 시험에서 발생할 수 있는 경우의 수이다. 사건: 특정 결과가 발생하는 모임으로 A, B, C 등으로 표현한다. [카운팅] 사건이 발생할 수 있는 경우의 수를 계산 곱셈의 법칙을 사용해서 계산 [순열(Permutation..

[데이터분석 준전문가 Day 7/독학] ADsP 4-3 기술통계 정리본

3과목 공부시작 [기술통계] - 표본: 조사하기 위해 추출한 모집단의 일부 원소 - 모수: 표본 관측으로 구하고자 하는 모집단에 대한 정보 모집단으로부터 수집된 자료를 정리, 요약하여 자료의 특징을 분석 표 및 그래프, 객관적인 수치를 사용해서 요약 질적자료 - 성별, 학년과 같은 구분을 하는 변수 연속자료 - 수량과 같은 수치자료 [질적자료 기술통계] - 도수분포표 (막대그래프) 수집된 자료에 대해서 적절한 등급으로 분류해서 정리한 표 관측값을 여러 개의 그룹으로 나누고 관측값의 수를 요약 정리한 표 - 분할표(일원분할표, 이원분할표) [연속자료 기술통계] 자료의 분포 특성을 파악하기 위해서 숫자로 표현 중심위치: 관측 자료가 어디에 집중되어 있는지를 분석(ex. 산술평균, 중앙값, 최빈값, 기하평균,..

[데이터분석 준전문가 Day 7/독학] ADsP 4-2 표본조사 정리본

3과목 공부시작 [표본조사] 모집단의 특성을 나타내는 일부 표본을 추출하기 위해서 자료를 수집하는 행위 모집단의 대상이 너무 많기 때문에 현실적으로 모집단을 전수조사 하는 것은 불가능 - 확률표집과 비확률표집 확률표집: 수학적인 지침에 의해서 선정되는 표본추출법, 표본의 오차를 계산해야 한다. 비확률표집: 수학적으로 계산할 수 없는 경우에 사용되는 표본추출법, 표본의 오차를 계산할 수가 없다. [확률표집] - 단순 무작위 표집: 랜덤하게 모수에서 표본을 반복적으로 추출하는 것으로 난수표 및 체계적 표집법을 사용 난수표: 생성된 난수에 해당하는 개체를 조사 체계적 표집법: 난수에 추출 간격을 더해서 추출하는 방법 - 층화표집법: 소집단으로 분류하고 각 소집단으로부터 무작위로 표본을 추출 - 군집표집법: 군..

[데이터분석 준전문가 Day 7/독학] ADsP 4-1 자료분석 정리본

3과목 공부시작 [자료분석] 관련지식과 통계지식을 사용해서 최선의 의사결정을 하기 위해 자료를 정리하고 분석하는 활동 변수: 값이 달라질 수 있는 것 상수: 값이 달라지지 않는 것 관측치: 모집단으로 추출된 표본의 수 모수: 전체 집단을 설명하는 진실된 값, 통계는 전수조사를 할 수 없기 떄문에 모수와 표본 간의 오차 범위를 예측 잔차: 관측 값과 계산 값의 차이를 의미, 잔차를 연구하여 각종 오차를 계산 [함수] dim()함수: 관측치와 변수를 확인 head()함수: 상위 6개의 데이터를 조회해서 화면에 출력 str()함수: 변수리스트와 변수의 데이터 타입(ex. 정수, 실수, 범주형) [변수] - 측정결과가 조사대상과 다른 값으로 나타날 수 있는 속성 혹은 특성 - 독립변수와 종속변수 독립변수: 설명..

[데이터분석 준전문가 Day 6/독학] ADsP 3-3 결측값 처리와 이상값 검색 정리본

3과목 공부 시작 [결측 데이터] - 누락된 데이터 및 비어있는 데이터를 의미 완전 무작위 결측: 변수 상에 발생한 결측값이 다른 변수들과 전혀 관계가 없는 경우 무작위 결측: 특정 변수와 관련이 있지만 그 변수의 결과는 관계가 없는 경우 비 무작위 결측: 누락된 변수 결과가 다른 변수와 관련이 있는 경우 [결측값 처리방법] - 명시적 모형에 의한 대체 확률분포를 따른다고 가정한 후에 분포의 모수들을 추정하여 대체 평균 대체, 중앙값 대체, 확률 대체, 비율 대체, 회귀 대체, 확률적회귀 대체, 분포를 가정한 대체 - 내재적 모형에 의한 대체 확률분포를 따른다고 가정하지 않고 가능한 정확한 값을 가지고 대체 핫덱 대체: 데이터 내의 응답 값을 사용해서 결측값을 대체하는 방법 콜드덱 대체: 동일한 조사 자..

[데이터분석 준전문가 Day 6/독학] ADsP 3-2 R기초와 데이터 마트 정리본

3과목 공부 시작 [R언어] - R환경: R 프로그램, 텍스트 마이닝, 데이터 마이닝, 최신 알고리즘, 그래픽 툴 시각화 도구를 제공하여 빅데이터 분석 도구로 활용 실행: CTRL+R, CTRL+ENTER 삭제: CTRL+L - 산술 연산자(모르는 것만) 몫: %/% - 할당 연산자 ←, =: 오른쪽의 값을 왼쪽에 저장 →: 왼쪽의 값을 오른쪽에 저장 [특수 데이터 타입] NULL: 존재하지 않은 객체로 지정 NA: 결측값(Missing Value)을 의미 NaN: 수학적으로 계산이 불가능한 수를 의미 Inf: 양의 무한대를 의미 -Inf: 음의 무한대를 의미 [데이터 타입 확인 함수] - mode()함수: 데이터 타입을 문자열로 출력 - is 함수: is로 시작하는 함수들은 TRUE와 FALSE로 반환..

[데이터분석 준전문가 Day 5/독학] ADsP 3-1 빅데이터 수집과 정제 플랜 정리본

3과목 공부 시작 [데이터 유형] - 정형 데이터 관계형 데이터베이스, 데이터베이스 스키마 지원 데이터 종류: RDB, 스프레드시트 - 반정형 데이터 스토리지에 저장되는 데이터 파일 XML 형태의 데이터로 값과 형식이 일관성이 없다 데이터 종류: HTML, XML, JSON, 웹페이지, 웹로그, 센서데이터 - 비정형 데이터 언어분석이 가능한 텍스트 데이터 형태와 구조가 복잡한 이미지, 동영상 같은 멀티미디어 데이터 데이터 종류: 소셜 데이터, 문서, 이미지, 오디오, 비디오 [데이터 유형별 수집기술] - 정형 데이터: ETL, FTP, Open API - 반정형 데이터: Crawling, RSS, Open API, FTP - 비정형 데이터: Crawling, RSS, Open API, Streaming,..

[데이터분석 준전문가 Day 4/독학] ADsP 2-2 분석 마스터 플랜 정리본

2과목 공부 시작 [빅데이터 분석 마스터 플랜] - 수행하는 과제 중에서 비지니스 전략적 중요성과 성과를 분석해서 과제의 적용 우선순위를 결정 - 분석과제 우선순위 고려사항 전략적 중요도 비즈니스 성과 및 ROI 실행 용이성 - 적용범위 및 방식 고려사항 업무내재화적용 수준 분석 데이터적용 수준 기술적용 수준 [빅데이터 수행 과제 우선순위 평가] - 전략적 중요성 - 비즈니스 성과 및 ROI - 실행 용이성 - 분석과제 도출 → 우선순위 평가 → 우선순위 정련 [데이터 분석과제 평가 시 고려사항] - 시급성 전략적 중요도 목표가치 - 난이도 데이터 수집, 저장, 가공 비용 분석 적용 비용 분석수준 [분석과제 우선순위 선정 매트릭스] 1 2 3 4 y축 - 난이도 x축 - 시급성 - 시급성 우선순위 기준:..

[데이터분석 준전문가 Day 3/독학] ADsP 2-1 데이터 분석의 이해 정리본

2과목 공부 시작 [빅데이터 분석 방법론] - 암묵지를 형식지화, 형식지를 체계화하여 방법론 등장 암묵지: 사람의 학습, 경험으로 얻은 지식을 사용하여 빅데이터 분석 수행 형식지: 사람의 학습과 경험을 문서화하여 지식으로 창출 방법론: 형식지를 좀 더 구체적으로 만들기 위해 정의하여 문서화한 것 [빅데이터 분석 방법론의 적용 모델] - 폭포수 모델 순차적 단계 고객의 요구사항 확인이 어려운 문제가 있어서 프로토타이핑 모델이 등장 - 프로토타이핑 모델 프로토타입을 먼저 만들고 고객에게 확인 후에 개발하는 모델 - 반복 점증형 모델 규모가 큰 빅데이터 사업에 적용해야 하는 모델 요구사항, 분석, 설계, 구현, 테스트를 반복 - 나선형 모델 폭포수 모델과 프로토 타이핑 모델이 통합된 모델 반복적으로 위험분석을..

[토익스피킹 Day 2/독학] 토스 공부 Questions 3-4 정리본

공부 시작 [출제 유형 정리 + 답변 팁] - 인물 중심(3인 이상) 비중이 큰 순서대로 인물을 묘사 - 인물 중심(2인) 인물의 동작을 정확하게 묘사 두 명의 인상착의 설명 - 인물 중심(1인) 인물의 동작이나 인상착의 설명 - 다수의 인물 및 사물 비중이 큰 사물을 인물보다 먼저 묘사 - 쉽고 간결한 표현 사용 - 많은 문장을 말하기 보단 문법의 완성도에 유의 - 일정한 리듬으로 자신 있게 답변, 목소리 크기 줄어 들지 않기 [템플릿] - 3-4번 문제에서는 그림이 나오기 때문에 첫 마디를 준비할 수 있다. 장소: I think this picture was taken ~~ 인원 수: there are many people in this picture In the background of the pi..

[데이터분석 준전문가 Day 2/독학] ADsP 1-3 데이터 사이언스와 전략 인사이트 정리본

공 부 시 작 [빅데이터 분석기획 3가지 역량(데이터 사이언티스트의 역량)] 수학과 통계 정보기술 도메인 지식 [데이터 사이언티스트의 하드 스킬, 소프트 스킬] 하드 스킬: 이론적 지식, 기술적 숙련과 관련된 능력 - 머신러닝, 통계, 분산 컴퓨팅 등의 능력 소프트 스킬: 데이터의 가치를 발견하고 기회를 만드는 능력 - 창의적 사고, 비주얼라이제이션, 커뮤니케이션 능력 [빅데이터 분석 주제 유형] - 분석 대상, 분석방법에 따라서 분류 최적화(Optimization): 분석대상 및 분석방법을 알고 있는 경우 솔루션(Solution): 분석대상은 알고 있지만 분석방법을 알지 못하는 경우 통찰(Insight): 분석대상이 불명확하지만 분석방법을 알고 있는 경우 발견(Discovery): 분석대상과 분석방법을..

[데이터분석 준전문가 Day 2/독학] ADsP 1-2 데이터의 가치와 미래 정리본

공부를 하니까 굉장히 알차네요(비꼬는 거 아님) 그럼 시작합니다. [빅데이터] 다양한 형태의 데이터로 양이 매우 방대하여 기존의방법으로 데이터를 수집, 저장, 분석하기 어려운 데이터 정형과 비정형 데이터에서 가치를 추출하기 위한 분석기술 사물인터넷(IoT)의 등장으로 실시간성 데이터로 변화 [빅데이터의 특성 3V+2V] Volume(규모): 일상화된 정보기술로 디지털 정보량이 기하급수적으로 폭증 Variety(다양성): 텍스트 이외의 멀티미디어 데이터와 같은 비정형 데이터가 증가 Velocity(속도): 가치 있는 정보의 적시 활용을 위한 데이터 분석속도가 중요 Veracity(정확성): 질 높은 데이터를 활용해야 분석의 정확도가 높아짐 Value(가치): 사용자에게 가치 있는 정보를 창출함 [빅데이터의..

728x90