3과목 공부 시작
[R언어]
- R환경: R 프로그램, 텍스트 마이닝, 데이터 마이닝, 최신 알고리즘, 그래픽 툴
- 시각화 도구를 제공하여 빅데이터 분석 도구로 활용
- 실행: CTRL+R, CTRL+ENTER
- 삭제: CTRL+L
- 산술 연산자(모르는 것만)
- 몫: %/%
- 할당 연산자
- ←, =: 오른쪽의 값을 왼쪽에 저장
- →: 왼쪽의 값을 오른쪽에 저장
[특수 데이터 타입]
- NULL: 존재하지 않은 객체로 지정
- NA: 결측값(Missing Value)을 의미
- NaN: 수학적으로 계산이 불가능한 수를 의미
- Inf: 양의 무한대를 의미
- -Inf: 음의 무한대를 의미
[데이터 타입 확인 함수]
- mode()함수: 데이터 타입을 문자열로 출력
- is 함수: is로 시작하는 함수들은 TRUE와 FALSE로 반환
- is.numeric(): 수치형 확인
- is.integer(): 정수형 확인
- is.double(): 실수형 확인
- is.character(): 문자형 확인
- is.logical(): 논리형 확인
- is.complex(): 복소수형 확인
- is.null(): NULL 확인
- is.na(): NA 확인
- is.finite(): 유한수치 확인
- is.infiniter(): 무한수치 확인
[강제 형변환]
- as로 시작하는 함수들은 형변환을 수행
- as.numeic(): 수치형 변환
- as.integer(): 정수형 변환
- as.double(): 실수형 변환
- as.character(): 문자형 변환
- as.logical(): 논리형 변환
- as.complex(): 복소수형 변환
[데이터 구조]
- 벡터(Vector)
- 하나 혹은 하나이상의 원소를 가질 수 있는 데이터 구조
- 동일한 자료타입
- c()함수: 수치형, 문자형, 논리형, 복소수형 벡터를 생성
- 콜론(:): 데이터 유형을 변환하거나 데이터 분석이 용이한 형태로 변환
- seq(): 1씩 증가하거나 1씩 감소
- sequence(): 1과 지정한 숫자 사이의 정수로 수치형 벡터를 생성
- rep(): replication의 약자로 지정된 데이터를 복사
- cbind(): 열을 기준으로 벡터를 결합(column)
- rbind(): 행을 기준으로 벡터를 결합(row)
- 행렬(Matrix)
- 여러 개의 벡터로 구성된 2차원 구조
- 행과 열로 구성
- x: 벡터 지정
- nrow: 행의 개수를 지정
- ncol: 열의 개수를 지정
- byrow: 기본 값은 FALSE로 열을 기준으로 행렬을 만들고 TRUE로 지정하면 행을 기준으로 행렬을 만든다.
- 배열(Array)
- 다차원 형태의 데이터 구조를 가지고 있는 형태
- 데이터 프레임(Data frame)
- 행과 열로 이루어져 있지만, 여러 데이터 타입을 가질 수 있다.
- nrow(), ncol(), dim() → 행, 컬럼, 행과 컬럼 수를 확인
- 리스트(List)
- 키와 값의 형태로 서로 다른 데이터를 저장할 수 있는 연관 배열
- 데이터를 분석할 때 리스트 형태를 많이 사용
[함수]
- 어떤 독립적인 기능을 만들 때 사용
[파일 읽기]
- 텍스트 파일 읽기
- read.table()함수를 사용
- 콤마로 구분된 파일 읽기
- read.table()에서 sep값에 ","을 입력
- CSV 파일 읽기
- read.csv()함수를 사용
- 엑셀 파일 읽기
- read_excel()함수를 사용
- Path: 외부 파일 경로 지정
- Sheet: 시트명 지정, 시트의 순서 수치형으로 지정
- col_names: TRUE가 선정되면 엑셀의 칼럼명을 사용
[일변량 자료]
- 연속형 데이터: 히스토그램, 상자 그림, 바이올린 그래프, 커널밀도 곡선
- 범주형 데이터: 막대 그래프, 원 그래프
- 변수가 하나인 데이터, 양적자료와 질적자료로 구분
- (ex.몸무게라는 변수가 하나인 데이터)
- 빈도 분석: 질적자료를 개수를 세어서 분석하는 것
- 평균과 분산, 표준편차: 양적자료를 분석할 때 평균, 사분위수, 표준편차, 상자 그림, 히스토그램 사용
- 절사 평균: 표본 중에서 작은 값 n%와 큰 값 n%를 제외하고 나머지 자료만 사용해서 구하는 평균
- 평균: mean()
- 분산: var()
- 표준편차: sd()
- 최소값, 최대값, 중앙값, 평균: summary()
- 분산과 표준편차: 분산과 표준편차가 작다면 데이터들이 평균 근처에 모여 있다는 의미
[다변량 자료]
- 변수가 두 개인 데이터, 양적자료와 질적자료로 구분
- 연속형 데이터
- 산점도
- 선 그래프
- 시계열 그래프
- 범주형 데이터
- 모자이크 그래프
- plot(): 두 개의 변수의 관계만을 나타내는 2차원 그래프, 점, 선, 계단 그래프 표현
- pairs(): 여러 변수들의 상관관계를 한번에 보여준다
- cor(): 변수들의 상관계수를 구한다.
[일변량 질적자료]
- 빈도와 백분율을 사용
- 빈도: 자료가 가지는 값이 몇 개인지를 계산
- 백분율: 전체를 100으로 해서 얼마나 차지하는 비율을 구하는 것
- 빈도: table()함수를 사용해서 각 변수의 빈도수를 확인
- 백분율: prop.table()함수는 0과 1사이의 값을 반환하여 백분율을 알 수 있다.(ex.digits=1 둘째자리에서 반올림)
- 빈도와 백분율을 한번에 계산: freq()함수는 결측값(Missing value)이 있는 경우 제거하고 계산
- 막대 그래프: barplot(), ggplot(), geom_bar()함수를 통해 그래프 가시화
- 원 그래프: pie()함수를 사용해 그래프 가시화
[일변량 양적자료] - 표, 그래프, 기술 통계량
- 히스토그램
- 각 구간별 현황 및 대칭 여부를 확인
- 데이터에 이상 값 유무를 확인
- hist()함수를 사용
- 상자 그림
- 대칭여부 확인, 이상값 확인, 자료의 분포를 확인
- boxplot()함수를 사용해서 가시화
- 기술 통계량
- 데이터의 범위, 사분위범위, 분산, 표준편차, 중위수 절대편차를 확인
- 최소값, 최대값을 확인
- 데이터가 퍼져 있는 정도를 확인
- summary(), describe(), describeBy() 한번에 여러 개의 기술 통계량을 확인
[다변량 자료]
- str()함수: 변수의 수, 변수 타입 등을 확인
- summary()함수: 평균과 중심값을 확인
- sd()함수: 표준편차를 확인, 평균으로부터 데이터가 얼마나 떨어져 있는지 확인
- boxplot()함수: 그룹별 분포를 확인
- pairs()함수: 산점도를 통해 여러 변수들간의 관계 확인
- 선 그래프: 두 개의 변수에서 하나의 변수가 시간변수일 때 많이 사용
- 시계열 분석을 위해서 자주 사용되는 그래프
'자격증 > ADsP (데이터분석 준전문가)' 카테고리의 다른 글
[데이터분석 준전문가 Day 7/독학] ADsP 4-1 자료분석 정리본 (0) | 2022.08.09 |
---|---|
[데이터분석 준전문가 Day 6/독학] ADsP 3-3 결측값 처리와 이상값 검색 정리본 (0) | 2022.08.08 |
[데이터분석 준전문가 Day 5/독학] ADsP 3-1 빅데이터 수집과 정제 플랜 정리본 (0) | 2022.08.05 |
[데이터분석 준전문가 Day 4/독학] ADsP 2-2 분석 마스터 플랜 정리본 (0) | 2022.08.04 |
[데이터분석 준전문가 Day 3/독학] ADsP 2-1 데이터 분석의 이해 정리본 (0) | 2022.08.03 |