자격증/ADsP (데이터분석 준전문가)

[데이터분석 준전문가 Day 6/독학] ADsP 3-2 R기초와 데이터 마트 정리본

thisisjade 2022. 8. 8. 13:53
728x90

 

3과목 공부 시작

 

[R언어]

- R환경: R 프로그램, 텍스트 마이닝, 데이터 마이닝, 최신 알고리즘, 그래픽 툴

  • 시각화 도구를 제공하여 빅데이터 분석 도구로 활용
  • 실행: CTRL+R, CTRL+ENTER
  • 삭제: CTRL+L

 

- 산술 연산자(모르는 것만)

  • 몫: %/%

 

- 할당 연산자

  • ←, =: 오른쪽의 값을 왼쪽에 저장
  • →: 왼쪽의 값을 오른쪽에 저장

 

[특수 데이터 타입]

  • NULL: 존재하지 않은 객체로 지정
  • NA: 결측값(Missing Value)을 의미
  • NaN: 수학적으로 계산이 불가능한 수를 의미
  • Inf: 양의 무한대를 의미
  • -Inf: 음의 무한대를 의미

 

[데이터 타입 확인 함수]

- mode()함수: 데이터 타입을 문자열로 출력

- is 함수: is로 시작하는 함수들은 TRUE와 FALSE로 반환

  • is.numeric(): 수치형 확인
  • is.integer(): 정수형 확인
  • is.double(): 실수형 확인
  • is.character(): 문자형 확인
  • is.logical(): 논리형 확인
  • is.complex(): 복소수형 확인
  • is.null(): NULL 확인
  • is.na(): NA 확인
  • is.finite(): 유한수치 확인
  • is.infiniter(): 무한수치 확인

 

[강제 형변환]

- as로 시작하는 함수들은 형변환을 수행

  • as.numeic(): 수치형 변환
  • as.integer(): 정수형 변환
  • as.double(): 실수형 변환
  • as.character(): 문자형 변환
  • as.logical(): 논리형 변환
  • as.complex(): 복소수형 변환

 

[데이터 구조]

- 벡터(Vector)

  • 하나 혹은 하나이상의 원소를 가질 수 있는 데이터 구조
  • 동일한 자료타입
  • c()함수: 수치형, 문자형, 논리형, 복소수형 벡터를 생성
  • 콜론(:): 데이터 유형을 변환하거나 데이터 분석이 용이한 형태로 변환
  • seq(): 1씩 증가하거나 1씩 감소
  • sequence(): 1과 지정한 숫자 사이의 정수로 수치형 벡터를 생성
  • rep(): replication의 약자로 지정된 데이터를 복사
  • cbind(): 열을 기준으로 벡터를 결합(column)
  • rbind(): 행을 기준으로 벡터를 결합(row)

 

- 행렬(Matrix)

  • 여러 개의 벡터로 구성된 2차원 구조
  • 행과 열로 구성
  • x: 벡터 지정
  • nrow: 행의 개수를 지정
  • ncol: 열의 개수를 지정
  • byrow: 기본 값은 FALSE로 열을 기준으로 행렬을 만들고 TRUE로 지정하면 행을 기준으로 행렬을 만든다.

 

- 배열(Array)

  • 다차원 형태의 데이터 구조를 가지고 있는 형태

 

- 데이터 프레임(Data frame)

  • 행과 열로 이루어져 있지만, 여러 데이터 타입을 가질 수 있다.
  • nrow(), ncol(), dim() → 행, 컬럼, 행과 컬럼 수를 확인

 

- 리스트(List)

  • 키와 값의 형태로 서로 다른 데이터를 저장할 수 있는 연관 배열
  • 데이터를 분석할 때 리스트 형태를 많이 사용

 

[함수]

- 어떤 독립적인 기능을 만들 때 사용

 

[파일 읽기]

- 텍스트 파일 읽기

  • read.table()함수를 사용

 

- 콤마로 구분된 파일 읽기

  • read.table()에서 sep값에 ","을 입력

 

- CSV 파일 읽기

  • read.csv()함수를 사용

 

- 엑셀 파일 읽기

  • read_excel()함수를 사용
  • Path: 외부 파일 경로 지정
  • Sheet: 시트명 지정, 시트의 순서 수치형으로 지정
  • col_names: TRUE가 선정되면 엑셀의 칼럼명을 사용

 

[일변량 자료]

- 연속형 데이터: 히스토그램, 상자 그림, 바이올린 그래프, 커널밀도 곡선

- 범주형 데이터: 막대 그래프, 원 그래프

  • 변수가 하나인 데이터, 양적자료와 질적자료로 구분
  • (ex.몸무게라는 변수가 하나인 데이터)

 

- 빈도 분석: 질적자료를 개수를 세어서 분석하는 것

- 평균과 분산, 표준편차: 양적자료를 분석할 때 평균, 사분위수, 표준편차, 상자 그림, 히스토그램 사용

  • 절사 평균: 표본 중에서 작은 값 n%와 큰 값 n%를 제외하고 나머지 자료만 사용해서 구하는 평균
  • 평균: mean()
  • 분산: var()
  • 표준편차: sd()
  • 최소값, 최대값, 중앙값, 평균: summary()

 

- 분산과 표준편차: 분산과 표준편차가 작다면 데이터들이 평균 근처에 모여 있다는 의미

 

[다변량 자료]

- 변수가 두 개인 데이터, 양적자료와 질적자료로 구분

- 연속형 데이터

  • 산점도
  • 선 그래프
  • 시계열 그래프

 

- 범주형 데이터

  • 모자이크 그래프

 

- plot(): 두 개의 변수의 관계만을 나타내는 2차원 그래프, 점, 선, 계단 그래프 표현

- pairs(): 여러 변수들의 상관관계를 한번에 보여준다

- cor(): 변수들의 상관계수를 구한다.

 

[일변량 질적자료]

- 빈도와 백분율을 사용

- 빈도: 자료가 가지는 값이 몇 개인지를 계산

- 백분율: 전체를 100으로 해서 얼마나 차지하는 비율을 구하는 것

  • 빈도: table()함수를 사용해서 각 변수의 빈도수를 확인
  • 백분율: prop.table()함수는 0과 1사이의 값을 반환하여 백분율을 알 수 있다.(ex.digits=1 둘째자리에서 반올림) 
  • 빈도와 백분율을 한번에 계산: freq()함수는 결측값(Missing value)이 있는 경우 제거하고 계산
  • 막대 그래프: barplot(), ggplot(), geom_bar()함수를 통해 그래프 가시화
  • 원 그래프: pie()함수를 사용해 그래프 가시화

 

[일변량 양적자료] - 표, 그래프, 기술 통계량

- 히스토그램

  • 각 구간별 현황 및 대칭 여부를 확인
  • 데이터에 이상 값 유무를 확인
  • hist()함수를 사용

 

- 상자 그림

  • 대칭여부 확인, 이상값 확인, 자료의 분포를 확인
  • boxplot()함수를 사용해서 가시화

 

- 기술 통계량

  • 데이터의 범위, 사분위범위, 분산, 표준편차, 중위수 절대편차를 확인
  • 최소값, 최대값을 확인
  • 데이터가 퍼져 있는 정도를 확인
  • summary(), describe(), describeBy() 한번에 여러 개의 기술 통계량을 확인

 

[다변량 자료]

  • str()함수: 변수의 수, 변수 타입 등을 확인
  • summary()함수: 평균과 중심값을 확인
  • sd()함수: 표준편차를 확인, 평균으로부터 데이터가 얼마나 떨어져 있는지 확인
  • boxplot()함수: 그룹별 분포를 확인
  • pairs()함수: 산점도를 통해 여러 변수들간의 관계 확인
  • 선 그래프: 두 개의 변수에서 하나의 변수가 시간변수일 때 많이 사용
  • 시계열 분석을 위해서 자주 사용되는 그래프

 

 

728x90