데이터분석 기초

728x90

Ch02. 데이터분석 기초

1절. RStudio 사용법

  • R은 명령어, 데이터 등을 파일로 관리하기 어려움
  • RStudio : R의 그래픽 편집 도구

2절. 기초적 통계분석

기술통계 : 데이터셋 표현 방법

  • 데이터 : 수집/분석된 자료들
  • 원소: 자료 수집 대상
  • 변수: 원소의 특성

측정단위 : 변수 값 측정 단위

1) 명목척도 : 변수의 값 기호, 숫자로 나타냄

2) 순서척도 : 자료 순서가 의미 있는 척도

3) 구간척도 : 값들의 차이를 고정된 측정 단위로 표현

4) 비율척도 : 두 값의 비율이 의미 있는 척도

[기술통계학] : 많은 양의 데이터를 시각적으로 특징 표현하는 통계학

[추론통계학] : 표본으로 모집단 특성 추론 통계학

▶️‘범주형’ 자료요약

대상을 그룹화하여 시각적으로 자료 표현

1) 도수분포표

범주형 자료에서 범주와 그 범주에 대응하는 도수를 나열하여 ‘표’로 표현

도수 : 각 범주에 속하는 관측값 개수

2) 바차트(=막대그래프)

도수분포를 토대로 각 범주의 도수 크기를 ‘막대’로 표현

R 함수 : barplot()4) 파이차트 : 데이터 비율을 원으로 표현하는 방법 | R 함수 : pie()

5) 최빈값 : 도수의 빈도가 가장 많은 값

3) 상대 도수분포표 :각 범주가 전체에서 차지하는 비율의 분포표

▶️‘정량적’ 자료요약

대상의 수치 기준 자료 표현

1) 히스토그램

연속된 데이터를 구간으로 나누어 도수 계산 후 막대그래프로 표현

cf. 바차트: 불연속 자료를 표현

R 함수 : hist()

2) 줄기-잎 그림

연속된 데이터를 왼쪽 줄기(공통특성), 오른쪽 잎(데이터들) 표현

분포 + 실제 데이터도 확인 간으

R 함수 : stem( 데이터, scale = 숫자)

 

두 변수 요약하기

1) 교차표 : 두 변수 범주화하여 2차원 표(table)에 도수 표현. 요약하는 방법

  • R 함수 : table(a, b)

2) 두 변수 도수분포표

  • X축에 a 변수의 범주, Y축에 b 변수의 범주들로 도수분포표 작성
  • R코드

table <- table( a, b) : 교차표 작성 후

barpbt(table) : 교차표를 다시 두 변수 도수분포표로 작성

3) 산포도

  • 두 변수 모두 순서/비율 척도인 경우 사용하는 그래프적 방법
  • 추세선 추가

4) 3차원 산포도 : 세 변수 모두 순서/비율 척도인 경우 사용


3절. 정량적 자료요약

데이터 중심위치 추정

1) 표본평균 | mean()

  • 표본들의 평균

2) 중앙값 | median()

  • 위치 상 중앙값

3) 가중평균 | weighted.mean()

  • 중요도에 따라 가중치 부여하여 구한 평균

4) 기하평균

  • n개의 데이터 곱에 1/n 승하여 구하는 평균

5) 사분위수 평균 | quantile()

  • 1사분위수 /2사분위수/3사분위수 : 25% /50%/75%

변동성 추정

  • 널리 퍼져있는 정도R코드 : range()R코드 : IQR()R코드 : var()R코드 : sd()
  • 5) 변이계수 : 단위를 없애서 표준편차가 평균에 비해 얼마나 큰지 계산
  • 4) 표준편차
  • 3) 분산 : 모든 데이터 이용하여 구함
  • 2) 사분위수 범위 : 3사분위수-1사분위수로 데이터 중앙 50% 범위 척도
  • 1) 범위: 최대값-최소값(양극단값) 단순 척도

모집단 분포모양과 이상값 측정

1) 분포모양 : 왜도함수

2) 데이터 상대적 위치 : 표준화값

3) 체비세트 정리

  • 평균과 특정 표준편차 사이에 속할 확률 정리

4) 경험법칙

  • 종 모양 분포일 때, 평균과 특정 표준편차 사이에 속할 확률 정리

5) 이상값 검출 : z-값 이용/박스플롯 이용

6) 분포의 개략적 추정 : 5개 숫자 사용 / 박스플롯 사용

728x90