Ch02. 데이터분석 기초
1절. RStudio 사용법
- R은 명령어, 데이터 등을 파일로 관리하기 어려움
- RStudio : R의 그래픽 편집 도구
2절. 기초적 통계분석
기술통계 : 데이터셋 표현 방법
- 데이터 : 수집/분석된 자료들
- 원소: 자료 수집 대상
- 변수: 원소의 특성
측정단위 : 변수 값 측정 단위
1) 명목척도 : 변수의 값 기호, 숫자로 나타냄
2) 순서척도 : 자료 순서가 의미 있는 척도
3) 구간척도 : 값들의 차이를 고정된 측정 단위로 표현
4) 비율척도 : 두 값의 비율이 의미 있는 척도
[기술통계학] : 많은 양의 데이터를 시각적으로 특징 표현하는 통계학
[추론통계학] : 표본으로 모집단 특성 추론 통계학
▶️‘범주형’ 자료요약
대상을 그룹화하여 시각적으로 자료 표현
1) 도수분포표
범주형 자료에서 범주와 그 범주에 대응하는 도수를 나열하여 ‘표’로 표현
도수 : 각 범주에 속하는 관측값 개수
2) 바차트(=막대그래프)
도수분포를 토대로 각 범주의 도수 크기를 ‘막대’로 표현
R 함수 : barplot()4) 파이차트 : 데이터 비율을 원으로 표현하는 방법 | R 함수 : pie()
5) 최빈값 : 도수의 빈도가 가장 많은 값
3) 상대 도수분포표 :각 범주가 전체에서 차지하는 비율의 분포표
▶️‘정량적’ 자료요약
대상의 수치 기준 자료 표현
1) 히스토그램
연속된 데이터를 구간으로 나누어 도수 계산 후 막대그래프로 표현
cf. 바차트: 불연속 자료를 표현
R 함수 : hist()
2) 줄기-잎 그림
연속된 데이터를 왼쪽 줄기(공통특성), 오른쪽 잎(데이터들) 표현
분포 + 실제 데이터도 확인 간으
R 함수 : stem( 데이터, scale = 숫자)
두 변수 요약하기
1) 교차표 : 두 변수 범주화하여 2차원 표(table)에 도수 표현. 요약하는 방법
- R 함수 : table(a, b)
2) 두 변수 도수분포표
- X축에 a 변수의 범주, Y축에 b 변수의 범주들로 도수분포표 작성
- R코드
table <- table( a, b) : 교차표 작성 후
barpbt(table) : 교차표를 다시 두 변수 도수분포표로 작성
3) 산포도
- 두 변수 모두 순서/비율 척도인 경우 사용하는 그래프적 방법
- 추세선 추가
4) 3차원 산포도 : 세 변수 모두 순서/비율 척도인 경우 사용
3절. 정량적 자료요약
데이터 중심위치 추정
1) 표본평균 | mean()
- 표본들의 평균
2) 중앙값 | median()
- 위치 상 중앙값
3) 가중평균 | weighted.mean()
- 중요도에 따라 가중치 부여하여 구한 평균
4) 기하평균
- n개의 데이터 곱에 1/n 승하여 구하는 평균
5) 사분위수 평균 | quantile()
- 1사분위수 /2사분위수/3사분위수 : 25% /50%/75%
변동성 추정
- 널리 퍼져있는 정도R코드 : range()R코드 : IQR()R코드 : var()R코드 : sd()
- 5) 변이계수 : 단위를 없애서 표준편차가 평균에 비해 얼마나 큰지 계산
- 4) 표준편차
- 3) 분산 : 모든 데이터 이용하여 구함
- 2) 사분위수 범위 : 3사분위수-1사분위수로 데이터 중앙 50% 범위 척도
- 1) 범위: 최대값-최소값(양극단값) 단순 척도
모집단 분포모양과 이상값 측정
1) 분포모양 : 왜도함수
2) 데이터 상대적 위치 : 표준화값
3) 체비세트 정리
- 평균과 특정 표준편차 사이에 속할 확률 정리
4) 경험법칙
- 종 모양 분포일 때, 평균과 특정 표준편차 사이에 속할 확률 정리
5) 이상값 검출 : z-값 이용/박스플롯 이용
6) 분포의 개략적 추정 : 5개 숫자 사용 / 박스플롯 사용
'[전공] 학교 전공 공부 > [학교]_빅데이터 소프트웨어' 카테고리의 다른 글
ggplot 패키지 그래프 그리기 (0) | 2022.04.16 |
---|---|
ggplot2 패키지 설치 (0) | 2022.04.15 |
R 소개 (0) | 2022.04.15 |
빅데이터_R언어 기본 (0) | 2022.04.13 |
[빅데이터]_R Studio IDE 설치 (0) | 2022.04.08 |