728x90
1절. 표본분포
[표본분포]
- 표본분포 :표본으로부터 생성된 표본의 평균, 분산 등의 분포
- 표본 정보 이용하여 모집단 정보를 예상할 목적으로 사용
[표본 추출]
(1) 유한 모집단에서 표본추출
- 무작위 표본 추출 함수
sample(tbl, n, replace=T/F)
데이터리스트/추출표본개수/복원추출 여부
(2) 무한 모집단에서 표본추출
- 단순 무작위 추출 불가능
[표본평균의 분포]
m = 41 ex) 20명의 접속자 평균이 45초 이하일 확률은? p1 <- pnorm(45, mean = m, sd=sxbar, lower.tail = T) |
* 중심극한정리 : 표본평균의 분포는 모집단이 정규분포이든 아니든, 표본의 수가 커질수록 평균인 정규분포에 가까워진다.
[표본비율의 분포]
p = 0.6
sd = sqrt(0.60.4 / 1002) //1002명의 표본 추출했으므로
ggplot(data.frame(xis = c(p-4sd, p+4*sd)), aes(x=xis))
+ stat_function(fun = dnorm, args=list(mean=p, sd=sd), colour=“red”, size=1)
+ ggtitle(“Graph”)
2절. 구간추정
- 구간추정 :점추정치 +- 오차범위
모평균의 범위 : (Xn – Z0.01, Xn + Z0.01)
- [모평균에 대한 구간추정] : 모표준편차 알려져 있는 경우
- [모평균에 대한 구간추정] : 모표준편차 알려져 X 있지 않은 경우
- [표본크기 결정]
ex) 99% 신뢰구간을 3% 이내로 관리하기 위해서는 몇 명의 표본을 추출하여야 할까?
n <- ( (2.58^2) * 0.5 * 0.5) / (0.03^2)
ex) 95% 신뢰구간을 2% 이내로 ..
n <- ( (1.96^2) * 0.5 * 0.5 )/ (0.02^2)
- [모비율 p의 구간추정]
ex ) 1000명 조사. 후보자 A 지지율 p = 0.45. 지지율 신뢰도 99% 구간 구해라
p = 0.45
sd = root(0.45*0.55 / 1000)
신뢰구간 : (p – Zsd, p + Zsd)
3절. 가설검정 | 5단계 가설검정
- p값을 이용한 가설검정
1) 가설설정
귀무가설 u =
대립가설 u =>
2) 유의수준 a = 주어짐
3) 검정 통계량
t <- (현재 – 기존) / sd * sqrt(표본)
4) p값 계산
pt( t, 표본-1, lower.tail = F)
5) p값 >= a (0.05) : 귀무가설 채택
p값 < a (0.05) : 귀무가설 기각
실습과제
1. 표본분포의 확률밀도함수는?
f(x) = 1 / 0.1*sqrt(2π) * e ^ (1/2 * ( (x-130)^2 / 0.1^2) ) )
2. 확률밀도 함수 그래프를 그려라.
ggplot(data.frame(x=c(129, 131)), aes(x=x)) + stat_function(fun=dnorm, args=list(mean=130, sd=0.1))
1) 가설설정
귀무가설 H0 : μ = 120 대립가설 H1 : μ =/ 120 |
2) 유의수준 α = 0.05
3) 검정통계량
4) p값 계산
5) p값 = 40840172e^-200 < 0.05 이다. 따라서 유의수준 5%하에서 인터넷 서비스 이용자는 평균 2분이라고 할 수 없다. (귀무가설 기각)
728x90
'[전공] 학교 전공 공부 > [학교]_빅데이터 소프트웨어' 카테고리의 다른 글
시계열 분석 (0) | 2022.06.16 |
---|---|
ahricolase , car , leaps, forecast 패키지 다운로드 (0) | 2022.06.16 |
확률 (0) | 2022.04.24 |
데이터 시각화 (0) | 2022.04.16 |
ggplot 패키지 그래프 그리기 (0) | 2022.04.16 |