추정 및 검정

728x90

1절. 표본분포

[표본분포]

  • 표본분포 :표본으로부터 생성된 표본의 평균, 분산 등의 분포
  • 표본 정보 이용하여 모집단 정보를 예상할 목적으로 사용

[표본 추출]

(1) 유한 모집단에서 표본추출

  • 무작위 표본 추출 함수

sample(tbl, n, replace=T/F)

데이터리스트/추출표본개수/복원추출 여부

(2) 무한 모집단에서 표본추출

  • 단순 무작위 추출 불가능

[표본평균의 분포]

m = 41
ex) 20명의 접속자 평균이 45초 이하일 확률은?
p1 <- pnorm(45, mean = m, sd=sxbar, lower.tail = T)

* 중심극한정리 : 표본평균의 분포는 모집단이 정규분포이든 아니든, 표본의 수가 커질수록 평균인 정규분포에 가까워진다.

[표본비율의 분포]

p = 0.6
sd = sqrt(0.60.4 / 1002) //1002명의 표본 추출했으므로
ggplot(data.frame(xis = c(p-4sd, p+4*sd)), aes(x=xis)) 
+ stat_function(fun = dnorm, args=list(mean=p, sd=sd), colour=“red”, size=1) 
+ ggtitle(“Graph”)

2절. 구간추정

  • 구간추정 :점추정치 +- 오차범위

모평균의 범위 : (Xn – Z0.01, Xn + Z0.01)

  1. [모평균에 대한 구간추정] : 모표준편차 알려져 있는 경우
  2. [모평균에 대한 구간추정] : 모표준편차 알려져 X 있지 않은 경우
  3. [표본크기 결정]

ex) 99% 신뢰구간을 3% 이내로 관리하기 위해서는 몇 명의 표본을 추출하여야 할까?

n <- ( (2.58^2) * 0.5 * 0.5) / (0.03^2)

ex) 95% 신뢰구간을 2% 이내로 ..

 n <- ( (1.96^2) * 0.5 * 0.5 )/ (0.02^2)
  1. [모비율 p의 구간추정]

ex ) 1000명 조사. 후보자 A 지지율 p = 0.45. 지지율 신뢰도 99% 구간 구해라

p = 0.45

sd = root(0.45*0.55 / 1000)

신뢰구간 : (p – Zsd, p + Zsd)

3절. 가설검정 | 5단계 가설검정

  • p값을 이용한 가설검정

1) 가설설정

        귀무가설 u =

        대립가설 u =>

2) 유의수준 a = 주어짐

3) 검정 통계량

    t <- (현재 – 기존) / sd * sqrt(표본)

4) p값 계산

    pt( t, 표본-1, lower.tail = F)

5) p값 >= a (0.05) : 귀무가설 채택

    p값 < a (0.05) : 귀무가설 기각


실습과제

1. 표본분포의 확률밀도함수는?

f(x) = 1 / 0.1*sqrt(2π) * e ^ (1/2 * ( (x-130)^2 / 0.1^2) ) )

 

2. 확률밀도 함수 그래프를 그려라.

ggplot(data.frame(x=c(129, 131)), aes(x=x)) + stat_function(fun=dnorm, args=list(mean=130, sd=0.1))

1) 가설설정

귀무가설 H0 : μ = 120
대립가설 H1 : μ =/ 120

2) 유의수준 α = 0.05

3) 검정통계량

4) p값 계산

5) p= 40840172e^-200 < 0.05 이다. 따라서 유의수준 5%하에서 인터넷 서비스 이용자는 평균 2분이라고 할 수 없다. (귀무가설 기각)

728x90