kang9366
Repository
kang9366
글쓰기
설정
전체 방문자
오늘
어제
  • 분류 전체보기 (143)
    • Programming (70)
      • Java (1)
      • C++ (11)
      • Kotlin (12)
      • Keras (2)
      • Android (34)
      • Jetpack Compose (1)
      • Error Solution (7)
    • CS (36)
      • 자료구조 (13)
      • 운영체제 (1)
      • 알고리즘 (4)
      • 컴퓨터 보안 (8)
      • 기타 (10)
    • Data Science (28)
      • 데이터분석 (7)
      • 머신러닝 (14)
      • 딥러닝 (7)

인기 글

최근 글

최근 댓글

Github · Instagram · Facebook
kang9366

Repository

[기초통계학] 표본평균의 분포와 중심극한정리
Data Science/데이터분석

[기초통계학] 표본평균의 분포와 중심극한정리

2022. 6. 16. 07:46

표본평균의 분포

모평균에 대한 추론은 표본의 평균 X̄와 그 분포를 이용한다.

평균이 μ이고 분산이 σ^2인 모집단으로부터 크기가 n인 표본 X1, X2, ..., Xn을 추출했을 때, 표본평균 X̄의 기댓값과 분산은 다음과 같다.

표본평균 분포의 중심은 모집단의 중심 μ와 일치한다. 그러나 표집분포의 퍼짐 정도를 측정하는 표준편차는 표본의 크기에도 영향을 받는다. 즉, 표본의 크기 n이 증가함에 따라 표본평균의 표준편차는 n의 제곱근에 반비례해서 감소하는데 이는 표본평균의 분포가 μ를 중심으로 더욱 집중됨을 나타낸다.

 

예를 들어, 표본의 크기를 100배 늘리면, 표본평균의 표준편차는 1/10으로 감소하여 표집분포가 μ를 중심으로 더욱 집중된다.

 

 

 

중심극한정리

모집단의 분포가 정규분포가 아닌 경우 X̄의 정확한 분포는 모집단의 분포에 따라 다르게 나타난다. 그러나, 표본의 크기 n이 큰 경우에는 X̄의 분포는 모집단의 분포와 무관하게 근사적으로 정규분포를 따르게 된다. 이를 중심극한정리라 한다.

모집단의 평균이 μ이고 분산이 σ^2일 때, 임의 추출된 표본의 표본평균 X̄는 표본의 크기 n이 큰 경우(보통 30 이상) 근사적으로 정규분포를 따르게 되며, 그 평균은 μ이고 표준편차는 σ/√n가 된다. 이를 표준화하면 다음과 같다.

 

 

R에서 중심극한정리 확인하기

fun <- function(n){
  ex <- c()
  for(i in 1:n){
    ex <- c(ex,mean(runif(30,-1,1)))
  }
  
  par(mfrow = c(1,2))
  hist(ex, prob = T, col = "light grey",border = "grey", main = NULL)
  lines(density(ex))
  
  qqnorm(ex, main = "")
  qqline(ex, col="red")
}​

 

uniform분포에서 n이 10일때, 30일때, 100일때로 나누어 정말 n이 커지면 정규분포에 근사하는지 확인해보면 다음과 같다.

 

1. n=10

> fun(10)

 

2. n=30

 

> fun(30)

 

 

 

3. n=100

> fun(100)

 

n이 커질 수록 점점 0 (-1 ~ 1 uniform 분포의 평균) 으로 모이며, 종모양이 되는 것을 볼 수 있다.

저작자표시 비영리 변경금지 (새창열림)

'Data Science > 데이터분석' 카테고리의 다른 글

Bias-Variance Trade-off  (0) 2022.10.20
[기초통계학] 통계적 추정  (0) 2022.06.16
[기초통계학] 확률분포  (0) 2022.06.16
[기초통계학] 대표값  (0) 2022.06.16
[기초통계학] 자료의 분류  (0) 2022.06.10
    'Data Science/데이터분석' 카테고리의 다른 글
    • Bias-Variance Trade-off
    • [기초통계학] 통계적 추정
    • [기초통계학] 확률분포
    • [기초통계학] 대표값
    kang9366
    kang9366

    티스토리툴바