[Basic Statistics] 모평균과 모분산 추정
카이제곱분포
카이제곱 분포는 갑자기 왜 등장한 것일까? 바로 알고싶은 모분산에 대해서 추정하고 싶기 때문이다.
여기서 V라는 통계량과 W라는 통계량이 등장하는데 V라는 통계량이 카이제곱 분포를 따른다.
V라는 통계량과 W는 동일한 수식을 갖고 있지만 유일하게 다른 부분은 편차에서 모평균을 빼느냐 표본평균을 빼서 구하느냐의 차이이다. (자세한 설명은 하지 않지만) 그렇기 때문에 W도 V와 동일하게 카이제곱 분포를 한다. 그리고 W라는 통계량은 표본분산의 비례하는 통계량이다. <표본분산과 W의="" 관계식="" 넣기="">표본분산과>
결국 우리는 모분산을 추정하기 위해서 W라는 통계량으로 추정한다. 왜 추정할 수 있느냐, W는 카이제곱 분포한다는 것을 알고 있기 때문에 95% 신뢰구간을 설정할 수 있기에 가능하다.
t분포
모평균은 t분포를 이용한다. 최초에 고안해낼 때, 맥주회사에서 일을 하던 저자가 보리나 홉과 같은 맥주 원료와 제조조건과의 관계를 분석하기 위해서는 표본의 수를 크게 할 수 없기 때문에 소표본을 갖고 추정하는 기술이 필요하다는 것을 느끼고 만들어진 방법이다. (t분포라는 방법론)
지금까지 기초 통계학을 정리하였다. 핵심은 모집단이 정규분포를 따를 때이고, 모평균과 모분산을 모를 때, 카이제곱분포와 t분포를 이용해서 추정할 수 있다는 것을 배웠다. 결국은 우리가 어떠한 모집단을 추정을 할 때, 추정이 가능한 특정 분포를 알아야만 추정이 가능하다는 것을 알 수 있다.
그리고 책에서는 모집단이 정규분포한다는 것을 가정을 해야만 가능한 추정 방법을 얘기했다.하지만 책 에서는 다루지 않는 모집단의 분포에 대한 사전 지식이 없는 비모수적(Nonparametric) 방법은 어떻게 되는 것일까? 비모수적인 방법론이 더 현실적인 추정인 것 아닐까? 기회가 된다면 다음에 공부해보도록 하겠다.
Reference
- 고지마 히로유키, 『세상에서 가장 쉬운 통계학입문』, 지상사(2009)