[Basic Statistics] 가설검정
통계적 추정을 위한 아이디어Permalink
정규분포Permalink
정규분포라는 것은 평균을 주위로 데이터의 빈도가 가장 많으면 평균에서 멀어질 수록 빈도가 떨어지는 그래프이다. 남녀의 키나 몸무게나 주식의 수익률도 정규분포로 알려져있다. 이러한 정규분포는 상대도수로 이루어져있는데, 상대도수는 결국 전체 데이터 빈도수에서 차지하는 비율이다.
표준정규분포Permalink
표준정규분포는 정규분포이면서 평균이 0이고 표준편차가 1인 분포이며, 표준편차의 1배 범위 내에 0.6826 만큼의 상대도수가 있으며, 표준편차 2배의 범위 내에 0.9544 만큼의 상대도수가 분포한다는 성질을 갖고 있다.
이런 정규분포와 표준정규분포는 어떻게 활용이 될 수 있을까?
동전던지기를 생각해보자. 동전 N개를 던져서 구 중 몇 개가 앞면이 나오는지를 데이터로 기록을 한다고 해보자. 이 작업을 반복하여 앞면이 X 수가 나올 상대도수의 히스토그램을 만들면 근사적으로 평균=${N \over 2}$, 표준편차=${\sqrt N \over 2}$ 를 따른다.
근사한다는 것은 정규분포를 따르는 어떤 불확실성에 대해서 통계적 추정이 가능해진다는 것이다.
그렇다면 추정을 할 때, 어떻게 추정을 하면 맞힐 가능성이 높아질까? 표준정규분포를 예로 들면 어떠한 값 하나로 추정하기 위해서는 0근처에 값으로 예측하면 가장 맞힐 확률이 높을 것이고, 범위로 추정하는 경우 표준편차 1배 구간에 있다고 추정하게 되면 약 70% 확률로 맞힐 수 있는 것이다. 이것이 바로 점추정과 구간추정의 기본 개념이다.
가설검정Permalink
통계적 추정이란 결국 부분으로 전체를 추리하는 것이다. 내가 관측한 데이터로부터 보이지 않는 모집단(전체)를 추론하고자 하는 것이다.
통계학적 추정의 대표라고 할 수 있는 검정이라는 개념을 살펴보자.
예를들어보면, 앞에서와 같이 동전의 앞면이 10번이 나왔다는 사실을 알고 몇 개의 동전을 던진 것인지 예측하고자 할 때 얼마로 예측해야할까? 동전의 앞면이 나올 확률이 1/2 이니까 20개라고 예측하는 것도 타당한 추정이 될 것 같다. 하지만 19개나 21개는 틀린 추정일까?
여기서 통계적 추정의 타당성, 즉 가설의 타당성을 판단해야 한다. 이때 활용하는 것인 95% 예언적중 구간이다. 95% 예언적중구간 영역에 포함되어 있으면 버릴 수 없는 가설이 되는 것이다.
통계적 추정의 한계Permalink
추정은 부분을 이용해서 전체를 추론하는 방법이다. 이러한 귀납법은 일상생활에서는 자연스럽지만 반드시 옳다고는 할 수 없는 틀린 경우가 많은 추론방법이다. 그래서 검정을에 대한 해석을 소극적으로 할 수 밖에 없다는 점이다. 5%의 영역에 속할 때는 강하게 채택할 수 없다고 얘기할 수 있지만, 채택할 때는 단순히 기각할 수 없기에 채택하는 것이지, 채택에 대한 적극적인 요인은 없다는 것이다.
ReferencePermalink
- 고지마 히로유키, 『세상에서 가장 쉬운 통계학입문』, 지상사(2009)