[Basic Statistics] 통계란 무엇인가?
서문
딥러닝 모델 개발을 하게 되면서 실험을 하거나 통계적인 지식이 요구되는 경우가 꽤 자주 발생했다. 그때그때 필요한 통계공부를 해왔지만, 조금더 명확하게 개념을 정리할 필요가 있음을 느꼈고, 머신러닝과 데이터 분석을 위해서라도 통계에 대한 기초 개념은 꽉 잡고 가야겠다는 생각이 들었다.
통계란 무엇인가?
통계학은 2 가지로 나누어 생각해볼 수가 있는데 기술통계(Descriptive Statistics)과 추리통계(Inferential Statistics)이다. 먼저 기술통계는 현실세계에서 관측된 데이터를 설명하려는 통계적 방법이다. 일어난 현상을 설명하려는 것이다. 예를들어, 이번 학기에 치뤄진 시험에 대한 1학년 성적이 어떤지 궁금한 것이다.
시험성적을 표현(기술)하는 방법은 여러가지가 있을 수 있다. 먼저 가장 간단하게 해볼 수 있는 방법은 1학년 학생 전체에 대한 (통계학 한 과목에 대해서) 점수를 나열하는 방식을 생각할 수 있다.
여기서 학생 개개인의 성적이 모두 다를 것이다. 이렇게 값들이 모두 다른 것을 “분포한다“라고 한다. 이러한 분포를 갖게되는 이유는 그 이면에 어떠한 불확실성이 작용하고 있기 때문이다. 불확실성이 있긴 하지만 분포마다 각 분포의 특성을 가지고 있다.
이러한 분포의 특성을 살펴보기 위해서 그래프를 그리거나, 숫자로 축약하여 표현을 한다. 숫자로 축약하여 표현된 수치를 통계량이라고 한다.
평균, 분산, 표준편차가 대표적인 통계량이다.
평균은 무엇일까? 관측된 데이터의 값을 모두 더하고 데이터 개수로 나눈 값이다. 분포의 균형점이라고 볼 수 있다. 하지만 이런 평균값만으로는 분포를 모두 설명할 수 없다. 왜냐하면 각 데이터는 모두 평균과 동일한 것이 아니라 평균으로부터 떨어진 정도가 있기 때문이다. 이것을 편차라고 한다. 그래서 이 편차를 설명하기 위한 방법으로 편차의 평균인 분산을 제시한다.
이 분산을 통해서 얼마나 데이터가 평균으로부터 퍼져있는지 알 수 있다. 분산은 많은 통계적 기법에서 활용되는 중요한 통계량이다.
그러면 여기서 분산과 표준편차의 차이점은 무엇일까? 분산은 2가지 문제점을 가지고 있는데. 분산은 편차의 제곱으로 구해지기 때문에 더욱 과정된 숫자로 표현이 되며, 제곱으로 인해서 단위 또한 바뀌는 문제가 발생한다. 이것을 해결해주는 것이 바로 표준편차이다.
다시 정리하면, 분산은 데이터의 분포가 평균으로부터 평균적으로 얼마나 떨어져 있는지에 대한 통계량이며, 표준편차는 분산과 개념은 동일하지만, 분산이 갖고 있는 단위와 수치에 대한 과장 문제를 해결해주는 통계량인 것이다.
Reference
- 고지마 히로유키, 『세상에서 가장 쉬운 통계학입문』, 지상사(2009)