[Bayesian] 베이즈 추정이란

베이즈 추정이란 무엇인가?

앞서 기초 통계학에서 살펴본 통계는 네이만-피어슨 통계라고 하는 표준 통계학을 의미한다. 뒷부분에서 설명하겠지만 베이즈 통계와 네이만-피어슨의 표준통계에는 차이점이 존재한다.

베이즈 통계의 장점을 생각해보면 베이즈 통계의 본질이 어떠한 것인지 알 수 있다. 베이즈 통계의 가장 강력한 강점은 데이터가 적어도 추측할 수 있다는 것이고, 데이터가 많을 수록 더욱 정확해진다는 성질이다. 사실 기존에 통계학에서는 많을 수록 정확해지는 것은 사실이나 통계적 결론을 내리기 위해서는 어느 정도의 데이터가 필요한 것이 사실이다.

베이즈 통계가 적은 데이터로도 추정이 가능하다는 것은 주관성을 허용한다는 관점이 있기 때문이다. 내가 어떠한 추정을 위해서 사전확률을 모르는 상황인 경우 ‘이유 불충분의 원리’에 의해서 확률을 1/2로 설정할 수 있다는 것이 한 예이다.

한 가지 더 특징을 꼽자면, 학습의 기능인데, 사건이 발생했을 때(정보를 얻었을 때) 정보를 이용해서 실시간으로 자동적 추측을 업데이트 할 수 있다는 점이다

사전확률,사후확률

사전확률이란 어떠한 정보도 없을 때(어떠한 사건도 발생하지 않았을 때), 일어날 수 있는 확률이다.사후확률이란 ‘내가’ 설정한 사전확률을 기반하여, 어떠한 사건이 추가적으로 발생했을 때 원인(타입)일 확률이다. ‘사전’과 ‘사후’는 사건을 기준으로 구분이 되는 것이다.

사전 확률은 경험이 없어도 할당할 수 있다.(주관성) 하지만 타입의 차이에 의거한 행동(사건)의 확률(조건부 확률)은 어떠한 경험, 실증, 실험에 기반한 수치가 필요하다. 여기서 타입은 사상을 의미한다. 예를들면 가게에 방문하는 사람이 쇼핑족이냐 아이쇼핑족이냐를 구분한다고 했을 때, 타입은 쇼핑족과 아이쇼핑족이 된다.

사전확률에서 정보를 얻음으로써 달라진 사후확률을 베이즈 역확률이라고 하며, 달라진 현상을 베이즈 갱신이라고 한다.

Reference

  • 고지마 히로유키, 『세상에서 가장 쉬운 베이즈통계학 입문』, 지상사 (2017)