Data Analysis for Investment & Control
Bayes Rule, 베이즈 정리 본문
이 포스팅은 위키백과의 내용을 참고해서 작성하였음을 알려드립니다.
베이즈 정리Bayes' Rule은 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리이다. 베이즈 정리는 불확실성 하에서 의사결정문제를 수학적으로 다룰 때 사용된다.
확률 이론에 대한 사전 지식은 다음 포스팅을 참조
수학적으로 다음의 수식이 성립한다.
P(A)는 A의 Prior(사전 확률, 사전 지식)으로 B에 대한 어떠한 정보도 알지 못하는 것을 의미한다. Classification 문제에서 A라는 클래스가 얻어질 확률이 P(A)라는 말이다.
P(A|B)는 B가 주어졌을 때 A가 나올 Posterior(사후 확률)이다. 즉, B라는 입력 데이터가 주어졌을 때 이 데이터가 A라는 클래스에 속할 활률을 의미한다.
P(B|A)는 A가 주어졌을 때 B의 조건부 확률이다. A라는 클래스가 나오기 위한 데이터 B의 확률을 의미하며, 가능도(Likelihood)라고 한다. 다양한 이론에서 많이 등장하는 Maximum Likelihood Estimation(MLE, 최대우도법)은 여기에서 말하자면 A라는 클래스가 나올 확률이 가장 높게 나오도록하는 B의 데이터 분포를 추정하는 방법이다.
P(B)는 B의 Prior(사전 확률, 사전 지식)으로 정규화 상수의 역할을 한다. 이 값은 A에 해당할 수 있는 모든 클래스의 조건부 확률의 합과 같다.
우리가 알고 싶어하는 값(예를 들어, 지금 입력되는 데이터가 클래스 A에 해당되는 확률)이 P(A)이고, 입력된 데이터 이미지가 B라면 A에 대한 확률은 B를 확인하고 나서 P(A)에서 P(A|B)로 변화(데이터가 B인 것을 관측했으니 이 조건에서의 A가 나올 확률)하며 베이즈 정리는 이때의 계산 방법을 제공한다.
구체적인 예를 들어보자.
수학적인 계산의 편의성 등을 이유로 자주 사용되는 모델에는 가우시안 분포가 있다. 가우시안 분포는 평균인 μ와 분산 σ만 알면 구할 수 있다. 가우시안 분포의 μ와 σ를 알고 있다고 할 때 입력 데이터가 이 분포에 속하는지는 알수가 있다.
입력 데이터 X의 값에 따라 위의 4가지 가우시안 분포 중 어디에 속하는지는 가우시안 분포 모델의 각 파라미터 μ와 σ에 따라 알 수가 있다. 예를 들면, X = -2라면 녹색 분포에 더 많이 속한다.
이처럼 분포의 파라미터를 통해 입력되는 데이터의 라벨링을 할 수가 있는데, 이는 사전지식인 파라미터 μ와 σ를 알고 있어서이다. 반대로 모든 입력 데이터가 라벨링이 된 상태라면 라벨링 된 데이터를 모아서 이를 대표하는 가우시안 분포를 계산해 낼 수 있다. 이를 가능도 즉, Likelihood 라고 한다.
베이지안 확률론에서는 확률의 개념을 그럴 법한 정도(믿음의 정도?)라고 할 수 있다. 어떤 사건이 발생하지 않은 경우라도 사전 지식을 알고 있으면 이에 따라 발생하지 않은 사건이라도 확률을 계산할 수 있다는 것이다(처음에는 정확하지 않다는 것은 별개로 두고라도). 사전지식에 따라 확률을 추정하고 추정된 데이터를 바탕으로 다시 사후 확률을 계산하는 과정으로 차츰 확률 추정의 정확도를 높일 수 있다.
베이지안 확률을 기반한 알고리즘은 MLE나 GMM 등이 있으며, 다음의 포스팅을 참고하자.
>> Maximum Likelihood Estimation의 이해
>> GMM, Gaussian Mixture Model
여기서 잠깐!
헷깔릴 수 있는 사전확률, 사후확률의 정의를 정리하자.
사전확률(Prior Probability)은 현재 가지고 있는 정보에 근거한 초기 확률.
ex) 동전 던지기의 1/2이나 가우시안 분포의 μ와 σ 등의 지식
사후확률(Posteriori Probability)은 사건 발생 후에 생각되어지는 확률. 추가된 데이터로부터 새롭게 수정한 확률
ex) 동전을 10번 던졌는데 앞면이 7번 나와서 사전확률(1/2)와 다름. 사후 확률을 통해 사전확률(사전정보)는 수정이 필요.
사후 확률은 Likelihood(조건부 확률, 가능도)와 사전 확률 그리고 Evidence(증거 혹은 데이터)로 구할 수 있다.
앞서 나온 식을 보면
P(A)는 미리 가지고 있던 정보이고 P(B|A)는 A일 때의 B가 나올 확률이며, P(B)는 실제 B가 나올 확률이다. 이를 통해 P(A|B)를 계산하는데, 이는 일어난 사건(혹은 라벨링된 데이터)가 존재할 때 기존의 정보 A를 다시 계산(업데이트)한다는 의미이다.
'MachineLearning > Probability' 카테고리의 다른 글
Probability Theory, 확률 이론 (0) | 2018.11.25 |
---|