Post

Prior Determination

Based on the lecture “Bayesian Modeling (2024-1)” by Prof. Yeo Jin Chung, Dept. of AI, Big Data & Management, College of Business Administration, Kookmin Univ.

Prior Determination


02

  • 사전확률분포의 결정은 모델링의 일부임

    모형이 적합한 이후에는 사후확률분포를 살펴보아야 하고, 이치에 맞는지 확인해야 한다. 만일 사후확률분포가 이치에 맞지 않는다면 모형에 포함되지 않은 사전 정보가 추가로 필요하다는 것을 의미한다. 그리고 이전에 사용한 사전확률분포의 가정에 위배된다는 것을 의미한다. 그래서 이전으로 돌아가 사전확률분포가 외부 정보와 조화되도록 변경하는 것이 적절하다. (Andrew Gelman)

  • 관측치 갯수($N$)가 많아질수록 사전확률분포의 영향력이 약화됨

    01

Objective/Non-Informative Dist.


  • Principle of Indifference : 가능한 모수 공간에서 특별히 어떤 값을 선호하지 않는 원칙에 따라, 관측치가 사후분포에 미치는 영향력을 최대화하는 방법

    \[\begin{aligned} X \mid \theta &\sim \text{Binomial}(n,\theta)\\ \theta &\sim \text{Uniform}(0,1) \end{aligned}\]

Transformation Variant of Flat Prior Dist.

  • 모수 $\theta$ 가 균등 분포 $\text{Uniform}(0,1)$ 를 따르는 객관적인 사전확률이라고 하자

    \[\theta \sim \text{Uniform}(0,1)\]
  • 모수 $\theta$ 를 $\log{\displaystyle\frac{\theta}{1-\theta}}$ 로 변수 변환한 $\psi$ 는 로지스틱 분포 $\text{Logistic}(0,1)$ 을 따르게 됨

    \[\begin{aligned} \psi &= g(\theta)\\ &= \log{\frac{\theta}{1-\theta}}\\ \\ \theta &= g^{-1}(\psi)\\ &= \frac{\text{exp}(\psi)}{1+\text{exp}(\psi)}\\ \\ f_{\psi}(\psi) &= f_{\theta}(g^{-1}(\psi)) \times \left\vert \frac{\text{d}}{\text{d} \psi}g^{-1}(\psi)\right\vert \\ &= 1 \times \left\vert \frac{\text{d}}{\text{d} \psi}g^{-1}(\psi) \right\vert \quad (\because \theta \sim \text{Uniform}(0,1))\\ &= \frac{\text{exp}(\psi)}{(1+\text{exp}(\psi))^{2}}\\ \\ \therefore \psi &\sim \text{Logistic}(0,1) \end{aligned}\]
  • 즉, 모수 $\theta$ 의 변수 변환에 의하여 사전분포의 객관성이 상실되었음

    • 변환 전 : $\theta \sim \text{Uniform}(0,1)$

      03

    • 변환 후 : $\psi \sim \text{Logistic}(0,1)$

      04

Jacobian Change of Variables

  • 자코비안 변수 변환(Jacobian Change of Variables) : 기본 변수 $\overrightarrow{\theta}$, 변환 변수 $\overrightarrow{\psi}=g(\overrightarrow{\theta})$ 및 그 밀도 함수 $f$ 에 대하여, 다음을 만족하는 변수 변환 방법

    \[\begin{aligned} f_{\psi}\left(\psi\right) &=f_{\theta}\left(\theta\right) \cdot \left\vert \frac{1}{\text{det}\left(\mathbb{J}\right)} \right\vert\\ \overrightarrow{\theta} &= \begin{pmatrix} \theta_{1} & \theta_{2} & \cdots & \theta_{n} \end{pmatrix}\\ \overrightarrow{\psi} &= \begin{pmatrix} \psi_{1} & \psi_{2} & \cdots & \psi_{m} \end{pmatrix} \end{aligned}\]
    • 자코비안 행렬(Jacobian Matrix; $\mathbb{J}$) : 다변수 벡터 값 함수의 모든 편미분을 모아 만든 행렬

      \[\begin{aligned} \mathbb{J} &= \frac{\partial \psi}{\partial \theta}\\ &= \begin{pmatrix} \displaystyle\frac{\partial \psi_1}{\partial \theta_1} & \displaystyle\frac{\partial \psi_1}{\partial \theta_2} & \cdots & \displaystyle\frac{\partial \psi_1}{\partial \theta_n}\\ \displaystyle\frac{\partial \psi_2}{\partial \theta_1} & \displaystyle\frac{\partial \psi_2}{\partial \theta_2} & \cdots & \displaystyle\frac{\partial \psi_2}{\partial \theta_n}\\ \vdots & \vdots & \ddots & \vdots\\ \displaystyle\frac{\partial \psi_m}{\partial \theta_1} & \displaystyle\frac{\partial \psi_m}{\partial \theta_2} & \cdots & \displaystyle\frac{\partial \psi_m}{\partial \theta_n} \end{pmatrix} \end{aligned}\]
  • 자코비안 변수 변환은 밀도의 불변성을 보장하는 변수 변환 방법임

    • 변환 변수 $\psi=g(\theta)$ 가 기본 변수에 대하여 (확률) 밀도의 불변성을 보장한다고 하자

      \[\begin{aligned} P(a \le \theta \le b) &= P(g(a) \le \psi \le g(b))\\ \int_{a}^{b}{f_{\theta}(\theta)d\theta} &= \int_{g(a)}^{g(b)}{f_{\psi}(\psi)d\psi} \end{aligned}\]
    • 기본 변수의 단위당 밀도와 변환 변수의 단위당 밀도가 동일함

      \[f_{\theta}(\theta) \cdot \Delta\theta =f_{\psi}(\psi) \cdot \Delta\psi\]
    • $\because \Delta\psi=\displaystyle\frac{\Delta\psi}{\Delta\theta} \cdot \Delta\theta$

      \[\begin{aligned} f_{\psi}(\psi) \cdot \Delta\psi &= f_{\psi}(\psi) \cdot \left(\frac{\Delta\psi}{\Delta\theta} \cdot \Delta\theta\right)\\ &= f_{\theta}(\theta) \cdot \Delta\theta \end{aligned}\]
    • 따라서 자코비안 변수 변환은 밀도의 불변성을 보장함

      \[\begin{aligned} f_{\psi}(\psi) \cdot \left(\frac{\Delta\psi}{\Delta\theta} \cdot \Delta\theta\right) &= f_{\theta}(\theta) \cdot \Delta\theta\\ f_{\psi}(\psi) \cdot \left\vert \frac{\Delta\psi}{\Delta\theta} \right\vert &= f_{\theta}(\theta)\\ \therefore f_{\psi}(\psi) &= f_{\theta}(\theta) \cdot \left\vert \frac{\Delta\theta}{\Delta\psi} \right\vert \end{aligned}\]

Jeffreys Priors

  • Jeffreys Priors : 모수 공간에 대해 불변성을 보장함으로써 변수 변환 후에도 객관성을 보존하는 사전분포

    \[\pi_{J}(\theta) \propto \sqrt{\mathbf{I}(\theta)}\]
    • $\sqrt{\mathbf{I}(\theta)}$ : Fisher Information

      \[\begin{aligned} \mathbf{I}(\theta) &= \mathbb{E}\left[\frac{\text{d}^{2}}{\text{d}\theta^{2}}\log{\mathcal{L}(\theta)}\right] \end{aligned}\]
  • Transformation Invariance of Jeffreys Priors

    • 변수 $\theta$ 에 대한 확률분포가 그 피셔 정보의 자승근에 비례하도록 정의되었다고 하자

      \[p(\theta) \propto \sqrt{I(\theta)}\]
    • 변수 $\theta$ 의 피셔 정보 $I(\theta)$ 는 다음과 같음

      \[I(\theta) = \mathbb{E}\left[\left(\frac{\partial \log{\mathcal{L}(\theta)}}{\partial \theta}\right)^{2}\right]\]
    • 함수 $g$ 를 통해 변수 $\theta$ 를 변수 $\psi$ 로 변환한다고 하자

      \[\psi = g(\theta)\]
    • 변환 변수 $\psi$ 의 확률분포 또한 그 피셔 정보의 자승근에 비례하게 됨

      \[p(\psi) \propto \sqrt{I(\psi)}\]
    • 미분 법칙에 의해 다음이 성립함

      \[\frac{\partial \log{\mathcal{L}(\psi)}}{\partial \psi} =\frac{\partial \log{\mathcal{L}(\theta)}}{\partial \theta} \cdot \frac{\partial \theta}{\partial \psi}\]
    • 변환 변수 $\psi$ 의 피셔 정보 $I(\psi)$ 는 다음과 같음

      \[\begin{aligned} I(\psi) &=\mathbb{E}\left[\left(\frac{\partial \log{\mathcal{L}(\theta)}}{\partial \theta} \cdot \frac{\partial \theta}{\partial \psi} \right)^{2}\right]\\ &=\mathbb{E}\left[\left(\frac{\partial \log{\mathcal{L}(\theta)}}{\theta}\right)^{2}\right] \cdot \left(\frac{d\theta}{d\psi}\right)^{2}\\ &=I(\theta) \cdot \left(\frac{d\theta}{d\psi}\right)^{2} \end{aligned}\]
    • 따라서 변환 변수 $\psi$ 의 확률분포는 기본 변수 $\theta$ 의 확률분포의 형태를 유지하되, 자코비안 행렬식 $\left\vert \displaystyle\frac{d\theta}{d\psi} \right\vert$ 로 보정된 양상을 띠게 됨

      \[\begin{aligned} p(\psi) &\propto \sqrt{I(\psi)}\\ &= \sqrt{I(\theta) \cdot \left(\frac{d\theta}{d\psi}\right)^{2}}\\ &= \sqrt{I(\theta)} \cdot \left\vert \frac{d\theta}{d\psi} \right\vert \end{aligned}\]

Subjective/Informative Dist.


  • Principle of Subjectivity : 주관적 판단을 반영하여 특정한 영역을 선호하는 원칙에 따라, 사전 지식이나 경험, 믿음 등의 영향력을 개입시킴으로써 특정 영역에 편향된 추론 결과를 도출하는 방법

Empirical Bayes Method

  • Empirical Bayes Method : 사전확률분포에 설정되는 하이퍼파라미터를 빈도주의적으로 접근하여 추정하는 방법
    • 사전 정보가 많지 않지만 관측치가 풍부한 경우 유용함
    • 관측하기 이전에 사전분포가 정의되어야 한다는 베이지안 추론 원칙에 위배됨
  • example General Model

    \[\begin{aligned} X_{i} \mid \theta &\sim N(\theta, 5^2)\\ \theta &\sim N(\mu, \sigma^2) \end{aligned}\]
    • 객관적 사전확률분포 설정을 통한 접근

      \[\theta \sim N(0, 100^2)\]
    • 주관적 사전확률분포 설정을 통한 접근

      \[\theta \sim N(\mu_{0}, \sigma_{0}^{2})\]
      • $\mu=\mu_{0}$ : 연구자가 보유하고 있는 사전 정보를 활용하여 설정
      • $\sigma=\sigma_{0}$ : 연구자가 보유하고 있는 불확실성을 수량화하여 설정
    • Empirical Bayes

      \[\theta \sim N\left(\frac{1}{N}\sum_{i=1}^{N}{X_i}, \frac{1}{N-1}\sum_{i=1}^{N}{(X_i-\mu)^2}\right)\]

Conjugate Priors


  • 켤레사전분포(Conjugate Priors) : 관측치 $X$ 와 그 확률분포 \(\mathcal{L}_{\alpha}\) 에 대하여, 다음의 조건을 만족하는 사전확률분포 \(\pi_{\beta}\) 가 존재하는 경우, \(\pi_{\beta}\) 를 \(\mathcal{L}_{\alpha}\) 의 켤레사전분포(Conjugate Prior Prob. Dist.)라고 함

    \[\begin{aligned} \pi_{\beta^{\prime}}(\theta \mid X) \propto \mathcal{L}_{\alpha}(\theta) \cdot \pi_{\beta}(\theta) \end{aligned}\]
    • $\mathcal{L}_{\alpha}(\theta)$ : 모수 $\theta$ 의 우도 함수
    • $\pi_{\beta}(\theta)$ : 모수 $\theta$ 의 사전 확률
    • $\pi_{\beta^{\prime}}(\theta \mid X)$ : 모수 $\theta$ 의 사후 확률
    • $\alpha,\beta,\beta^{\prime}$ : 모수들의 집합
  • 예시

    Likelihood Prior Posterior
    $\text{Bernoulli}(\theta)$ $\text{Beta}(\alpha, \beta)$ $\text{Beta}\Big(\alpha + n \cdot \bar{x}, \beta + n\cdot(1-\bar{x})\Big)$
    $\text{Poisson}(\lambda)$ $\text{Gamma}(\alpha, \beta)$ $\text{Gamma}(\alpha+ n \cdot \bar{x}, \beta+n)$
    $\text{Multinomial}(\theta)$ $\text{Dirichlet}(\alpha)$ $\text{Dirichlet}(\alpha+n \cdot \bar{x})$
    $N(\mu, \sigma^2)$
    $\text{known} \; \sigma^2$
    $N(\mu_0, \sigma_0^2)$ $N\Bigg( \displaystyle\frac{\displaystyle\frac{\mu_0}{\sigma_0^2} + \frac{n \cdot \bar{x}}{\sigma^2}}{\displaystyle\frac{1}{\sigma_0^2} + \displaystyle\frac{n}{\sigma^2}}, \displaystyle\frac{1}{\displaystyle\frac{1}{\sigma_0^2} + \frac{n}{\sigma^2}} \Bigg)$
    $N(\mu, \sigma^2)$
    $\text{known} \; \mu$
    $\text{Inv-Gamma}(\alpha, \beta)$ $\text{Inv-Gamma}\Bigg(\alpha + \displaystyle\frac{n}{2}, \beta + \displaystyle\frac{n \cdot (\bar{x} -\mu)^2}{2}\Bigg)$
    $N(\mu, \Sigma)$
    $\text{known} \; \mu$
    $\text{Inv-Wishart}(\nu_{0}, S_{0})$ $\text{Inv-Wishart}(\nu_{0}+n, S_{0} + n \cdot \bar{S})$
This post is licensed under CC BY 4.0 by the author.