Post

Bayes Action

Based on the lecture “Bayesian Modeling (2024-1)” by Prof. Yeo Jin Chung, Dept. of AI, Big Data & Management, College of Business Administration, Kookmin Univ.

Bayes Action


사후확률 $\theta \mid X$ 을 추정하기 위해, 확률분포 $P(\theta \mid X) \propto \mathcal{L}(\theta) \cdot \pi(\theta)$ 로부터 $n$ 번의 샘플링을 통해 $n$ 개의 샘플 $\theta^{(1)},\theta^{(2)},\cdots,\theta^{(n)}$ 을 도출했다고 하자. 그렇다면 이들 중 무엇을 모수 $\theta \mid X$ 의 추정치 $\hat{\theta}$ 로 사용하는 것이 적절할까?

  • Bayes’ Risk : 사후확률분포 $P(\theta \mid X)$ 를 사용하여 계산된, 모수 $\theta$ 에 대하여 추정치 $\hat{\theta}$ 를 선택할 때의 기대 손실(Expected Loss)

    \[\begin{aligned} \mathcal{R}(\hat{\theta}) &= \mathbb{E}_{\theta \mid X}\left[\text{Loss}(\theta, \hat{\theta})\right]\\ &= \int{\text{Loss}(\theta, \hat{\theta}) \cdot P(\theta \mid X)}\text{d}\theta \end{aligned}\]
    • 모수 $\theta \mid X$ 를 알 수 없으므로, $n$ 번의 샘플링을 통해 도출한 $n$ 개의 샘플 $\theta^{(1)},\theta^{(2)},\cdots,\theta^{(n)} \sim P(\theta \mid X)$ 를 사용하여 근사함

      \[\begin{aligned} \mathcal{R}(\hat{\theta}) &= \mathbb{E}_{\theta \mid X}\left[\text{Loss}(\theta, \hat{\theta})\right]\\ &\approx \frac{1}{N}\sum_{i=1}^{N}{\text{Loss}(\theta^{(i)}, \hat{\theta})} \end{aligned}\]
  • Bayes Estimator : 모수 $\theta$ 에 대하여, Bayes’ Risk 를 최소화시키는 추정치 $\hat{\theta}$

    \[\begin{aligned} \hat{\theta} &= \text{arg} \min_{\hat{\theta}}{\mathcal{R}(\hat{\theta})} \end{aligned}\]
    • Posterior Mean : Bayes’ Least Square (BLS) Estimator

      \[\begin{aligned} \hat{\theta} &= \text{arg} \min_{\hat{\theta}}{\mathbb{E}_{\theta \mid X}\left[(\theta-\hat{\theta})^2\right]}\\ &= \mathbb{E}_{\theta \mid X}(\theta) \end{aligned}\]
    • Posterior Median

      \[\begin{aligned} \hat{\theta} &= \text{arg} \min_{\hat{\theta}}{\mathbb{E}_{\theta \mid X}\left[ \vert \theta-\hat{\theta} \vert \right]}\\ &= \tilde{\theta} \end{aligned}\]
    • Posterior mode : Maximum a posteriori (MAP) Estimator

      \[\begin{aligned} \hat{\theta} &= \text{arg} \min_{\hat{\theta}}{\mathbb{E}_{\theta \mid X}\left[1_{\hat{\theta} \ne \theta}\right]}\\ &= \text{arg} \max_{\theta}{P(\theta \mid X)} \end{aligned}\]

Loss Function


Continuous Prob. Variable

  • Squared Error Loss

    \[\begin{aligned} \text{Loss}(\theta, \hat{\theta}) &= (\theta - \hat{\theta})^2 \end{aligned}\]
  • Asymmetric Squared Error Loss

    \[\text{Loss}(\theta, \hat{\theta}) = \begin{cases}\begin{aligned} &(\theta - \hat{\theta})^2 \quad &\text{if}\;\hat{\theta} < \theta&\\ &c \cdot (\theta - \hat{\theta})^2 \quad &\text{if}\;\hat{\theta} \ge \theta&,\;0<c<1 \end{aligned}\end{cases}\]
  • Absolute Error Loss

    \[\begin{aligned} \text{Loss}(\theta, \hat{\theta}) = \vert \theta - \hat{\theta} \vert \end{aligned}\]

Discrete Prob. Variable

  • Zero-One Loss

    \[\begin{aligned} \text{Loss}(\theta, \hat{\theta}) &= 1_{\hat{\theta} \ne \theta}\\ &= \begin{cases}\begin{aligned} &0 \quad &\text{if}\;\hat{\theta} = \theta\\ &1 \quad &\text{if}\;\hat{\theta} \ne \theta \end{aligned}\end{cases} \end{aligned}\]
  • Binary Cross Entropy Loss

    \[\begin{aligned} \text{Loss}(\theta, \hat{\theta}) = -\left[\hat{\theta} \cdot \log{\theta}+(1-\hat{\theta})\cdot\log{(1-\theta)}\right] \quad \text{for}\;&\hat{\theta}\in\{0,1\},\\&\theta\in[0,1] \end{aligned}\]
    • 관측치 $\hat{\theta}$ 가 $\theta$ 를 확률로 가지는 베르누이 분포로부터 생성된다고 하자

      \[\begin{aligned} \hat{\theta} \sim \text{Bernoulli}(\theta) \end{aligned}\]
    • $\hat{\theta}$ 에 대한 확률질량함수는 다음과 같음

      \[P(\hat{\theta};\theta)=\theta^{\hat{\theta}} \cdot (1-\theta)^{1-\hat{\theta}}\]
    • 이를 $\theta$ 에 대한 로그 우도 함수로 해석할 수 있음

      \[\begin{aligned} \log{\mathcal{L}(\theta)} &= \log{P(\hat{\theta} \mid \theta)}\\ &= \hat{\theta} \cdot \log{\theta} + (1-\hat{\theta}) \cdot \log{(1-\theta)} \end{aligned}\]
    • $\theta$ 를 모수, $\hat{\theta}$ 를 추정치에 대응하여 손실함수를 구성하면 다음과 같음

      \[\begin{aligned} \text{Loss}(\theta,\hat{\theta}) &= -\log{\mathcal{L}(\theta)}\\ &= -\log{P(\hat{\theta} \mid \theta)}\\ &= - \left[\hat{\theta} \cdot \log{\theta} + (1-\hat{\theta}) \cdot \log{(1-\theta)}\right] \end{aligned}\]
  • Categorical Cross Entropy Loss

    \[\begin{aligned} \text{Loss}(\theta, \hat{\theta}) = -\sum_{i=1}^{K}{\hat{\theta}_{i}\cdot\log{\theta_{i}}} \quad \text{for}\;&\hat{\theta}_{i}\in\{0,1\},\\&\theta_{i}\in[0,1] \end{aligned}\]
    • 관측치 $\hat{\theta}$ 가 $\theta$ 를 확률로 가지는 카테고리 분포로부터 생성된다고 하자

      \[\begin{aligned} \hat{\theta} \sim \text{Categorical}(\theta) \end{aligned}\]
    • $\hat{\theta}$ 에 대한 확률질량함수는 다음과 같음

      \[P(\hat{\theta};\theta)=\prod_{i=1}^{K}{\theta_{i}^{\hat{\theta}_{i}}}\]
    • 이를 $\theta$ 에 대한 로그 우도 함수로 해석할 수 있음

      \[\begin{aligned} \log{\mathcal{L}(\theta)} &= \log{P(\hat{\theta} \mid \theta)}\\ &= \sum_{i=1}^{K}{\hat{\theta}_{i} \cdot \log{\theta_{i}}} \end{aligned}\]
    • $\theta$ 를 모수, $\hat{\theta}$ 를 추정치에 대응하여 손실함수를 구성하면 다음과 같음

      \[\begin{aligned} \text{Loss}(\theta,\hat{\theta}) &= -\log{\mathcal{L}(\theta)}\\ &= -\log{P(\hat{\theta} \mid \theta)}\\ &= - \sum_{i=1}^{K}{\hat{\theta}_{i} \cdot \log{\theta_{i}}} \end{aligned}\]
This post is licensed under CC BY 4.0 by the author.