Post

Logistic Regression Analysis

Based on the following lectures
(1) “Statistics (2018-1)” by Prof. Sang Ah Lee, Dept. of Economics, College of Economics & Commerce, Kookmin Univ.
(2) “Intro. to Machine Learning (2023-2)” by Prof. Je Hyuk Lee, Dept. of Data Science, The Grad. School, Kookmin Univ.
(3) "Statistical Models and Application (2024-1)" by Prof. Yeo Jin Chung, Dept. of Data Science, The Grad. School, Kookmin Univ.

Prerequisite


  • 승산(Odds) : 변수 $Y$ 가 반응할 가능성이, 반응하지 않을 가능성보다 몇 배 높은가

    \[\begin{aligned} \text{odds}(Y) &= \frac{P(Y=1)}{1-P(Y=1)} \end{aligned}\]
  • 로짓(Logit; Logarithm Odds) : 승산에 로그를 취한 값

    \[\begin{aligned} \text{logit}(Y) &= \ln{\text{odds}(Y)}\\ &= \ln{\frac{P(Y=1)}{1-P(Y=1)}} \end{aligned}\]
  • 승산비(Odds Ratio; OR) : 변수 $X$ 가 참일 때 $Y$ 가 반응할 가능성이, $X$ 가 거짓일 때 $Y$ 가 반응할 가능성보다 몇 배 높은가

    \[\begin{aligned} \text{OR}(Y \mid X) &= \frac{\text{odds}(Y \mid X=1)}{\text{odds}(Y \mid X=0)}\\ &= \left[\frac{P(Y=1\mid X=1)}{1-P(Y=1 \mid X=1)}\right] \bigg/ \left[\frac{P(Y=1\mid X=0)}{1-P(Y=1 \mid X=0)}\right] \end{aligned}\]
    • $\text{OR}(Y \mid X) \approx 1$ : $X$ 의 단위 변동이 $Y$ 의 승산에 영향을 미치지 않음
    • $\text{OR}(Y\mid X) < 1$ : $X$ 의 단위 변동이 $Y$ 의 승산과 음의 상관관계에 있음
    • $\text{OR}(Y \mid X) > 1$ : $X$ 의 단위 변동이 $Y$ 의 승산과 양의 상관관게에 있음

Logistic Regression


  • 로지스틱 회귀 모형(Logistic Regression) : 범주형 반응변수에 대한 회귀 모형

    01

    \[P(y^{(i)}=1) = \frac{1}{1+\exp{\left[-\left(\beta_{0}+\beta_{1} \cdot x^{(i)}\right)\right]}}\]

Logistic Function

  • 범주형 반응변수와 회귀식 간 범위 불일치 문제

    • 범주형 반응변수 $Y$ 의 공역

      \[y^{(i)} = \begin{cases}\begin{aligned} 1 \quad &\text{true}\\ 0 \quad &\text{false} \end{aligned}\end{cases}\]
    • 회귀식의 범위

      \[\begin{aligned} f(x^{(i)}) = \beta_{0} + \beta_{1} \cdot x^{(i)} \in (-\infty,\infty) \end{aligned}\]
    • 반응변수 공역과 회귀식 범위 간 불일치

      \[\begin{aligned} y^{(i)} \ne \beta_{0} + \beta_{1} \cdot x^{(i)} \end{aligned}\]
  • 반응변수 재정의를 통한 공역 조정

    • 확률 변환

      \[Y \in \{0,1\} \quad \rightarrow \quad P(Y=1) \in [0,1]\]
    • 승산(odds) 변환

      \[Y \in \{0,1\} \quad \rightarrow \quad \text{odds}(Y) \in [0,\infty)\]
    • 로짓(logit) 변환

      \[Y \in \{0,1\} \quad \rightarrow \quad \text{logit}(Y) \in (-\infty,\infty)\]
  • 로지스틱 회귀식 도출

    • 로짓 변환한 반응변수와 회귀식 연결

      \[\begin{aligned} \text{logit}(y^{(i)}) &= \beta_{0} + \beta_{1} \cdot x^{(i)} \end{aligned}\]
    • 반응변수가 참일 확률에 대한 로지스틱 회귀식 도출

      \[\begin{aligned} P(y^{(i)}=1) &= \frac{1}{1+\exp\left[-\left(\beta_{0}+\beta_{1} \cdot x^{(i)}\right)\right]} \end{aligned}\]
  • Logistic Function

    \[\ln{\frac{P(Y=1)}{1-P(Y=1)}} =\beta_0 + \beta_1 \cdot X\]
  • $\text{if} \quad X=1$

    \[\begin{aligned} \ln{\frac{P(Y=1 \mid X=1)}{1-P(Y=1 \mid X=1)}} &= \beta_0 + \beta_1 \times 1 \\ &= \beta_0 + \beta_1 \end{aligned}\]
  • $\text{if} \quad X=0$

    \[\begin{aligned} \ln{\frac{P(Y=1 \mid X=0)}{1-P(Y=1 \mid X=0)}} &= \beta_0 + \beta_1 \times 0 \\ &= \beta_0 \end{aligned}\]
  • $\beta_1$

    \[\begin{aligned} \beta_1 &= \left(\beta_0 + \beta_1\right) - \beta_0\\ &= \ln{\frac{P(Y=1 \mid X=1)}{1-P(Y=1 \mid X=1)}} - \ln{\frac{P(Y=1 \mid X=0)}{1-P(Y=1 \mid X=0)}}\\ &= \ln{\text{odds}(Y \mid X=1)} - \ln{\text{odds}(Y \mid X=0)}\\ &= \ln{\frac{\text{odds}(Y \mid X=1)}{\text{odds}(Y \mid X=0)}}\\ &= \ln{\text{OR}(Y \mid X)} \end{aligned}\]

Maximum Liklihood Estimator

  • Liklihood Function

    \[\begin{aligned} \mathcal{L}(\theta) &= \prod_{i:y=1}{P(x_{i} \mid \theta)} \cdot \prod_{j:y=0}{1-P(x_{j} \mid \theta)} \end{aligned}\]
    • $\prod_{i:y=1}{P(x_{i} \mid \theta)}$ : $\theta$ 조건부 $Y=1$ 인 관측치들이 발생할 확률
    • $\prod_{j:y=0}{1-P(x_{j} \mid \theta)}$ : $\theta$ 조건부 $Y=0$ 인 관측치들이 발생할 확률
  • Maximum Liklihood Estimator

    \[\begin{aligned} \hat{\theta} &= \text{arg} \max_{\theta}{\mathcal{L}(\theta)}\\ &= \text{arg} \max_{\theta}{\prod_{i:y=1}{P(x_{i} \mid \theta)} \cdot \prod_{j:y=0}{1-P(x_{j} \mid \theta)}}\\ &= \text{arg} \max_{\theta}{\sum_{i:y=1}{P(x_{i} \mid \theta)} + \sum_{j:y=0}{P(x_{j} \mid \theta)}} \end{aligned}\]
This post is licensed under CC BY 4.0 by the author.