Post

Logistic Regression Analysis

Based on the following lectures
(1) “Statistics (2018-1)” by Prof. Sang Ah Lee, Dept. of Economics, College of Economics & Commerce, Kookmin Univ.
(2) “Intro. to Machine Learning (2023-2)” by Prof. Je Hyuk Lee, Dept. of Data Science, The Grad. School, Kookmin Univ.
(3) "Statistical Models and Application (2024-1)" by Prof. Yeo Jin Chung, Dept. of Data Science, The Grad. School, Kookmin Univ.

Prerequisite


  • 승산(Odds) : 변수 Y 가 반응할 가능성이, 반응하지 않을 가능성보다 몇 배 높은가

    odds(Y)=P(Y=1)1P(Y=1)
  • 로짓(Logit; Logarithm Odds) : 승산에 로그를 취한 값

    logit(Y)=lnodds(Y)=lnP(Y=1)1P(Y=1)
  • 승산비(Odds Ratio; OR) : 변수 X 가 참일 때 Y 가 반응할 가능성이, X 가 거짓일 때 Y 가 반응할 가능성보다 몇 배 높은가

    OR(YX)=odds(YX=1)odds(YX=0)=[P(Y=1X=1)1P(Y=1X=1)]/[P(Y=1X=0)1P(Y=1X=0)]
    • OR(YX)1 : X 의 단위 변동이 Y 의 승산에 영향을 미치지 않음
    • OR(YX)<1 : X 의 단위 변동이 Y 의 승산과 음의 상관관계에 있음
    • OR(YX)>1 : X 의 단위 변동이 Y 의 승산과 양의 상관관게에 있음

Logistic Regression


  • 로지스틱 회귀 모형(Logistic Regression) : 범주형 반응변수에 대한 회귀 모형

    01

    P(y(i)=1)=11+exp[(β0+β1x(i))]

Logistic Function

  • 범주형 반응변수와 회귀식 간 범위 불일치 문제

    • 범주형 반응변수 Y 의 공역

      y(i)={1true0false
    • 회귀식의 범위

      f(x(i))=β0+β1x(i)(,)
    • 반응변수 공역과 회귀식 범위 간 불일치

      y(i)β0+β1x(i)
  • 반응변수 재정의를 통한 공역 조정

    • 확률 변환

      Y{0,1}P(Y=1)[0,1]
    • 승산(odds) 변환

      Y{0,1}odds(Y)[0,)
    • 로짓(logit) 변환

      Y{0,1}logit(Y)(,)
  • 로지스틱 회귀식 도출

    • 로짓 변환한 반응변수와 회귀식 연결

      logit(y(i))=β0+β1x(i)
    • 반응변수가 참일 확률에 대한 로지스틱 회귀식 도출

      P(y(i)=1)=11+exp[(β0+β1x(i))]
  • Logistic Function

    lnP(Y=1)1P(Y=1)=β0+β1X
  • ifX=1

    lnP(Y=1X=1)1P(Y=1X=1)=β0+β1×1=β0+β1
  • ifX=0

    lnP(Y=1X=0)1P(Y=1X=0)=β0+β1×0=β0
  • β1

    β1=(β0+β1)β0=lnP(Y=1X=1)1P(Y=1X=1)lnP(Y=1X=0)1P(Y=1X=0)=lnodds(YX=1)lnodds(YX=0)=lnodds(YX=1)odds(YX=0)=lnOR(YX)

Maximum Liklihood Estimator

  • Liklihood Function

    L(θ)=i:y=1P(xiθ)j:y=01P(xjθ)
    • i:y=1P(xiθ) : θ 조건부 Y=1 인 관측치들이 발생할 확률
    • j:y=01P(xjθ) : θ 조건부 Y=0 인 관측치들이 발생할 확률
  • Maximum Liklihood Estimator

    θ^=argmaxθL(θ)=argmaxθi:y=1P(xiθ)j:y=01P(xjθ)=argmaxθi:y=1P(xiθ)+j:y=0P(xjθ)
This post is licensed under CC BY 4.0 by the author.