Summarize Statistical Method
Based on the following lectures
(1) “Statistics (2018-1)” by Prof. Sang Ah Lee, Dept. of Economics, College of Economics & Commerce, Kookmin Univ.
(2) "Statistical Models and Application (2024-1)" by Prof. Yeo Jin Chung, Dept. of Data Science, The Grad. School, Kookmin Univ.
수치형 변수의 평균에 대한 추론
문제 | 관심모수 | 점추정량 | 가정체크 | 검정가설 | 검정방법 | Python Module |
---|---|---|---|---|---|---|
단일 집단의 평균 | $\mu$ | $\bar{X}$ | $n>30$ or $X \sim N$ | $H_0: \mu=\mu_0$ | One Sample t-Test | statsmodels.stats.ttest_mean |
두 집단 간 평균 비교 (독립표본) |
$\mu_1-\mu_2$ | \(\bar{X}_{1} - \bar{X}_{2}\) | $(n_1 + n_2)>30$ or $X_{1}\sim N, X_{2} \sim N$ | $H_0: \mu_1 - \mu_2 = 0$ | Two Sample t-Test | statsmodels.stats.weightstats.ttest_ind |
두 집단 간 평균 비교 (쌍체표본) |
$\mu_d$ | $\bar{X}_d$ | $n>30$ or $X \sim N$ | $H_0: \mu_d=0$ | Paired t-Test | statsmodels.stats.ttest_mean |
셋 이상 그룹 간 평균 비교 | $\mu_1, \cdots, \mu_m$ | $\bar{X}_1, \cdots, \bar{X}_m$ | $n_i>30$ or $X_{i} \sim N$ $\sigma_{i}^{2}=\sigma_{j}^{2}$ |
$H_0: \mu_1 = \cdots = \mu_m$ | ANOVA | statsmodels.stats.anova.AnovaRM |
양적변수 간의 상관관계 | $\beta_0, \beta_1$ $(y=\beta_0+\beta_1 x + \epsilon)$ |
$\hat{\beta}_0, \hat{\beta}_1$ | 반응변수와 설명변수 간 선형성 설명변수 간 독립성 오차의 등분산성 오차의 정규성 |
$H_0: \beta_i=0$ | Regression | statsmodels.api.OLS |
범주형 변수의 비율에 대한 추론
문제 | 관심모수 | 점추정량 | 가정체크 | 검정가설 | 검정방법 | Python Module |
---|---|---|---|---|---|---|
단일 집단의 비율 | $\pi$ | $p$ | $np>5$ $n(1-p)>5$ |
$H_0: \pi=\pi_0$ | One Sample z-Test | statsmodels.stats.proportion.proportions_ztest |
두 집단 간 비율 비교 | $\pi_1 - \pi_2$ | $p_1 - p_2$ | $n_i p_i > 5$ $n_i (1-p_i)>5$ |
$H_0: \pi_1-\pi_2=0$ | Two Sample z-Test | statsmodels.stats.proportion.proportions_ztest |
적합성 검정 | $\pi_1, \cdots, \pi_m$ | $p_1, \cdots, p_m$ | $n_i p_i > 5$ $n_i (1-p_i)>5$ |
$H_0: \pi_1=p_{0}^{(1)}, \cdots, \pi_m=p_{0}^{(m)}$ | Chi-square test | scipy.stats.chisquare |
독립성 검정 | $n_i p_i > 5$ $n_i (1-p_i)>5$ |
$H_0:$ 두 범주형 변수가 독립 | Chi-square test | scipy.stats.chi2_contingency |
||
양적변수와의 상관관계 | $\beta_0, \beta_1$ $(\pi=\beta_0+\beta_1 x)$ |
$\hat{\beta}_0, \hat{\beta}_1$ | $Y \sim B$ | $H_0: \beta_i=0$ | Logistic regression | sklearn.linear_models.LogisticRegression |
refer.
정규성 검정(Shapiro-Wilk Test)
- 귀무가설과 대립가설 설정
- $H_{0}:\quad X \sim N(\mu, \sigma^2)$
- $H_{1}:\quad X \not\sim N(\mu, \sigma^2)$
-
검정통계량 도출
\[W=\frac{\left(\sum_{i=1}^{n} \alpha_{i} X_{i}\right)^2}{\sum_{i=1}^{n}\left(X_{i} - \overline{X}\right)^2}\]-
$\overrightarrow{X}$ : 표본의 관측치 $X_{i}$ 를 크기에 따라 오름차순 정렬한 순위 통계량 벡터
\[\begin{aligned} \overrightarrow{X} =\begin{pmatrix} X_{1}&X_{2}&\cdots&X_{n} \end{pmatrix}^{T} \end{aligned}\]- $\overline{X}=\displaystyle\frac{1}{n}\sum_{i=1}^{n}{X_{i}}$ : 표본평균
-
$\overrightarrow{\alpha}$ : 순위 통계량 벡터 $\overrightarrow{X}$ 의 계수 벡터
\[\overrightarrow{\alpha}=\displaystyle\frac{\overrightarrow{m}^{T}\mathbb{V}^{-1}}{\Vert \mathbb{V}^{-1}\overrightarrow{m} \Vert}\]-
$\overrightarrow{m}$ : 기대 순위 통계량 벡터
\[\overrightarrow{m}=\begin{pmatrix} E\left[X_{1}\right]&E\left[X_{2}\right]&\cdots&E\left[X_{n} \right]\end{pmatrix}^{T}\] -
$\mathbb{V}$ : 기대 순위 통계량의 공분산 행렬
\[\mathbb{V}_{i,j}=\text{Cov}\Big[E\left[X_{i}\right],E\left[X_{j}\right]\Big]\] - $\overrightarrow{m}^{T}\mathbb{V}^{-1}$ : $\mathbb{V}^{-1}$ 에 의해 선형 변환되어 상호 독립된 기대 순위 통계량 벡터
- $\Vert \mathbb{V}^{-1}\overrightarrow{m} \Vert$ : 정규화 항
-
-
- 표본 $Y \sim N(0,1)$ 를 활용한 경험적 분포 생성
-
표준정규분포로부터 $n$ 개의 관측치로 구성된 표본을 반복적으로 생성
\[\begin{aligned} \overrightarrow{Y}^{(k)} =\begin{pmatrix} Y_{1}^{(k)}&Y_{2}^{(k)}&\cdots&Y_{k}^{(k)} \end{pmatrix}^{T} \quad \text{for}\; Y^{(k)}_{i} \sim N(0,1) \end{aligned}\] -
각 표본에 대하여 검정통계량 도출
\[W^{(k)}=\frac{\left(\sum_{i=1}^{k} \alpha_{i} Y_{i}\right)^2}{\sum_{i=1}^{k}\left(Y_{i} - \overline{Y}\right)^2}\] -
$n$ 의 크기에 따른 $W$ 의 경험적 분포 도출
\[f_{W}:n \rightarrow W\] -
$W$ 의 경험적 분포에서 특정 $w$ 값보다 작거나 같은 값을 가질 확률 도출
\[\begin{aligned} \text{p-value} &=F_{W}(w)\\ &=P(W \le w) \end{aligned}\]
-
- 표본 $X$ 에 대한 검정통계량 $W$ 의 $\text{p-value}$ 와 유의수준 $\alpha$ 비교
-
$F_{W}(W) \le \alpha$ : $X \not\sim N(\mu, \sigma^2)$
귀무가설이 참이라는 가정 하에 도출된 검정통계량보다 극단적인 실현값이 발생할 가능성이 현저히 낮다. 이는 귀무가설이 참이라는 가정 하에 표본이 실현될 가능성이 현저히 낮음을 의미한다. 따라서 유의수준 $\alpha$ 하 귀무가설을 기각한다.
-
$\alpha < F_{W}(W)$ : $X \sim N(\mu, \sigma^2)$
귀무가설이 참이라는 가정 하에 도출된 검정통계량보다 극단적인 실현값이 발생할 가능성이 어느 정도 존재한다. 이는 귀무가설이 참이라는 가정 하에 표본이 실현될 가능성이 현저히 낮다고 볼 수 없음을 의미한다. 따라서 유의수준 $\alpha$ 하 귀무가설을 기각하지 않는다.
-
등분산 검정(Levene’s Test)
- 관심 모수에 대한 점 추정량 도출
- 관심 모수 : \(\sigma_{1}^{2},\sigma_{2}^{2},\cdots,\sigma_{k}^{2}\)
- 점 추정량 : \(S_{1}^{2},S_{2}^{2},\cdots,S_{k}^{2}\)
- 귀무가설과 대립가설 설정
- $H_{0}:\quad$ 모든 $i$ 에 대하여 $\displaystyle\frac{\sigma_{i}^{2}}{\sigma_{j \ne i}^{2}}=1$
- $H_{1}:\quad$ 어떤 $i$ 에 대하여 $\displaystyle\frac{\sigma_{i}^{2}}{\sigma_{j \ne i}^{2}} \ne 1$
-
검정통계량 도출
\[F=\frac{\text{SSB} / (k-1)}{\text{SSW} / (N-k)} \sim F(k-1, N-k)\]-
SSB(Sum of Square Between) : 집단 간 편차 자승의 합
\[\text{SSB}=\sum_{i=1}^{k}{N_{i}\left(\overline{Z}^{(i)}-\overline{Z}\right)^2} \sim \chi^2(k-1)\]- $\overline{Z}^{(i)}$ : $i$ 번째 집단에 대하여 그 절대편차 \(Z^{(i)}_{\forall}\) 의 평균
- $\overline{Z}$ : 모든 관측치 $X^{(\forall)}_{\forall}$ 에 대하여 그 절대편차 \(Z^{(\forall)}_{\forall}\) 의 평균
- $k$ : 표본 내 집단 갯수
-
SSW(Sum of Within) : 집단 내 편차 자승의 합
\[\text{SSW}=\sum_{i=1}^{k}\sum_{j=1}^{N_{i}}{\left(Z^{(i)}_{j}-\overline{Z}^{(i)}\right)^2} \sim \chi^2(N-k)\]-
\(Z^{(i)}_{j}\) : \(i\) 번째 집단의 \(j\) 번째 관측치 \(X^{(i)}_{j}\) 의 절대편차
\[Z^{(i)}_{j}=\left\vert X^{(i)}_{j}-\overline{X}^{(i)} \right\vert\] - $\overline{Z}^{(i)}$ : $i$ 번째 집단에 대하여 그 절대편차 \(Z^{(i)}_{\forall}\) 의 평균
- $N$ : 표본 내 관측치 갯수
-
-
F-Dist.($F(\nu_1, \nu_2)$) : 서로 독립인 확률변수 $V_{1}\sim\chi^2(\nu_1),V_{2}\sim\chi^2(\nu_2)$ 간 비율로 구성되는 확률변수의 분포
\[F=\frac{V_1/\nu_1}{V_2/\nu_2} \sim F(\nu_1,\nu_2)\]
-