A/B Test
Based on the following lectures
(1) “Statistics (2018-1)” by Prof. Sang Ah Lee, Dept. of Economics, College of Economics & Commerce, Kookmin Univ.
(2) "Statistical Models and Application (2024-1)" by Prof. Yeo Jin Chung, Dept. of Data Science, The Grad. School, Kookmin Univ.
What? A/B Test
-
A/B Test : 서로 다른 두 방법 간 효과의 차이를 밝히기 위한 대조 실험
상관관계(Correlation) 를 파악하고자 하는 변수 $Y,X$ 외에 다른 요인들을 직접 통제할 수 없을 때 사용되는 통계적 디자인 패턴으로서, 임의로 나눈 두 집단에 대하여 서로 다른 방법을 적용하고 어떤 집단이 더 높은 성과를 보이는지 판단함. 이때 두 집단을 무작위로 추출함으로써, 두 집단이 제3의 요인들에 대하여 완전히 동질적일 수는 없지만 확률적으로 유사한 분포를 가지도록 함.
refer. Correlation VS. Causality
Example: 아이스크림 판매량과 물놀이 사고 간 관계성
한 지자체에서 물놀이 사고를 줄이는 것을 목표로 하고 있다. 조사 결과 아이스크림 판매량과 물놀이 사고 빈도 간의 상관관계가 높음을 알 수 있었다. 즉, 아이스크림 판매량이 증가하면 물놀이 사고가 증가하는 것이 데이터로부터 파악되었다. 이를 근거로 아이스크림 판매량 증가가 물놀이 사고 증가의 원인이라고 판단하였고, 물놀이 사고를 줄이기 위해 아이스크림 가격을 올려 판매량을 줄이는 정책을 입안하였다.
- 아이스크림 판매량과 물놀이 사고를 동시에 증가시키는 제3의 요인이 존재한다면?
Example: 웹사이트 디자인 개편과 매출 증가 간 관계성
어떤 쇼핑몰 웹 사이트에서 3개월에 걸쳐 디자인 개편 프로젝트를 진행하였고, 지난주에 성공적으로 새 디자인을 적용하였다. 그랬더니 갑자기 그 전에 비해 일 매출이 $10\%$ 증가했다. 매출 증가는 웹사이트 디자인 개편 덕분이라고 판단할 수 있는가?
- 새 디자인이 적용된 날 갑자기 경쟁 쇼핑몰이 문을 닫았다면?
- 새 디자인이 적용된 날 갑자기 인기 상품이 입고되었다면?
- 새 디자인이 적용된 날 갑자기 경기가 좋아졌다면?
Two Sample t-Test
-
2표본 t 검정(Two Sample t-Test) : 두 독립표본의 평균이 통계적으로 유의한 차이가 있는지 검정하는 방법
한 메이저 리그 야구경기를 마무리하는 데 걸리는 시간에 대한 우려가 팬과 구단주 사이에서 점차 더 커지고 있다. 이 문제의 심각성을 평가하기 위해서, 한 통계 전문가는 5년 전과 금년에 임의표본을 구성하는 경기들을 마무리하는데 걸린 시간을 기록하였다. 한 경기를 마무리하는 데 걸리는 시간이 5년 전보다 금년이 더 길다고 결론을 내릴 수 있는가?
- 관심 모수에 대한 점 추정량 도출
- 관심 모수 : $\mu_1-\mu_2$
- 점 추정량 : $\overline{X}_1-\overline{X}_2$
- 귀무가설과 대립가설 설정
- $H_{0}:\quad \mu_1-\mu_2=D_{0}$
- $H_{1}:\quad \mu_1-\mu_2 \ne D_{0}$
Independent Samples t-Test
-
독립표본 t 검정(Independent Samples t-Test) : 등분산 가정이 성립하는 경우($\sigma^2_1=\sigma^2_2$)의 2표본 t 검정
-
합동분산(Pooled Variance; $S_p^2$) : 모분산이 동일한 것으로 간주되는 두 독립표본의 분산을 각각의 자유도로 가중평균한 값
\[\begin{aligned} S_p^2 &= \frac{\nu_1 \cdot S_{1}^2 + \nu_2 \cdot S_{2}^2}{\nu_1+\nu_2} \end{aligned}\] -
합동분산이 적용된 검정통계량 도출
\[\begin{aligned} T &= \displaystyle\frac{(\overline{X}_1-\overline{X}_2)-D_{0}}{\sqrt{\displaystyle\frac{S_p^2}{n_1}+\displaystyle\frac{S_p^2}{n_2}}} \sim t(\nu_1+\nu_2) \end{aligned}\]-
$\overline{X}_1-\overline{X}_2$ 의 기대값 도출
\[\begin{aligned} E\left[\overline{X}_1-\overline{X}_2\right] &= E\left[\overline{X}_1\right]-E\left[\overline{X}_2\right]\\ &=\mu_1 - \mu_2 \end{aligned}\] -
$\overline{X}_1-\overline{X}_2$ 의 분산 도출
\[\begin{aligned} Var\left[\overline{X}_1-\overline{X}_2\right] &= Var\left[\overline{X}_1\right] + Var\left[\overline{X}_2\right] - 2\times Cov\left[\overline{X}_1,\overline{X}_2\right] \\ &= \frac{S_p^2}{n_1} + \frac{S_p^2}{n_2}\quad (\because Cov\left[\overline{X}_1,\overline{X}_2\right]=0) \end{aligned}\] -
$\overline{X}_1-\overline{X}_2$ 표준화
\[\begin{aligned} T &= \displaystyle\frac{(\overline{X}_1-\overline{X}_2)-(\mu_1-\mu_2)}{\sqrt{\displaystyle\frac{S_p^2}{n_1}+\displaystyle\frac{S_p^2}{n_2}}} \sim t(\nu_1+\nu_2) \end{aligned}\]
-
Welch’s t-Test
-
Welch’s t 검정(Welch’s t-Test) : 등분산 가정이 성립하지 않는 경우($\sigma^2_1 \ne \sigma^2_2$)의 2표본 t 검정
-
Welch-Satterthwaite 자유도(Welch-Satterthwaite Degree of Freedom; $\nu_W$) : 표준오차로써 측정된 종합적인 변동성을 각 표본들이 변동성에 대하여 기여한 정도를 가중평균한 값
\[\begin{aligned} \nu_W &= \left(\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}\right)^2 \bigg/ \left[\frac{(S_{1}^2/n_1)^2}{\nu_1} + \frac{(S_{2}^2/n_2)^2}{\nu_2} \right] \end{aligned}\]- $\left(\displaystyle\frac{S_{1}^{2}}{n_{1}}+\displaystyle\frac{S_{2}^{2}}{n_{2}}\right)^2$ : 표준오차로써 측정된 확률변수 $\overline{X}_1-\overline{X}_2$ 의 종합적인 변동성
- $\displaystyle\frac{(S_{1}^2/n_1)^2}{\nu_1} + \displaystyle\frac{(S_{2}^2/n_2)^2}{\nu_2}$ : 표본들이 확률변수 $\overline{X}_1-\overline{X}_2$ 의 종합적인 변동성에 대하여 각각 기여한 정도
-
Welch-Satterthwaite 자유도를 따르는 검정통계량 도출
\[\begin{aligned} T &= \displaystyle\frac{(\overline{X}_1-\overline{X}_2)-D_{0}}{\sqrt{\displaystyle\frac{S_1^2}{n_1}+\displaystyle\frac{S_2^2}{n_2}}} \sim t(\nu_W) \end{aligned}\]-
$\overline{X}_1-\overline{X}_2$ 의 기대값 도출
\[\begin{aligned} E\left[\overline{X}_1-\overline{X}_2\right] &= E\left[\overline{X}_1\right]-E\left[\overline{X}_2\right]\\ &=\mu_1 - \mu_2 \end{aligned}\] -
$\overline{X}_1-\overline{X}_2$ 의 분산 도출
\[\begin{aligned} Var\left[\overline{X}_1-\overline{X}_2\right] &= Var\left[\overline{X}_1\right] + Var\left[\overline{X}_2\right] - 2\times Cov\left[\overline{X}_1,\overline{X}_2\right] \\ &= \frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}\quad (\because Cov\left[\overline{X}_1,\overline{X}_2\right]=0) \end{aligned}\] -
$\overline{X}_1-\overline{X}_2$ 표준화
\[\begin{aligned} T &= \displaystyle\frac{(\overline{X}_1-\overline{X}_2)-(\mu_1-\mu_2)}{\sqrt{\displaystyle\frac{S_1^2}{n_1}+\displaystyle\frac{S_2^2}{n_2}}} \sim t(\nu_{W}) \end{aligned}\]
-
Paired Sample t-Test
-
쌍체표본 t 검정(Paired Sample t-Test) : 쌍을 이루는 두 변수 간 차이의 평균이 기대되는 값($\mu_0$)과 통계적으로 유의한 차이가 있는지 검정하는 방법
주식시장의 변동은 일부 투자자들로 하여금 주식을 팔고 그들의 자금을 더 안전한 투자로 이동시키게 만든다. 최근 주식시장의 변동이 주식 보유에 어느 정도 영향을 미쳤는지를 결정하기 위해 주식을 소유하고 있는 170 명을 대상으로 서베이를 실시하였다. 실험 대상자들의 재작년 말과 작년 말 주식 보유액을 기록하였다. 주식 보유액이 감소했다고 추론할 수 있는가?
- 쌍체표본(Paired Sample) : 동일한 대상에 대하여 두 번의 측정을 통해 얻은 표본 혹은 변수 간 상관관계가 존재하는 두 대상에 대하여 측정을 통해 얻은 표본
- 관심 모수에 대한 점 추정량 도출
- 관심 모수 : \(\mu=\displaystyle\frac{1}{N}\sum_{i=1}^{N}{\left(X^{(A)}_{i}-X^{(B)}_{i}\right)}\)
- 점 추정량 : \(\overline{X}=\displaystyle\frac{1}{n}\sum_{i=1}^{n}{\left(X^{(A)}_{i}-X^{(B)}_{i}\right)}\)
- 귀무가설과 대립가설 설정
- $H_{0}:\quad \mu=\mu_{0}$
- $H_{1}:\quad \mu \ne \mu_{0}$
-
검정통계량
\[\begin{aligned} T &= \displaystyle\frac{\overline{X}-\mu_{0}}{\displaystyle\frac{S}{\sqrt{n}}} \sim t(\nu) \end{aligned}\]-
$\overline{X}$ 의 기대값 도출
\[\begin{aligned} E\left[ \overline{X} \right] &= E\left[\frac{1}{n}\sum_{i=1}^{n}{\left(X^{(A)}_{i}-X^{(B)}_{i}\right)}\right]\\ &= E\left[\frac{1}{n}\left(\sum_{i=1}^{n}{X^{(A)}_{i}}-\sum_{i=1}^{n}{X^{(B)}_{i}}\right)\right]\\ &= E\left[\frac{1}{n}\sum_{i=1}^{n}{\overline{X}^{(A)}_{i}}-\frac{1}{n}\sum_{i=1}^{n}{\overline{X}^{(B)}_{i}}\right]\\ &= E\left[\frac{1}{n}\sum_{i=1}^{n}{\overline{X}^{(A)}_{i}}\right]-E\left[\frac{1}{n}\sum_{i=1}^{n}{\overline{X}^{(B)}_{i}}\right]\\ &= E\left[\overline{X}_{A}\right]-E\left[\overline{X}_{B}\right]\\ &=\mu_A - \mu_B \end{aligned}\] -
$\overline{X}$ 의 분산 도출
\[\begin{aligned} Var\left[\overline{X}\right] &=Var\left[\frac{1}{n}\sum_{i=1}^{n}{X^{(A)}_{i}-X^{(B)}_{i}}\right]\\ &=Var\left[\frac{1}{n}\sum_{i=1}^{n}{X^{(A)}_{i}}-\frac{1}{n}\sum_{i=1}^{n}{X^{(B)}_{i}}\right]\\ &=Var\left[\overline{X}_{A}-\overline{X}_{B}\right]\\ &=Var\left[\overline{X}_{A}\right] + Var\left[\overline{X}_{B}\right] - 2 \times Cov \left[\overline{X}_{A}, \overline{X}_{B}\right]\\ &=\frac{S_{A}^{2}}{n}+\frac{S_{B}^{2}}{n}-2\times\frac{r_{A,B}}{n}\quad(\because Cov \left[\overline{X}_{A}, \overline{X}_{B}\right] \ne 0)\\ &=\frac{S^2}{n} \end{aligned}\] -
$\overline{X}$ 표준화
\[\begin{aligned} T &= \displaystyle\frac{\overline{X}-\mu}{\displaystyle\frac{S}{\sqrt{n}}} \sim t(\nu) \end{aligned}\]
-
Goodness-of-Fit Test
-
적합성 검정(Goodness-of-Fit Test) : 범주형 자료에 대하여 관찰된 비율이 기대되는 비율과 통계적으로 유의한 차이가 있는지 검정하는 방법
마케팅 조사 기관 Scott 가 수행한 시장 점유율에 대한 조사에서, 몇 년동안 시장점유율은 A사 $30\%$, B사 $50\%$, C사 $20\%$ 수준을 보이며 안정적이었다. 최근에 C사는 기능이 향상된 제품을 출시하였다. 이에 신제품의 출시가 시장점유율의 변화에 영향을 미치고 있는지 파악하고자 한다. Scott 가 $200$ 명의 고객을 소비자 패널로 활용하여 조사를 수행한 결과, 아래의 표와 같은 구매 선호도를 얻었다. 신제품 출시에 따라 시장점유율이 변화했다고 볼 수 있는가?
- 관심 모수에 대한 점 추정량 도출
- 관심 모수 : \(\pi_{A},\quad \pi_{B},\quad \pi_{C}\)
- 점 추정량 : \(p_{A},\quad p_{B},\quad p_{C}\)
- 귀무가설과 대립가설 설정
- $H_{0}:\quad \pi_{A}=0.3 \; \text{and} \; \pi_{B}=0.5 \; \text{and} \; \pi_{C}=0.2$
- $H_{1}:\quad \pi_{A} \ne 0.3 \; \text{or} \; \pi_{B} \ne 0.5 \; \text{or} \; \pi_{C} \ne 0.2$
-
검정통계량
\[\begin{aligned} X &= \sum_{i=1}^{k}{Z_{i}^2} \quad \text{for} \quad Z_{i} \sim N(0,1)\\ &= \sum_{i=1}^{k}{\left(\frac{\Omega_{i} - e_{i}}{\sqrt{e_{i}}}\right)^2} \sim \chi^2{(\nu)} \end{aligned}\]-
$Z_{i}$ : 각 셀에 대하여 관측 빈도와 기대 빈도의 표준화된 차이
\[Z_{i}=\frac{\Omega_{i} - e_{i}}{\sqrt{e_{i}}} \sim N(0,1)\] -
$\Omega_{i}$ : $i$ 번째 카테고리에 해당하는 관측치의 관측 빈도
회사 A B C 계 관측 빈도 48 98 54 200 -
$e_{i}$ : $\Omega_{i}$ 의 기대값으로서 귀무가설이 참일 때 기대되는 빈도
\[\begin{aligned} e_{i} &=E\left[\Omega_{i} \right]\\ &= n \cdot p_{i} \end{aligned}\]회사 A B C 기대 빈도 60 100 40 -
$\sqrt{e_{i}}$ : $\Omega_{i}$ 에 대한 표준편차의 근사값
\[\begin{aligned} Var\left[\Omega_{i}\right] &= n \cdot p_{i} \cdot (1-p_{i})\\ &= e_{i} \cdot (1-p_{i})\\ &\approx e_{i} \cdot 1 \end{aligned}\] -
$\chi^2{(\nu)}$ : 자유도가 $\nu$ 인 카이제곱 분포
- $\nu=k-1$
- $k$ : 카테고리 갯수
-
Test of Independence
-
독립성 검정(Test of Independence) : 두 범주형 자료가 통계적으로 독립인지 검정하는 방법
맥주 회사 Alber’s 에서는 라이트 맥주, 일반 맥주, 흑 맥주를 생산하여 유통한다. 이 기업의 시장조사팀은 성별에 따라 선호하는 맥주에 차이가 있는지 알아보고자 한다. 만약 맥주의 품종별 선호도가 성별에 독립적이라면 맥주광고는 모든 고객에 대해 획일적으로 이루어질 것이다. 반면, 품종별 선호도가 성별에 의존적이라면 세분 시장의 목표 고객에 따라 상이한 촉진 전략을 수행해야 할 것이다. 아래 분할표는 무작위 추출된 $150$ 명이 각 맥주에 대해 시음한 후 응답한 품종별 선호도이다. 맥주의 품종별 선호도는 성별에 대하여 독립적이라 볼 수 있는가?
- 귀무가설과 대립가설 설정
- $H_{0}:\quad$ 품종별 선호도(열 변수; $Y$)는 성별 선호도(행 변수; $X$)에 대하여 독립적이다.
- $H_{1}:\quad$ 품종별 선호도(열 변수; $Y$)는 성별 선호도(행 변수; $X$)에 대하여 독립적이라 볼 수 없다.
-
검정통계량 도출
\[\begin{aligned} X &= \sum_{i=1}^{k}\sum_{j=1}^{l}{Z_{i,j}^2} \quad \text{for} \quad Z_{i,j} \sim N(0,1)\\ &= \sum_{i=1}^{k}\sum_{j=1}^{l}{\left(\frac{\Omega_{i,j} - e_{i,j}}{\sqrt{e_{i,j}}}\right)^2} \sim \chi^2{(\nu)} \end{aligned}\]-
$Z_{i,j}$ : 각 셀에 대하여 관측 빈도와 기대 빈도의 표준화된 차이
\[Z_{i,j}=\frac{\Omega_{i,j} - e_{i,j}}{\sqrt{e_{i,j}}} \sim N(0,1)\] -
$\Omega_{i,j}$ : 변수 $X$ 의 $i$ 번째 카테고리와 변수 $Y$ 의 $j$ 번째 카테고리에 해당하는 관측치의 관측 빈도
품종 라이트 일반 흑 계 남성 20 40 20 80 여성 30 30 10 70 계 50 70 10 150 -
$e_{i,j}$ : $\Omega_{i,j}$ 의 기대값으로서 귀무가설이 참일 때 기대되는 빈도
\[\begin{aligned} e_{i,j} &= E\left[\Omega_{i,j} \right]\\ &=n \cdot p_{i,j}\\ &=n \cdot P(X_{i} \cap Y_{j})\\ &=n \cdot P(X_{i})P(Y_{j}) \quad \left(\because P(Y_{j} \vert X_{i})=P(Y_{j})\right) \end{aligned}\]품종 라이트 일반 흑 남성 26.67 37.33 16.00 여성 23.33 32.67 14.00 -
$\sqrt{e_{i,j}}$ : $\Omega_{i,j}$ 에 대한 표준편차의 근사값
\[\begin{aligned} Var\left[\Omega_{i,j}\right] &= n \cdot p_{i,j} \cdot (1-p_{i,j})\\ &= e_{i,j} \cdot (1-p_{i,j})\\ &\approx e_{i,j} \cdot 1 \end{aligned}\] -
$\chi^2{(\nu)}$ : 자유도가 $\nu$ 인 카이제곱 분포
- $\nu=(k-1)(l-1)$
- $k$ : 변수 $X$ 의 카테고리 갯수
- $l$ : 변수 $Y$ 의 카테고리 갯수
-
이미지 출처
- https://varify.io/en/blog/ab-testing/