Random Sample
Based on the following lectures
(1) “Statistics (2018-1)” by Prof. Sang Ah Lee, Dept. of Economics, College of Economics & Commerce, Kookmin Univ.
(2) "Statistical Models and Application (2024-1)" by Prof. Yeo Jin Chung, Dept. of Data Science, The Grad. School, Kookmin Univ.
Statistical Inference
-
통계적 추론(Statistical Inference): 무작위추출한 표본(모집단 부분집합)의 측정치를 모집단의 측정치에 대한 추정치로 사용하여, 표본을 통해 모집단의 성격을 추정하는 작업
-
모집단(Population): 연구자가 관심을 가지는 전체 대상 집합
\[\begin{aligned} \mathcal{X} &:=\left\{X_{i}\right\}_{i=1}^{N} \end{aligned}\] -
표본(Sample): 모집단에서 일부를 추출한 부분 집합
\[\begin{aligned} \mathbf{x} &:=\left\{x_{i}\right\}_{i=1}^{n},\quad \mathbf{x} \subseteq \mathcal{X} \end{aligned}\]
-
- 표본오차(Sampling Error) : 모집단의 모수와 표본의 통계량 간 차이로서 통계적 추론에서 최소화하고자 하는 대상
- 응답오차(Response Error): 응답자의 응답 거부 혹은 잘못된 응답으로 인해 발생하는 오차
- 측정오차(Measurement Error): 데이터의 틀린 측정이나 기입으로 인해 발생하는 오차
- 표본선택편향(Sample Selection Bias): 모집단의 각 관측치들이 표본에 포함될 확률이 서로 다른 경우
- 표본오차(Sampling Error): 응답오차, 측정오차, 표본선택편향이 해결되었음에도 발생하는 실제값과 예측값의 차이
-
무작위 표본(Random Sample): 모집단의 각 개체가 표본으로 선택될 확률이 동일하도록 무작위로 추출된 표본
\[\begin{aligned} \{X_1, X_2, \cdots, X_n\} \end{aligned}\]-
동등한 선택 확률(Equal Probability of Selection): 모집단의 각 개체가 표본의 원소로서 선택될 확률이 모두 같고,
\[P(X_{i}=x_{i})=\frac{1}{N}\] -
모집단 대표성(Representativeness of the Sample): 원소 $X_1, X_2, \cdots, X_n$ 이 모두 모집단의 분포를 따르는 확률변수이고,
\[\begin{aligned} \mathbb{E}\left[X_{i}\right] &=\mu\\ \mathrm{Var}\left[X_{i}\right] &=\sigma^{2} \end{aligned}\] -
표본 간 독립성(Independence): 원소 $X_1, X_2, \cdots, X_n$ 이 모두 통계적으로 독립인 경우
\[P(X_{j} \mid X_{i \ne j}) = P(X_{j})\]
-
Parameter
-
모수(Parameter): 모집단(Population)의 특성을 수치로 요약한 값
-
모평균(Population Mean):
\[\begin{aligned} \mu &:= \frac{1}{N}(X_{1}+X_{2}+\cdots+X_{N})\\ &:= \frac{1}{N}\sum_{i=1}^{N}{X_{i}} \end{aligned}\] -
모분산(Population Variance):
\[\begin{aligned} \sigma^2 &:= \frac{1}{N}\left[(X_{1}-\mu)^{2} + (X_{2}-\mu)^{2} + \cdots + (X_{N}-\mu)^{2}\right]\\ &:= \frac{1}{N}\sum_{i=1}^{N}{(X_{i}-\mu)^{2}} \end{aligned}\]
-
-
통계량(Statistic): 표본(Sample)의 특성을 수치로 요약한 값
-
표본평균(Sample Mean):
\[\begin{aligned} \overline{x} &:= \frac{1}{n}(x_{1}+x_{2}+\cdots+x_{n})\\ &:= \frac{1}{n}\sum_{i=1}^{n}{x_{i}} \end{aligned}\] -
표본분산(Sample Variance):
\[\begin{aligned} s^{2} &:= \frac{1}{\nu}\left[(x_{1}-\overline{x})^{2} + (x_{2}-\overline{x})^{2} + \cdots + (x_{n}-\overline{x})^{2}\right]\\ &:= \frac{1}{\nu}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2} \end{aligned}\]
-
-
note
자유도(Degree of Freedom; $\nu$) : 주어진 자료 내에서 독립적으로 변할 수 있는 확률변수의 수어떠한 자료에 대하여 그 기술통계량이 주어지는 경우, 특정 관측치의 정보가 불분명하더라도 해당 관측치가 취할 수 있는 값은 제한되어 있음. 표본분산 $s^2$ 을 계산하기 위해서는 표본평균 $\overline{x}$ 을 먼저 계산해야 하므로, 표본분산 계산 시 동원되는 관측치 중 독립적으로 변할 수 있는 관측치의 수는 $n-1$ 임. 이 경우 관측치 수 $n$ 이 아니라 자유도 $\nu=n-1$ 로 나눈 값이 모분산 $\sigma^2$ 의 비편향 추정량이 됨.