第 03 节:你手里的数据是总体,还是样本?
本节 objectives:
- 能区分总体、样本、参数和统计量
- 能判断标准差公式里该除以 n 还是 n-1
- 能解释样本标准差为什么通常比同分子除以 n 更大
同一组数字,问题不同,公式也不同
如果你拿到了全班 30 个人的分数,要描述“这个班”的离散程度,它就是总体。若你只抽了 5 个人,想估计整个学校的离散程度,它就是样本。统计教材通常把总体数值称为 parameter,把样本算出来的数值称为 statistic1。
讲解
总体标准差:描述完整集合
总体方差把平方偏差之和除以 N。这里的 N 是总体大小。你不是在估计未知对象,而是在描述手上完整的对象。
样本标准差:用一小部分估计更大的整体
样本方差常把平方偏差之和除以 n - 1。直觉上,样本平均数是从样本自己算出来的,数据会天然围着这个样本平均数近一点;除以 n - 1 是常见的校正方式,用来让样本方差成为总体方差的无偏估计21。
不要把符号当重点
你会看到总体标准差常写作希腊字母 sigma,样本标准差写作 s。真正重要的问题只有一个:我是在描述完整数据,还是用样本估计更大总体?
跟我做一遍(worked example)
题目:数据 8, 10, 12。先把它当总体,再把它当样本,比较方差和标准差。
- 平均数:10。
- 偏差:-2、0、2。
- 平方偏差:4、0、4,总和 8。
- 总体方差:
8 / 3 ≈ 2.67;总体标准差sqrt(2.67) ≈ 1.63。 - 样本方差:
8 / (3 - 1) = 4;样本标准差sqrt(4) = 2。
同一组数,样本标准差更大,因为分母更小。它不是“算错了”,而是回答另一个问题:用这 3 个数估计更大总体的离散程度。
换你补全(faded example)
数据 4, 6, 8,平均数为 6,平方偏差之和为 8。
答案:总体分母 3,方差 8/3 ≈ 2.67,标准差 ≈1.63;样本分母 2,方差 4,标准差 2。
小结 + 通向下一节
总体标准差描述完整集合;样本标准差用样本估计总体,常除以 n-1。下一节进入正态分布:一类可以用平均数和标准差很好描述的钟形分布。
Footnotes
-
OpenStax Introductory Statistics 2e: Definitions of Statistics, Probability, and Key Terms — https://openstax.org/books/introductory-statistics-2e/pages/1-1-definitions-of-statistics-probability-and-key-terms ↩ ↩2
-
OpenStax Introductory Statistics 2e: Standard Deviation in Measures of the Spread — https://openstax.org/books/introductory-statistics-2e/pages/2-7-measures-of-the-spread-of-the-data ↩
练习
下面每个场景写“总体”或“样本”:
- 你拿到了公司所有 12 名员工本月通勤时间,只想描述这 12 人。
- 你抽查 12 名员工,想估计全公司 1200 人的通勤波动。
- 你下载了某城市过去 365 天每天最高温,想描述这一年的波动。
提示 1
问自己“我要不要推断没看见的更大集合?”
错误说法:“样本标准差除以 n-1 是为了让结果看起来更大。”请改写成准确说法。
提示 1
把“故意放大”换成“校正估计偏差”。
看参考答案
样本均值来自样本自身,会低估相对于真实总体均值的离散程度;除以 n-1 是常用校正,使样本方差在重复抽样意义上对总体方差无偏。