第 03 节:你手里的数据是总体，还是样本？

本节 objectives:

能区分总体、样本、参数和统计量

能判断标准差公式里该除以 n 还是 n-1

能解释样本标准差为什么通常比同分子除以 n 更大

先修: 方差与标准差｜上一节: << 02 ｜下一节: 04 >>

同一组数字，问题不同，公式也不同

如果你拿到了全班 30 个人的分数，要描述“这个班”的离散程度，它就是总体。若你只抽了 5 个人，想估计整个学校的离散程度，它就是样本。统计教材通常把总体数值称为 parameter，把样本算出来的数值称为 statistic¹。

总体方差把平方偏差之和除以 N。这里的 N 是总体大小。你不是在估计未知对象，而是在描述手上完整的对象。

样本方差常把平方偏差之和除以 n - 1。直觉上，样本平均数是从样本自己算出来的，数据会天然围着这个样本平均数近一点；除以 n - 1 是常见的校正方式，用来让样本方差成为总体方差的无偏估计²¹。

你会看到总体标准差常写作希腊字母 sigma，样本标准差写作 s。真正重要的问题只有一个：我是在描述完整数据，还是用样本估计更大总体？

题目：数据 8, 10, 12。先把它当总体，再把它当样本，比较方差和标准差。

同一组数，样本标准差更大，因为分母更小。它不是“算错了”，而是回答另一个问题：用这 3 个数估计更大总体的离散程度。

数据 4, 6, 8，平均数为 6，平方偏差之和为 8。

问题	分母	方差	标准差
把 3 个数当完整总体	____	____	____
把 3 个数当样本	____	____	____

答案：总体分母 3，方差 8/3 ≈ 2.67，标准差 ≈1.63；样本分母 2，方差 4，标准差 2。

总体标准差描述完整集合；样本标准差用样本估计总体，常除以 n-1。下一节进入正态分布：一类可以用平均数和标准差很好描述的钟形分布。

练习 · Level 1：判断公式

下面每个场景写“总体”或“样本”：

提示 1

问自己“我要不要推断没看见的更大集合？”

自评

1 总体2 样本3 如果研究对象就是这一年，则总体。

练习 · Level 2：常见错误剖析

错误说法：“样本标准差除以 n-1 是为了让结果看起来更大。”请改写成准确说法。

提示 1

把“故意放大”换成“校正估计偏差”。

看参考答案

样本均值来自样本自身，会低估相对于真实总体均值的离散程度；除以 n-1 是常用校正，使样本方差在重复抽样意义上对总体方差无偏。