agentmentoragentmentor

第 03 节:你手里的数据是总体,还是样本?

本节 objectives:

  • 能区分总体、样本、参数和统计量
  • 能判断标准差公式里该除以 n 还是 n-1
  • 能解释样本标准差为什么通常比同分子除以 n 更大

先修: 方差与标准差 | 上一节: << 02 | 下一节: 04 >>

同一组数字,问题不同,公式也不同

如果你拿到了全班 30 个人的分数,要描述“这个班”的离散程度,它就是总体。若你只抽了 5 个人,想估计整个学校的离散程度,它就是样本。统计教材通常把总体数值称为 parameter,把样本算出来的数值称为 statistic1

讲解

总体标准差:描述完整集合

总体方差把平方偏差之和除以 N。这里的 N 是总体大小。你不是在估计未知对象,而是在描述手上完整的对象。

样本标准差:用一小部分估计更大的整体

样本方差常把平方偏差之和除以 n - 1。直觉上,样本平均数是从样本自己算出来的,数据会天然围着这个样本平均数近一点;除以 n - 1 是常见的校正方式,用来让样本方差成为总体方差的无偏估计21

不要把符号当重点

你会看到总体标准差常写作希腊字母 sigma,样本标准差写作 s。真正重要的问题只有一个:我是在描述完整数据,还是用样本估计更大总体?

跟我做一遍(worked example)

题目:数据 8, 10, 12。先把它当总体,再把它当样本,比较方差和标准差。

  1. 平均数:10。
  2. 偏差:-2、0、2。
  3. 平方偏差:4、0、4,总和 8。
  4. 总体方差:8 / 3 ≈ 2.67;总体标准差 sqrt(2.67) ≈ 1.63
  5. 样本方差:8 / (3 - 1) = 4;样本标准差 sqrt(4) = 2

同一组数,样本标准差更大,因为分母更小。它不是“算错了”,而是回答另一个问题:用这 3 个数估计更大总体的离散程度。

换你补全(faded example)

数据 4, 6, 8,平均数为 6,平方偏差之和为 8。

问题分母方差标准差
把 3 个数当完整总体____________
把 3 个数当样本____________

答案:总体分母 3,方差 8/3 ≈ 2.67,标准差 ≈1.63;样本分母 2,方差 4,标准差 2。

小结 + 通向下一节

总体标准差描述完整集合;样本标准差用样本估计总体,常除以 n-1。下一节进入正态分布:一类可以用平均数和标准差很好描述的钟形分布。

Footnotes

  1. OpenStax Introductory Statistics 2e: Definitions of Statistics, Probability, and Key Terms — https://openstax.org/books/introductory-statistics-2e/pages/1-1-definitions-of-statistics-probability-and-key-terms 2

  2. OpenStax Introductory Statistics 2e: Standard Deviation in Measures of the Spread — https://openstax.org/books/introductory-statistics-2e/pages/2-7-measures-of-the-spread-of-the-data

练习

练习 · Level 1:判断公式

下面每个场景写“总体”或“样本”:

  1. 你拿到了公司所有 12 名员工本月通勤时间,只想描述这 12 人。
  2. 你抽查 12 名员工,想估计全公司 1200 人的通勤波动。
  3. 你下载了某城市过去 365 天每天最高温,想描述这一年的波动。
提示 1

问自己“我要不要推断没看见的更大集合?”

自评
练习 · Level 2:常见错误剖析

错误说法:“样本标准差除以 n-1 是为了让结果看起来更大。”请改写成准确说法。

提示 1

把“故意放大”换成“校正估计偏差”。

看参考答案

样本均值来自样本自身,会低估相对于真实总体均值的离散程度;除以 n-1 是常用校正,使样本方差在重复抽样意义上对总体方差无偏。