agentmentoragentmentor

第 01 节:先别算公式:一组数到底散不散?

本节 objectives:

  • 能用数轴比较两组数据的离散程度
  • 能计算极差,并说出它为什么容易被极端值影响
  • 能用“离平均数有多远”描述离散程度的核心想法

先修: 平均数 | 上一节: (无) | 下一节: 02 >>

两组平均数一样,风险可能完全不同

两家店一周每天都卖出平均 10 杯咖啡。A 店每天大约都是 9、10、11 杯;B 店有几天 2 杯,有几天 18 杯。只看平均数,它们一样;看经营风险,它们很不一样。

统计里的“离散程度”就是给这种差别一个名字。OpenStax 把 spread 描述为数据彼此相隔多远,常见度量包括极差、方差和标准差1

讲解

第一步:把数据放到数轴上

先看两组数:

text
A: 8, 9, 10, 11, 12B: 2, 6, 10, 14, 18

两组平均数都是 10。A 的点挤在 10 附近;B 的点从 2 拉到 18。离散程度不是中心在哪,而是数据围着中心散得多开。

极差是最粗的尺

极差 = 最大值 - 最小值。A 的极差是 12 - 8 = 4;B 的极差是 18 - 2 = 16。极差很直观,但只看两个端点,其他数据怎么分布完全不管1

离平均数的距离才是下一步

如果中心是平均数 10,那么 A 到平均数的距离是 2、1、0、1、2;B 是 8、4、0、4、8。后者明显更散。标准差要做的事,就是把这些“离平均数的距离”合成一个代表性数字2

跟我做一遍(worked example)

题目:比较两组测验分数的离散程度。

text
C: 70, 75, 80, 85, 90D: 50, 65, 80, 95, 110
  1. 算平均数:C 的和是 400,平均数 80;D 的和也是 400,平均数 80。
  2. 算极差:C 是 90 - 70 = 20;D 是 110 - 50 = 60。
  3. 看离平均数距离:C 是 10、5、0、5、10;D 是 30、15、0、15、30。
  4. 判断:D 的数据更散。它的中心不变,但每个点离中心更远。

这里还没用标准差公式,但已经抓住了公式背后的直觉:围绕平均数的典型距离。

换你补全(faded example)

比较两组等待时间,单位是分钟。

text
E: 4, 5, 6, 7, 8F: 1, 3, 6, 9, 11
步骤EF
平均数________
极差________
离平均数最远的点距离________
哪组更散________

答案:E 平均数 6,极差 4,最远距离 2;F 平均数 6,极差 10,最远距离 5。F 更散。

小结 + 通向下一节

这一节先把“散”看出来:平均数是中心,离散程度是点围着中心散开的宽度。下一节把这些离中心的距离压成一个数:方差和标准差。

Footnotes

  1. OpenStax Introductory Statistics 2e: Measures of the Spread of the Data — https://openstax.org/books/introductory-statistics-2e/pages/2-7-measures-of-the-spread-of-the-data 2

  2. Khan Academy: Variance and standard deviation of a population — https://www.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/variance-standard-deviation-population/a/population-standard-deviation

练习

练习 · Level 1:看图前的手算

在纸上写下两组数据:3, 4, 5, 6, 71, 2, 5, 8, 9。计算它们的平均数和极差,再用一句话判断哪组更散。

提示 1

先不要想标准差,先看最大值、最小值和中心。

自评
练习 · Level 2:常见错误剖析

有人说:“两组平均数一样,所以稳定性一样。”请用本节的词反驳这句话。

提示 1

用 A/B 或 C/D 的例子作为证据。

看参考答案

平均数只描述中心;离散程度描述数据围绕中心散开的幅度;平均数相同的数据可以有很不一样的极差和离均距离。