第 01 节:先别算公式:一组数到底散不散?
本节 objectives:
- 能用数轴比较两组数据的离散程度
- 能计算极差,并说出它为什么容易被极端值影响
- 能用“离平均数有多远”描述离散程度的核心想法
先修: 平均数 | 上一节: (无) | 下一节: 02 >>
两组平均数一样,风险可能完全不同
两家店一周每天都卖出平均 10 杯咖啡。A 店每天大约都是 9、10、11 杯;B 店有几天 2 杯,有几天 18 杯。只看平均数,它们一样;看经营风险,它们很不一样。
统计里的“离散程度”就是给这种差别一个名字。OpenStax 把 spread 描述为数据彼此相隔多远,常见度量包括极差、方差和标准差1。
讲解
第一步:把数据放到数轴上
先看两组数:
两组平均数都是 10。A 的点挤在 10 附近;B 的点从 2 拉到 18。离散程度不是中心在哪,而是数据围着中心散得多开。
极差是最粗的尺
极差 = 最大值 - 最小值。A 的极差是 12 - 8 = 4;B 的极差是 18 - 2 = 16。极差很直观,但只看两个端点,其他数据怎么分布完全不管1。
离平均数的距离才是下一步
如果中心是平均数 10,那么 A 到平均数的距离是 2、1、0、1、2;B 是 8、4、0、4、8。后者明显更散。标准差要做的事,就是把这些“离平均数的距离”合成一个代表性数字2。
跟我做一遍(worked example)
题目:比较两组测验分数的离散程度。
- 算平均数:C 的和是 400,平均数 80;D 的和也是 400,平均数 80。
- 算极差:C 是 90 - 70 = 20;D 是 110 - 50 = 60。
- 看离平均数距离:C 是 10、5、0、5、10;D 是 30、15、0、15、30。
- 判断:D 的数据更散。它的中心不变,但每个点离中心更远。
这里还没用标准差公式,但已经抓住了公式背后的直觉:围绕平均数的典型距离。
换你补全(faded example)
比较两组等待时间,单位是分钟。
答案:E 平均数 6,极差 4,最远距离 2;F 平均数 6,极差 10,最远距离 5。F 更散。
小结 + 通向下一节
这一节先把“散”看出来:平均数是中心,离散程度是点围着中心散开的宽度。下一节把这些离中心的距离压成一个数:方差和标准差。
Footnotes
-
OpenStax Introductory Statistics 2e: Measures of the Spread of the Data — https://openstax.org/books/introductory-statistics-2e/pages/2-7-measures-of-the-spread-of-the-data ↩ ↩2
-
Khan Academy: Variance and standard deviation of a population — https://www.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/variance-standard-deviation-population/a/population-standard-deviation ↩
练习
在纸上写下两组数据:3, 4, 5, 6, 7 和 1, 2, 5, 8, 9。计算它们的平均数和极差,再用一句话判断哪组更散。
提示 1
先不要想标准差,先看最大值、最小值和中心。
有人说:“两组平均数一样,所以稳定性一样。”请用本节的词反驳这句话。
提示 1
用 A/B 或 C/D 的例子作为证据。
看参考答案
平均数只描述中心;离散程度描述数据围绕中心散开的幅度;平均数相同的数据可以有很不一样的极差和离均距离。