Data Literacy For All (六)：用于数据比较的偏差- 优阅达大数据生态

Data Literacy For All (六)：用于数据比较的偏差

研究偏差，在数据集之间做出有意义的比较。

在数据量不断增长的时代，数据素养已成为职场竞争力的关键要素。数据素养是指探索、理解和交流数据的能力，这项技能如今已成为许多工作的先决条件，甚至是许多雇主的要求。

为了帮助你提升数据素养，Tableau 推出了 Data Literacy for All 课程，这套课程系列专为所有学习者设计，涵盖了关键主题，包括理解数据类型、基本统计概念和解释可视化等。通过学习，你将能够了解使用数据进行开发、分析和决策的基础知识。

▶ 今天，我们一起来学习 Data Literacy For All 的第 6 课：用于数据比较的偏差。你将学习如何查看数据的分布情况以及如何测量总体或样本子集的分布情况，了解如何使用具有置信区间的正态分布来估计特定结果的概率，并探索基于数据样本对总体进行推断或得出结论的过程，以便明智地做出“有根据的猜测”。

测量方差

你是否会有分散的数据？分散向你透露了数据的什么信息，你可以得出什么结论？在本模块中，你将熟悉偏差的概念，进行有意义或明智的比较，这有助于你探索、了解和传播数据。

1、方差与标准差

理解分布模块介绍了数据的形状（对称或倾斜）和中心（平均值或中位数）。现在我们将了解数据的方差或分布。

假设有两组参加测验的学生的成绩结果。两组的平均测验分数都是 70%。但是，A 组的测验分数范围从 50% 到 90%，而 B 组的测验分数范围从 40% 到 100%。B 组的分数比 A 组的分数分布更分散。

Step1：验证平均值

查看数据时，我们发现每组有 20 名测验者。如果我们计算每组所有分数的总和，我们会发现 A 组和 B 组的总分均为 140 分。

为了计算平均值，我们将每组的总数除以该组中参加测验的人数。对于每组，方程式为 140/20，每组的平均分数为 7（或 70%）。

A 组：

9 + 9 + 9 + 8 + 8 + 8 + 8 + 7 + 7 + 7 + 7 + 7 + 6 + 6 + 6 + 6 + 6 + 6 + 5 + 5 = 140

140/20 = 7

B 组：

10 + 10 + 10 + 9 + 9 + 9 + 8 + 8 + 7 + 7 + 7 + 6 + 6 + 6 + 5 + 5 + 5 + 5 + 4 + 4 = 140

140/20 = 7

Step2：开始计算方差：找出差异

现在我们已经计算了平均值，我们可以开始计算方差了。方差衡量数据的分散程度。方差为零表示所有数据值都相同。方差高表示数据点与平均值以及彼此之间的分散性很大。

为了计算方差，我们将每个数据点与平均值的平方距离相加，然后除以数据点的数量。

首先，让我们计算一下每个测验者的平均分数 7 的差值。例如，9 和 7 之间的差值为 2，6 和 7 之间的差值为 -1。

Step3：继续计算方差，求平方

为了计算方差，我们将每个数据点与平均值的平方距离相加，然后除以数据点的数量。

我们已经计算了每个测验者与平均值的差值。现在，让我们计算每个差值的平方。例如，9 和 7 之间的差值为 2，2 的平方值为 4。6 和 7 之间的差值为 -1，-1 的平方值为 1。

Step4：继续计算方差，求和

为了计算方差，我们将每个数据点与平均值的平方距离相加，然后除以数据点的数量。

我们计算了每个测验参与者与平均值的差值，并计算了每个差值的平方。现在，我们将每组的差值的平方相加：

A 组：

4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30

B 组：

9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78

Step5：完成方差计算，对总和差值取平均值

为了计算方差，我们将每个数据点与平均值的平方距离相加，然后除以数据点的数量。

我们计算了每个测验者的平均值的差异，对每个差异取了平方，并对每组的平方差异求和。

为了找到方差，我们现在将每个组的总平方除以该组中的数据点（测验者）的总数，即 20。

A 组的方差为 1.5，B 组的方差为 3.9。

A 组：

4 + 4 + 4 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 1 + 4 + 4 = 30

30/20 = 1.5

B 组：

9 + 9 + 9 + 4 + 4 + 4 + 1 + 1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4 + 4 + 4 + 9 + 9 = 78

78/20 = 3.9

Step6：计算标准差

标准差衡量的是数据集相对于其平均值的离散程度，计算方法为方差的平方根。如果数据点距离平均值较远，则数据集内的偏差较大。换句话说，数据越分散，标准差就越大。

我们已经计算了每组的方差。为了找到每组的标准差，我们计算了方差的平方根。

A 组的标准差为 1.22，B 组的标准差为 1.97。

A 组：

方差 = 1.5

1.5 的平方根 = 1.22

B 组：

方差 = 3.9

3.9 的平方根 = 1.97

Step7：重新审视数据

现在，我们可以显示哪些测验者的分数在每个组的平均分的一个标准差之内。（与平均值的差异可以是正数，也可以是负数。）

2、样本方差

如果没有全体人口的数据该怎么办？

总体和样本（或总体子集）的方差计算有所不同。对于这两者，你都要计算平均值，然后计算与平均值的差值，求所有差值的平方，然后对差值的平方求和。

计算总体方差时，如上例所示，将与平均值的平方差之和除以总体中的项目数。例如，对于 20 的总体，我们除以 20。

计算样本方差时，用与平均值的平方差之和除以样本中的项目数减一。在这种情况下，如果样本（或子集）中有 20 个项目，则除以 19。这个差值的目的是为了得到一个偏差较小的总体方差估计值。换句话说，用样本大小减一可以补偿使用样本而不是整个总体的误差。

3、示例：计算方差和标准差

现在，继续使用数字较少的示例来确定方差和标准差。想象一下你家里有五只猫。

为了简单起见，我们将家里的猫视为一个完整的群体，而不是样本。你给每只猫称重，并记录结果，如下表所示。

Step1：计算五只猫的平均体重

将所有权重加在一起： 7 + 8 + 9 + 12 + 14 = 50

将总数除以数据中的猫的数量： 50/5 = 10

10 磅是这群猫的平均体重。

Step2：计算每只猫与平均体重之差

Step3：计算平均值与每个差值的平方

Step4：计算平均值与每个差值的平方

将所有与平均体重之差的平方值相加：9 + 4 + 1 + 4 + 16 = 34

Step5：计算平均值与每个差值的平方

将结果除以数据点（或猫）的数量：34/5 = 6.8

6.8 是猫的方差。

Step6：计算平均值与每个差值的平方

现在你已经计算出了方差，通过求方差的平方根来计算标准差。（你可以使用计算器来执行此操作。）

6.8 的平方根是 2.6。因此，2.6 是标准差。

现在你可以看到哪些猫的体重在平均值（10 磅）的一个标准差（2.6 磅）以内：

变化、正态分布和不确定性

1、密度曲线

理解分布模块解释了直方图如何表示连续变量的有限样本的分布。直方图中每个条形的高度与该区间内值的频率成正比。换句话说，条形越高，样本中的数据点在该区间内的频率就越高。

例如，下方的直方图显示了 40 个人的身高分布（以英寸为单位）。显然，这是有限数量数据点的数据样本。但是，当你考虑身高连续变量的所有可能值时，你会发现它可能变化很大。我们一生中没有足够的时间来创建一个包含所有可能身高值的直方图。对于任何连续变量都是如此。

我们可以使用连续分布，而不是使用直方图来表示连续变量的所有可能值。连续分布看起来像一条平滑的曲线，也称为密度曲线。密度曲线不仅表示特定样本中的值。它表示所有可能的值，以及它们发生的概率（这些值出现的可能性）。

在查看直方图时，我们利用条形的高度来了解该区间内出现的数据点数量，或数据点在该区间内出现的频率。然而，在查看连续分布时，我们不能用这种方式来解释概率曲线的高度。

再想象一下，数据包含身高的所有可能值。询问某人身高恰好为 61 英寸的可能性是没有意义的。由于值的数量是无限的，询问 61 英寸的可能性与询问某人身高为 61.002 英寸或 60.9997 英寸的可能性一样随意。

相反，我们看的是区间内的概率。区间内的概率等于该区间内曲线下的面积。曲线下的总面积为 1 或 100%，因为所有可能值都有 100% 的概率落在曲线内的某个位置。

总而言之，思考密度曲线时需要牢记以下一些概念：

它们是连续分布，可以同时代表所有可能的数据点；
y 轴表示概率密度，表示在 x 轴上对应点附近获得值的概率；
曲线下的总面积为 100% 或 1。

2、正态分布

现在我们将集中讨论一种特殊的密度曲线，即正态分布或正态曲线。它具有对称的“钟形”形状。

当你观察直方图上绘制的连续变量分布时，你学会了描述对称分布。如果你将对称分布的直方图对折，两边将完全吻合。在对称分布中，平均值和中位数相等。

与对称分布一样，在正态分布中，形状是对称的，并且平均值等于中位数。

以下是正态分布的主要特征：

它们围绕平均值对称；
平均值与中位数相等；
正态曲线下的面积等于 1.0（或 100%）；
它们中心处较密集，尾部处较稀疏；
它们由两个参数定义：平均值和标准差。

看看上面曲线所示的正态分布。在正态分布中，68% 的数据位于平均值的 +1 和 -1 个标准差之间，95% 的数据位于平均值的 -2 和 +2 个标准差之间。曲线两侧的短“尾巴”表示极少数值（5%）会位于平均值的 -2 和 +2 个标准差之外。

标准差较小的正态分布将比标准差较大的正态分布更窄、更高。在下图中，两个正态分布的平均值都是 50。较高的曲线的标准差为 5，较短的曲线的标准差为 10。

3、正态分布的实用性

信息设计师兼教授 Alberto Cairo在他的著作《真实的艺术》中解释说：“自然界中没有任何现象遵循完美的正态分布，但许多现象都足够接近正态分布，使之成为统计学的主要工具之一。” Cairo 继续解释道：“如果你知道你正在研究的现象是正态分布的，即使不是完美的，你也可以以合理的准确度估计任何案例或分数的概率。”换句话说，我们可以使用正态曲线的属性来以合理的准确度估计案例或分数的概率。

我们经常根据样本估算总体，因为很少能测量整个总体。如果样本代表总体，则正态曲线可以成为有用的估算工具。

4、置信区间

当使用正态曲线对样本数据进行概率估计时，可以使用置信区间来得出误差幅度。置信区间是推理的一个例子。推理是根据数据样本对总体得出结论的过程。

置信区间包含特定时间比例的总体平均值。例如，如果你希望置信区间为 95%，则意味着数据中 95% 的区间将包含真实平均值。95% 置信区间是利用正态分布得出的，其中 95% 的数据在平均值的 -2 和 +2 标准差范围内。

假设你对美国 10 岁儿童的平均体重（磅）感兴趣。你显然无法对每个 10 岁儿童进行称重，因此，你取 16 个儿童样本进行称重，发现平均体重为 90 磅。这个样本平均值 90 是总体平均值的点估计值，但它无法让你清楚地了解样本平均值与总体平均值之间的差距。换句话说，你能确信美国所有 10 岁儿童的平均体重在 90 磅的 5 磅范围内吗？你根本无法知道。

但是，你可以使用计算（本文未讨论）得出 95% 的置信区间。95% 的置信区间将包括 72.85 磅至 107.15 磅之间的平均体重。

换句话说，我们有理由相信，美国 10 岁儿童的平均体重在 72.85 磅至 107.15 磅之间，因为在重复抽样并计算每个样本的 95% 置信区间后，95% 的时间里，这些区间都包含真实的平均值。但这也意味着，5% 的时间内，间隔不会包含真实平均值。

假设检验和 p 值

推理是根据数据样本对总体得出结论的过程。之所以发生这种情况，是因为在大多数情况下，获取给定总体中的所有测量值是不切实际的。换句话说，如果我们拥有某个群体所有成员的数据，我们就不需要对该群体内各群体之间的差异做出任何推断。当无法收集人群中每个成员的数据时，我们会从样本中收集数据，然后进行推断。

在其著作《避免数据陷阱》中，Data Literacy, LLC 创始人兼首席执行官、Tableau 社区成员 Ben Jones 指出，美国的人口普查每十年才进行一次，因为要统计“全国每个住宅区的每个居民”的成本非常高昂，而且非常复杂，因此这种工作难免会出现偏差和错误。然而，由于大多数组织不具备与美国联邦政府相当的财力或人力资源，因此他们只能根据数据样本做出推断，然后做出决定。

1、假设检验

许多类型的组织都会使用假设检验。例如，有些企业使用假设检验进行质量控制，以查看某种产品是否符合标准，或比较新旧销售方法。

医学研究也经常基于数据样本进行推断。例如，假设一家生物技术公司生产了一种新药来缓解某种疾病。为了确定这种药物是否有效，需要进行对照实验。由于不可能对每个患有这种疾病的人进行实验，因此会随机抽取一部分患有这种疾病的人进行测试。

在这个样本中，一组（实验组）接受治疗，另一组（对照组）接受安慰剂或糖丸，而不是药物。这些组是随机分配的，因此健康结果的任何差异都可以归因于研究干预。

为两组都设置了测试，并进行了测量。在测试两组之间的差异时，研究人员决定结果必须相差多远，以确定实验组和对照组的健康结果是否显著不同。

研究人员从样本组中收集数据并进行适当的统计测试。然后，研究人员使用这些测试结果来判断各组之间是否存在显著差异。一旦获得数据，研究人员将需要对整个人群（每个患有该疾病的人）做出推断。这称为假设检验。

假设检验的第一步是建立零假设和备择假设声明：

零假设声明该药物对健康结果不会有任何影响。它假定接受治疗的人与没有接受治疗的人结果不会有差异。
备择假设声明健康结果会有差异。它假定接受药物治疗的人将比没有接受治疗的人显示有更大改善的健康结果。

假设检验首先假定零假设为真。然后检验的目的是判断假定零假设为真时，有多大的可能性将观察到至少跟实验中一样好的结果。

换句话说，如果零假设为真时，结果一样好的概率很小，那么有证据支持备择假设。如果零假设为真时，结果一样好的概率很大，那么没有足够的证据支持备择假设，研究人员应该再次尝试新的配方。

假设检验把样本数量、测量到的差异大小以及在每个组中观察到的偏差幅度考虑在内。

假设检验的数字结果（零假设是正确的概率）叫做 p 值。p 值帮助确定是否应该抛弃零假设。在这个例子中，抛弃零假设意味着治疗将对更广泛的人群有效。p 值小表示有足够的证据抛弃零假设，支持备择假设。

不过，需要注意的是 p 值不能证实或驳斥任何东西。p 值高不能证明零假设有效，p 值低也不能证明它无效。正因为如此，需要谨慎考虑 p 值。

2、注意 p 值

研究人员曾经被训练使用 p 值 0.05 作为截断值。换句话说，人们认为 p 值 0.05 或更低就足以拒绝零假设。0.05 截断值对应于正态分布的尾部。请记住，95% 置信区间与正态分布中位于平均值 -2 或 +2 个标准差范围内的区域相匹配。0.05（或 5%）截断值对应于位于平均值 -2 或 +2 个标准差范围之外的区域。

过去几年，这种想法已经发生了改变。例如，在药物实验中，如果使用较低的截断值（有效地将置信区间提高到 95% 以上），则可能更难拒绝零假设。或者，想象一下，在使用较低的截断值后，p 值仍然足够低以拒绝零假设，但实际结果差异并不大。

出于这些原因以及其他许多原因，美国统计协会于 2016 年发表声明称：“p 值本身并不能很好地衡量模型或假设。”