社区
博客
数据分析必修课:如何透视可视化图表中的“陷阱” ?
掌握这份“排雷”指南,让你创建更准确的可视化图表,获取更有效的数据洞察!

在如今数据驱动的世界中,图表无处不在。与纯粹的数字表格相比,可视化图表能更直观地帮助我们理解数据、进行比较并发现趋势,从而做出更明智的决策。

然而,图表并不总是可靠的。正如文字表达也有歧义一样,图表或许也在以看似科学的方式传递错误信息。

因此,学会识别误导性图表是一项重要的技能,不仅能帮助我们做出正确判断,还能确保自己制作的图表符合更高标准。

为了帮助大家有效审查图表,Tableau 高级数据传播者 Andy Cotgreave 提出了一个简单易记的 S.C.A.M. 检查清单。今天,我们就来探索一下应该如何利用这个清单自信地解读图表!图片


01 了解数据来源(Source)

正如数据可视化专家 Alberto Cairo 所说:对任何没有明确标注或链接数据来源的图表要保持警惕。这意味着,无论是社交媒体、新闻报道还是商业报告中的图表,了解它们的数据来源至关重要。

因此,在评估图表的可信度时,我们可从几个方面进行思考:

  • 数据来源于哪里?

  • 数据是如何收集的?

  • 是谁制作的图表?是否有资金支持?

  • 数据样本有多大?(例如,若是调查数据,参与调查的人数是多少?)

除了数据本身,还应仔细查看元数据(关于数据的信息),例如数据的采集时间、方式和目的等。对于汇总数据,需评估汇总方式是否恰当。例如,对于偏态分布的数据(如工资数据),中位数通常比平均值更能反映典型值。

以 NBA 球员薪资分布图为例,由于将数据根据不同范围进行了分组,因此可以明显看到中位数(380 万美元)更能代表“典型值”,而平均值(720 万美元)则高估了数据,缺乏准确性。


02 图表设计(Chart Design)审查

设计优秀的图表有助于准确传递信息。以下问题有助于我们判断图表是否设计合理:

🔎 图表类型是否适合呈现你的数据?

选择合适的图表类型,需要根据数据的性质区分定量变量和定性变量。

  • 定量变量(数值型数据)可以用数值测量。例如,一组中的项目数量或高度(以英寸为单位)。当在坐标轴上展示定量变量时,刻度通常是等间隔的(如 0、5、10 等)。适合用柱状图和饼图等图表呈现。

  • 定性变量(类别型数据)无法用数值测量。例如,最喜欢的食物、电影类型或销售区域。当展示定性变量时,坐标轴会显示类别,而非等间隔的刻度。适合用散点图、折线图、直方图、箱线图和柱状图等图表呈现。

所以,我们需要警惕使用与数据类型不匹配的图表类型。例如,有些图表可能会用折线图(通常用于展示定量数据)来呈现定性数据,这可能会产生误导。

如下示例,左侧用折线图展示行业分类(农业、艺术、服装等)会让人误以为这些类别之间存在连续性。然而,仔细观察坐标轴发现:使用折线连接它们毫无意义。此时,右侧的柱状图是更合适的选择。

🔎 是否存在可能误导或分散注意力的设计?

虽然具有创意或吸引力的设计能够抓人眼球,但有时也可能分散观众对数据的正确解读。

例如,象形图通过符号和图像传递信息,尽管看起来更有视觉吸引力,但若未遵循设计最佳实践,可能会误导观众,尤其是在展示大小差异时。

在下方示例图中,数据 A = 100,B = 300。但图表让观众更容易根据“面积”而不是“高度”来解读两者差异。这种设计让人误以为 B 是 A 的 9 倍,而实际上只相差 3 倍。

这违反了比例墨水原则(Proportional Ink Principle),即用阴影区域表示数值时,该区域的面积应该与数值成正比。


03 全方位查验坐标轴(Axes)

在大多数图表中,坐标轴构成了数据展示的结构,通常包括水平的 x 轴和垂直的 y 轴。要识别图表是否存在误导性,关键在于判断坐标轴是否被正确使用。

🔎 图表的轴刻度和间隔是否合理?

正如之前提到的,均匀间隔对于展示正确的图表类型非常重要。此外,也需仔细检查刻度和间隔是否适当。如果数据中缺少某些值,可能会导致间隔不均,从而引发错误解读。

如下图示例,两张折线图展示的是相同的数据,但左侧图表缺少 2016 年、2017 年和 2018 年的数据点。相比之下,包含这些年份的右侧图表呈现出完全不同的趋势。因此,遗漏关键数据点会对解读产生重大影响。

🔎 坐标轴是否从零开始?

对于柱状图来说,基线必须从 0 开始(即柱状图底部值为 0 )。如果柱状图的坐标轴没有从 0 开始,可能会让数据之间的差异显得远比实际情况更大。

如下示例,两张柱状图展示了相同的数据。左图的 x 轴并未从 0 开始,而是从较高的值(约为 39 万美元)开始,且未明确标注。这让人误以为两个地区的销售额差异非常显著。右图则从 0 开始,通过更直观的基线展示了两者的真实差异。

🔎 是否使用了多个坐标轴?

在某些情况下,多坐标轴(如双 y 轴)是有合理用途的。例如,可通过两个 y 轴分别用不同的单位(如英寸与厘米,或华氏度与摄氏度)展示相同的数据点。然而,在很多情况下,多坐标轴容易产生误导。

如下图示例,乍看之下,这个双 y 轴折线图似乎表明美洲的 GDP 等于甚至超过了全球 GDP!这是因为两个 y 轴的刻度不一致,导致了错误解读。

那么,应该如何调整呢?我们将相同单位的数据使用单个 y 轴展示,可以更准确地比较世界 GDP 和美洲 GDP 的差异。如上图的右侧图表,重新绘制后的单坐标轴真实反映了美洲 GDP 和全球 GDP 之间的关系。

可见,当需要展示不同单位的两组数据时,最好的方法是绘制两个单独的图表,而非双轴。

下图示例来自 Jon Schwabish 关于双坐标轴的讨论。两张双轴折线图展示了相同的数据,但第二个坐标轴的范围经过调整后,呈现出完全不同的趋势。这种操控会误导观众。

正确的做法是将两组数据绘制在垂直排列的两个独立图表中,以便读者准确比较每百万英里交通事故死亡率和每人行驶里程。


04 批判性地解读图表信息(Message)

即使图表的数据来源准确、设计合理,也可能因解读不当而产生误导。关键在于培养批判性思维,花时间仔细评估图表中展示的数据及其解读。

🔎 解读图表中使用了哪些比较?

数据可视化专家 Kathy Rowell 提出:“与什么参照物进行比较?”是数据分析和可视化中至关重要的问题。

图表的作用在于帮助我们进行有意义的比较,从而回答正确的问题并做出明智决策。因此,在解读图表时,要考虑其上下文,并确保比较对象合理。即使数据本身值得信赖,若未深入思考图表是否针对正确的问题,也可能得出错误的结论。

Alberto Cairo 的著作《图表如何撒谎:更聪明地利用视觉信息》中,有一个分析美国失业率的柱状图,显示 2017 年 7 月至 8 月期间失业率上升,这可能会让人误以为市场突然恶化。

但是,当你把时间维度拉长到全年或多年来看,则会得出完全不同的结论。

如下图,尽管 2017 年 7 月到 8 月失业率有所上升,但从长期趋势来看,失业率实际上是逐步下降的,中间伴有一些月度波动。这表明,只有结合上下文,才能呈现出完整且准确的故事。

🔎 解读图表是否符合数据分析的结果?

有时候,即便图表设计和分析方法合理,其解读也可能存在问题。例如,常见的一种误解是将相关性当作因果性。实际上,相关性只表明变量之间的关联强度,但并不解释其因果关系。

比如,我们发现冰淇淋的销量与太阳眼镜的销量之间存在正相关,但这并不意味着买冰淇淋是导致太阳眼镜销量上升的原因,反之亦然。真正的原因可能是天气炎热,促使两者销量增加。

由此可见,解读数据时必须谨慎区分相关性和因果性。

🔎 语言表达是否准确?

除此之外,我们还需关注图表中作者使用的文字描述。比如:

  • 标题和副标题是否准确传达了图表内容?

  • 标签是否使用包容性语言,避免对人群数据进行刻板描述?

  • 是否带有情绪化色彩?如果用词带有偏见,可能会影响观众对数据的解读。

最后,还需考虑图表的制作是否具有包容性和公平性。分析和呈现方式中可能存在潜在偏见,解读时要留意这一点。


多多实践,树立信心,不吝分享

在信息爆炸时代,解读图表确实是一项需要不断练习的技能。

通过遵循 S.C.A.M. 指南,你一定能更有信心地解读图表并识别潜在问题。此外,与他人分享你的分析和见解,不仅能提升团队决策质量,还能帮助减少 Tableau 社区中的错误信息。


获取最新的数据新闻

注册以获取 优阅达 Data Blog 的快讯、见解和研究