Tableau 优课堂 | 第26课:趋势线应用

published: 2023-05-04

欢迎观看由优阅达制作的【优课堂】系列视频。本节课,我们来学习:趋势线应用。你可以下载本视频所用数据集同步实操。


添加趋势线

趋势,可以提供重要的分析见解。例如在示例中,需要回答:当风速增加时,发电量会提高多少?我们理解这里的关系,当风速增加时,发电量也会增加。但具体如何增加呢?

在视图中,添加趋势线非常简单。

单击“分析”窗格,将“趋势线”拖至所要的模型类型即可。移除趋势线,也一样简单。只需将其拖出视图。但此例中,我们需要趋势线,因此,要撤销刚才的操作。


趋势线选项

默认情况下,趋势线是按“区”和按“颜色”显示的。

回到“数据”窗格,如果将另一个维度(如“位置”)放入视图,我们会得到按“区”或按“散点图”生成的趋势线。

同样,如果我们要将“位置”字段拖到“标记”卡的颜色,趋势线将分成3根。

如果我们希望在颜色上看到“地点”,但视图中只呈现一个总体趋势,则可以修改趋势线。如需编辑趋势线,只需要简单地右键单击视图空白处,选择“趋势线”-“编辑趋势线”。

我们取消勾选“允许按颜色绘制趋势线”,视图将恢复为一根总体趋势线。我们还可以取消勾选“显示置信区间”,来简化视图。

在此对话框中,还可以进行多项其他操作。首先,是模型类型。这些选项,与我们最初从“分析”窗格调出趋势线时出现的选项相同。

这些选项告诉 Tableau 根据一个或两个变量的这种转换,来构建线性回归模型。线性是指系数,而不是变量的关系。

我们还可以显示“置信区间”,显示模型 95% 的置信区间;或者选择强制让 Y 节点位于 0 处。


趋势线显著性

评估趋势线是否提供了有价值的信息,这一点很重要。将鼠标悬停在趋势线上,会显示工具提示,上面有趋势线等式、P值和R平方值。

在统计学中,P 值是表示显著性概念的数字:如果 P 值<截断值(通常是0.05),即表示结果解释为显著。

较大的 P 值(范围在 0-1)之间,可能表示数据中的明显趋势纯属偶然,而不是模型中的因素造成的。

在本示例中,趋势线的 P 值很小,这是理想的。然而,要正确评估模型是否有很好的拟合度,我们需要知道的不仅仅是 P 值,还有 R 平方值。

实际上,R 值传达的意思是:模型与数据的拟合程度有多高。R 平方值的变化范围是 0-1,值越高越好。

我们可以看到,示例中的 R 平方值很高,达到了 0.956,这表示我们的模型与数据有良好的拟合度(R 平方值为 1,表示完美拟合)。

但是请注意,如果你的 R 平方值高得不可思议,例如 0.999,那么你的模型可能具有误导性;人为的高R平方值的一个常见标志是低自由度,或者具有过多的观测点。


趋势线残差

为了确定趋势线是否准确表示了数据,只有一个很小的 P 值或很大的 R 平方值还不够。我们的数据点,不会全部落在预测的趋势线上。

从给定点,到其预测值的距离,就是误差,或者说是残差。在正确的模型中,如果对照解释变量进行绘制,这些残差应该是围绕零线随机正态分布的。

如果此残差图不是正态分布,那就表示存在数值与预测值不符的趋势,这意味着模型不是最佳模型。

若要获得带趋势线视图的残差值,请转至菜单栏的“工作表”,选择“导出”-“数据”。

此时系统将提示我们保存文件。唯一的格式选项是 “Microsoft Access” ,我们将此文件命名为“趋势线残差”,然后单击保存。

在弹出的对话框中,我们勾选“导出后连接”,以便使用 Tableau 连接该文件。此数据源包含了来自散点图的原始数据,以及预测值(来自趋势线)和残差。

残差图构造为,解释变量为横轴(即“风速”字段拖到“列”功能区),残差在纵轴(“残差”字段拖到“行”)。然后,将“风车”字段拖到“标记”卡的详细信息。

请记住,好的模型,在零周围呈正态分布。很明显,我们目前的模型,在根据风速值预测发电量方面不是很好。虽然趋势线有不错的 P 值和 R 平方值,残差图却很糟糕。



以上就是关于「趋势线应用」的全部内容。感谢观看本视频,更多 Tableau 学习资源,请关注微信公众号“优阅达大数据生态”。


更多相关信息,请访问专题页: Tableau使用入门教程