Tableau 优课堂 | 第84课:Tableau Prep 并集步骤

published: 2024-04-29

欢迎观看由优阅达制作的【优课堂】系列视频。本节课,我们来学习: Tableau Prep 并集步骤。


示例场景介绍

在 Tableau Prep 中,如果有两个以上的表,它们的数据结构相匹配(即在相同的列上,字段的名称和数据类型相同),那么,执行合并可以组合来自多个表的数据。

例如,如果已有 2014 年超市数据,想要追加其它年份的数据,就可以通过并集实现。


通配符并集

如果希望合并后的表具有完全相同的数据结构,则可通过“通配符并集”在输入步骤中执行合并,前提是使用平面文件(如 Excel 和 CSV 等)。

具体的操作方法是,选中名为“2014”的输入步骤,在下方的配置窗格中单击“多个文件”选项卡,然后选择“通配符并集”。

通配符并集要求所有文件具有相同的数据格式。例如,所有文件都是Excel格式。通过标识一个模式来定义要包含的内容,可以自动地统一多个表。请注意,不能对不匹配的带有通配符并集的字段执行合并。

  • 搜索范围:选择要搜索的文件夹

  • 包含子文件夹:勾选以搜索整个文件夹中的所有数据表

  • 文件:设置是否包含或排除匹配模式的文件

  • 匹配模式:在指定模式中设置文件名的相同部分,不同部分以 * 号代替

在本例中,我们想在同一个文件夹中找到以 “20” 为开头的任何文件,则需在“匹配模式”中输入:20 *。当单击回车键应用这个匹配模式时,可以在下方看到4个工作表,确认无误后,可单击“应用”按钮。

请注意,无论通配符并集的定义范围如何,Tableau Prep 都会自动生成两个新字段“Table Names”和“File Paths”,并将其添加到字段列表中。

Table Names 用于表示表名或工作表选项卡,File Paths则表示原始文件路径,这有助于我们从并集结果中了解数据的来源。


添加并集步骤

我们再来看一下如何在输入步骤外添加并集操作。首先,向现有流程中添加并集步骤,至少需要两个输入步骤才能联合起来。要在流程中添加并集,有两种方法:

第一种是从现有流程的“+”号菜单中添加并集,选择“添加并集”并将一个步骤拖到其中。

在本例中,我们点击“2015”输入步骤后面的“+”号,选择并集,随即新增一个并集步骤。然后,拖动“2016”输入步骤至并集步骤的添加区域上即可。我们可以用同样的方法将其他年份的数据添加到并集中。

另一种方法是将一个步骤拖到另一个步骤上,即可选择是否生成新的并集步骤。比如,拖动“2017”到“2016”输入步骤上,将出现一个悬浮的并集选项。放开鼠标,即可产生一个新的并集步骤。这里我们先撤销一下。

请注意,相比于联接步骤只支持两个表,并集步骤可以由许多表组成。只需将一个表拖到另一个表的并集上,选择“添加”区域,即可在流程中添加新的并集步骤。


并集概要窗格

并集步骤被选中的情况下,下面的概要窗格将自动打开。

可以看到,窗格左侧是关于并集的概要情况,它显示了输入和生成的字段。在本例的并集过程中,有两个不匹配的字段:“国家名称”和“国家”,分别查看字段值后发现它们应该属于同一列。

为了方便查看和修改,可以在右侧字段卡片的顶部菜单栏中勾选“仅显示不匹配字段”。此时,就可以单独看到这两个字段了。

如需合并字段,只需将一张卡片拖到另一张上即可。现在,来自不同表的所有字段都匹配成功了。

取消勾选“仅显示不匹配字段”后,字段卡片会再次显示完整的数据结果。其中,除了 Table Names 字段外,每个字段卡片中都显示了 3 个颜色条,以表示并集结果来源于 3 份数据表。

尽管 Tableau Names 便于我们了解数据来自何处,但它属于原始表名和文件路径的冗余信息,如果对后续分析没有太大用处,我们可以对其进行移除。



以上就是关于「Tableau Prep 并集步骤」的全部内容。感谢观看本视频,更多 Tableau 学习资源,请持续关注优阅达大数据生态。


更多相关信息,请访问专题页: Tableau使用入门教程