全部 基础入门

Alteryx 微课堂 | 第9课:连接数据

发布于: 2023-11-03

本节课我们一起来学习:连接数据,了解如何使用数据连接将两个不同数据集中的行相互关联,实现将具有相同行但唯一列的多个数据源组合在一起。

为便于大家更好地跟随操作,接下来,我把视频的内容用图文形式进行拆解。


一、连接数据

几乎每个分析过程都需要混合在不同数据源中发现的数据,将信息连接在一起,以产生深刻而有影响力的分析见解。定义数据源之间的关系将数据连接在一起,一旦建立了这种关系,一个输入中的一行数据就可以与另一个输入中的一行数据相关联。

在纽约市调查树木的三个输入数据集被连接成一个单一的数据流。健康状况良好且至少 10 米高的树木已从数据集中过滤掉。然而,在继续进行任何进一步分析之前,阐明列 [市镇代码] 中值的含义将会有所帮助,该列包含数字 1 到 5。幸运的是,文本输入工具中的查找表包含与每个市镇代码相关的 [Name] 和 [Population]。将这两个数据流连接在一起,用有关种植树木所在市镇的附加信息来丰富树木数据。

1、连接工具输入
从收藏夹工具调色板中拖动连接工具并将其拖放到画布上。连接工具有两个输入锚点:左锚点由字母“L”表示,右锚点由字母“R”表示。连接过滤器工具的“True”输出锚点到连接工具的“Left”输入锚点。然后,将文本输入工具的输出锚连接到连接工具的右输入锚。

2、连接工具配置
连接工具可以通过以下两种方式之一将一个数据流中的行与另一个数据流中的行关联起来:记录位置和特定列。

连接工具包括所谓的“嵌入式选择”窗口。该特性为你提供了与标准选择工具相同的功能:你可以通过取消选择字段来从输出数据中删除字段,你可以重命名字段,并且可以更改输出数据的顺序。此功能对于处理连接工具检测为重复的字段名特别有用。

任何重复的字段名称都将突出显示,并给出“Right_”前缀。除非这是适合你的分析的名称,否则建议将字段名称更改为更能代表该列中的信息的名称,或者甚至从传出数据中完全删除字段名称。取消选择重复的数据列,以便将其从传出数据流中删除。

3、结 果
在运行工作流后,结果窗口中出现一条错误消息:“字符串字段只能与其他字符串字段连接”。只有相同数据类型的字段才能用于将数据连接在一起。例如,归类为字符串数据类型的列只能连接到另一个也归类为字符串数据类型的字段。在左侧输入中,列 [Borough Code] 是字符串数据类型,但在右侧输入中,同一列被分类为字节,这是数字。识别并修复数据类型的问题可以确保连接成功执行并产生预期的结果。

连接工具生成三个输出数据流,每个数据流都由连接工具上的输出锚表示。你最感兴趣的输出可能是中心 Join,由字母 J 表示,它表示从两个数据集连接在一起的数据。Tree 和 Borough 数据之间的 Join 扩展了数据流,以定义最初仅由编码值表示的 Borough 的名称和人口。来自左输入的数据如果没有连接到任何来自右输入的数据,将从字母 L 表示的锚中掉出来。同样,来自右输入的数据如果没有连接到任何来自左输入的数据,将从字母 R 表示的右输出锚中掉出来。


二、更多帮助

有关使用连接工具的更多帮助,请访问

https://help.alteryx.com/current/en/designer/tools/join/join-tool.html#idm45506826805088


以上就是关于「连接数据」的全部内容。感谢观看本视频,更多 Alteryx 学习资源,请持续关注 Alteryx 社区。