Alteryx 微课堂 | 第9课:连接数据
本节课我们一起来学习:连接数据,了解如何使用数据连接将两个不同数据集中的行相互关联,实现将具有相同行但唯一列的多个数据源组合在一起。
为便于大家更好地跟随操作,接下来,我把视频的内容用图文形式进行拆解。
一、连接数据
几乎每个分析过程都需要混合在不同数据源中发现的数据,将信息连接在一起,以产生深刻而有影响力的分析见解。定义数据源之间的关系将数据连接在一起,一旦建立了这种关系,一个输入中的一行数据就可以与另一个输入中的一行数据相关联。
在纽约市调查树木的三个输入数据集被连接成一个单一的数据流。健康状况良好且至少 10 米高的树木已从数据集中过滤掉。然而,在继续进行任何进一步分析之前,阐明列 [市镇代码] 中值的含义将会有所帮助,该列包含数字 1 到 5。幸运的是,文本输入工具中的查找表包含与每个市镇代码相关的 [Name] 和 [Population]。将这两个数据流连接在一起,用有关种植树木所在市镇的附加信息来丰富树木数据。
连接工具包括所谓的“嵌入式选择”窗口。该特性为你提供了与标准选择工具相同的功能:你可以通过取消选择字段来从输出数据中删除字段,你可以重命名字段,并且可以更改输出数据的顺序。此功能对于处理连接工具检测为重复的字段名特别有用。
任何重复的字段名称都将突出显示,并给出“Right_”前缀。除非这是适合你的分析的名称,否则建议将字段名称更改为更能代表该列中的信息的名称,或者甚至从传出数据中完全删除字段名称。取消选择重复的数据列,以便将其从传出数据流中删除。
连接工具生成三个输出数据流,每个数据流都由连接工具上的输出锚表示。你最感兴趣的输出可能是中心 Join,由字母 J 表示,它表示从两个数据集连接在一起的数据。Tree 和 Borough 数据之间的 Join 扩展了数据流,以定义最初仅由编码值表示的 Borough 的名称和人口。来自左输入的数据如果没有连接到任何来自右输入的数据,将从字母 L 表示的锚中掉出来。同样,来自右输入的数据如果没有连接到任何来自左输入的数据,将从字母 R 表示的右输出锚中掉出来。
二、更多帮助
有关使用连接工具的更多帮助,请访问
https://help.alteryx.com/current/en/designer/tools/join/join-tool.html#idm45506826805088
以上就是关于「连接数据」的全部内容。感谢观看本视频,更多 Alteryx 学习资源,请持续关注 Alteryx 社区。