Alteryx 微课堂 | 第5课:格式化数据
▶ 本节课我们一起来学习:格式化数据,包括更改列的方法,运用选择工具,以及常见的格式化配置选项。
为便于大家更好地跟随操作,接下来,我把视频的内容用图文形式进行拆解。
一、格式化数据的必要性
该工作流的数据源是纽约市调查的树木信息。但是,在将这些数据用于数据混合和分析之前,必须更改其当前的数据类型、列名和结构。
二、使用选择工具
1、拖入选择工具
要更改这些数据格式,需要使用“选择”工具。将“选择”工具拖到画布上,并将其连接到“输入数据”工具。“选择”工具允许你更改列的元数据,例如列的名称、数据类型、大小和描述。
2、配置选择工具
由于此数据源是 .CSV 文件,因此已为每列分配了 V_String 数据类型。 使用选择工具为 [种植日期]、[高度] 和 [状态] 列指定更合适的数据类型。
3、重命名列
在实际分析中,你可能出于以下几个原因需要重命名列。首先,没有明确或直观命名的列,会给工作流开发人员和相关用户带来困惑。其次,假设不同源中的列的名称一致,那么在混合数据时,数据集中名称不一致的列可能会导致问题。
此输入数据集包含两列,这两列的值与其他输入中的值相对应,但名称不同。需要重命名列 [spc_latin] 和 [spc_common],以匹配其他输入中包含类似数据的列。在“重命名”列中,输入新的列名:[Latin Name] 和 [Common Name]。
4、删除列
不打算在进一步分析中使用的列,应尽早从数据流中删除,以优化工作流的处理速度。只需在选择工具的配置窗口中取消选择列,即可从数据流中删除列。在这个例子中,不需要分析 [纬度] 和 [经度] 列,取消选中这些列旁边的复选框,将它们从数据流中删除。
5、调整列顺序
列也可以重新排列,以达到可视化、易用性或战略性分组的目的。选择工具的配置窗口中列表顶部的列将出现在最左侧,列表底部的列将显示在最右侧。将 [种植日期] 列移动到数据集的顶部。单击包含列名 [种植日期] 的行。然后,单击向上箭头。
6、保持未知列
你可能会注意到最后一个列名 [*Unknown] 实际上并不是输入数据集中的列。但是,在选择工具的配置中,将此列保留为选中状态是一个重要的考虑因素。
此未知列表示选择工具在配置期间处理当前工具未知的列的前瞻性,但如果输入的结构更改为包括字符串列(如树叶的颜色)或数字列(树中存在的鸟的数量),则这些列可能在将来出现。要通过“选择”工具自动传递此新列,请保持已选择 [*未知]。
三、格式化的结果
运行工作流后,在“选择”工具中所做的更改已经应用于数据集,而不是行中的单个值:列被适当地重新排序、重新命名和重新分类。
同时,在 Designer 中的其他工具,如 Join 工具,在其配置中包含所谓的“嵌入式选择”,允许用户在工作流的其他步骤中对列名、顺序和数据类型应用许多相同的更改,你可以利用这些机会在构建和开发流程时优化和组织数据。
以上就是关于「格式化数据」的全部内容。感谢观看本视频,更多 Alteryx 学习资源,请持续关注微信公众号 Alteryx 社区。