发布主题：全部基础入门

Alteryx 微课堂 | 第5课：格式化数据

发布于： 2023-07-24

▶ 本节课我们一起来学习：格式化数据，包括更改列的方法，运用选择工具，以及常见的格式化配置选项。

为便于大家更好地跟随操作，接下来，我把视频的内容用图文形式进行拆解。

一、格式化数据的必要性

该工作流的数据源是纽约市调查的树木信息。但是，在将这些数据用于数据混合和分析之前，必须更改其当前的数据类型、列名和结构。

二、使用选择工具

1、拖入选择工具

要更改这些数据格式，需要使用“选择”工具。将“选择”工具拖到画布上，并将其连接到“输入数据”工具。“选择”工具允许你更改列的元数据，例如列的名称、数据类型、大小和描述。

2、配置选择工具

由于此数据源是 .CSV 文件，因此已为每列分配了 V_String 数据类型。使用选择工具为 [种植日期]、[高度] 和 [状态] 列指定更合适的数据类型。

3、重命名列

在实际分析中，你可能出于以下几个原因需要重命名列。首先，没有明确或直观命名的列，会给工作流开发人员和相关用户带来困惑。其次，假设不同源中的列的名称一致，那么在混合数据时，数据集中名称不一致的列可能会导致问题。

此输入数据集包含两列，这两列的值与其他输入中的值相对应，但名称不同。需要重命名列 [spc_latin] 和 [spc_common]，以匹配其他输入中包含类似数据的列。在“重命名”列中，输入新的列名：[Latin Name] 和 [Common Name]。

4、删除列

不打算在进一步分析中使用的列，应尽早从数据流中删除，以优化工作流的处理速度。只需在选择工具的配置窗口中取消选择列，即可从数据流中删除列。在这个例子中，不需要分析 [纬度] 和 [经度] 列，取消选中这些列旁边的复选框，将它们从数据流中删除。

5、调整列顺序

列也可以重新排列，以达到可视化、易用性或战略性分组的目的。选择工具的配置窗口中列表顶部的列将出现在最左侧，列表底部的列将显示在最右侧。将 [种植日期] 列移动到数据集的顶部。单击包含列名 [种植日期] 的行。然后，单击向上箭头。

6、保持未知列

你可能会注意到最后一个列名 [*Unknown] 实际上并不是输入数据集中的列。但是，在选择工具的配置中，将此列保留为选中状态是一个重要的考虑因素。

此未知列表示选择工具在配置期间处理当前工具未知的列的前瞻性，但如果输入的结构更改为包括字符串列（如树叶的颜色）或数字列（树中存在的鸟的数量），则这些列可能在将来出现。要通过“选择”工具自动传递此新列，请保持已选择 [*未知]。

三、格式化的结果

运行工作流后，在“选择”工具中所做的更改已经应用于数据集，而不是行中的单个值：列被适当地重新排序、重新命名和重新分类。

同时，在 Designer 中的其他工具，如 Join 工具，在其配置中包含所谓的“嵌入式选择”，允许用户在工作流的其他步骤中对列名、顺序和数据类型应用许多相同的更改，你可以利用这些机会在构建和开发流程时优化和组织数据。

以上就是关于「格式化数据」的全部内容。感谢观看本视频，更多 Alteryx 学习资源，请持续关注微信公众号 Alteryx 社区。