清理和调整数据

  • 版本 :2022.1 及更高版本

注意:从版本 2020.4.1 开始,您现在可以在 Tableau Server 和 Tableau Online 中创建和编辑流。除非特别说明,否则本主题中的内容适用于所有平台。有关在 Web 上创作流程的详细信息,请参阅Tableau Server(链接在新窗口中打开)和Tableau Online(链接在新窗口中打开)帮助。

Tableau Prep 提供了您可用来清理和调整数据的各种清理操作。通过清理不良数据,可以更轻松地合并和分析数据,或可以让其他人在共享您的数据集时更轻松地理解您的数据。

您还可以使用转置步骤或脚本步骤来清理数据,以将 R 或 Python 脚本应用于流程。Tableau Cloud 不支持脚本步骤。有关详细信息,请参见转置您的数据(链接在新窗口中打开)或在流程中使用 R 和 Python 脚本(链接在新窗口中打开)

关于清理操作

您通过应用诸如筛选、添加、重命名、拆分、分组或移除字段等清理操作来清理数据。您可以在流程中的大多数步骤类型中执行清理操作。您还可以在数据网格的清理步骤中执行清理操作。

您可以在输入步骤中应用有限的清理操作,并且不能在输出步骤中应用清理操作。有关在输入步骤中应用清理操作的详细信息,请参见在输入步骤中应用清理操作(链接在新窗口中打开)

可用的清理操作

下表显示了在每个步骤类型中可以执行哪些清理操作:


输入清理聚合转置联接并集新建行输出
筛选XXXXXXX
对值进行分组
X
X
XX
清理
X
XXXX
转换日期
XXXXXX
拆分值
X
XXXX
重命名字段XX
XXXX
重命名字段(批量)
X





复制字段
X
XXXX
仅保留字段XXXXXXX
移除字段XXXXXXX
创建计算字段
X
XXXX
编辑值
X
XXXX
更改数据类型XXXXXXX

对数据进行更改时,将会向“流程”窗格中的对应步骤中添加注释,并会在“更改”窗格中添加一个条目来跟踪您的操作。如果在“输入”步骤中进行更改,则注释会显示在“流程”窗格中步骤的左侧,并会显示在字段列表的“输入配置”中。

您应用更改的顺序很重要。在“聚合”、“转置”、“联接”和“合并”步骤类型中进行的更改会在这些清理操作之前或之后执行,具体情况取决于您进行更改时字段的位置。进行更改的位置显示在步骤的“更改”窗格中。

以下示例显示了联接步骤中单个表的字段更改。将在联接操作之前执行更改以生成更正的结果。

操作顺序

下表显示了“聚合”、“转置”、“联接”和“合并”步骤类型中清理操作的执行位置,具体情况取决于字段在步骤中的何处。

操作步骤类型:聚合聚合转置转置联接联接并集并集新建行

字段位置:分组字段聚合字段不在转置中通过转置创建包含在一个表中*同时包含在两个表中*不匹配的字段合并字段用于生成行的字段
筛选
聚合之前聚合之后转置之前转置之后联接之前联接之后合并之前合并之后新建行之后
对值进行分组
NANA转置之前转置之后联接之前联接之后合并之前合并之后新建行之后
清理
NANA转置之前转置之后联接之前联接之后合并之前合并之后新建行之后
转换日期
聚合之前聚合之后转置之前转置之后联接之前联接之后合并之前合并之后新建行之后
拆分值
NANA转置之前转置之后联接之前联接之后合并之前合并之后新建行之后
重命名字段
NANA转置之前转置之后联接之前联接之后合并之前合并之后新建行之前
复制字段
NANA转置之前转置之后联接之前联接之后合并之前合并之后新建行之后
仅保留字段
聚合之后聚合之后转置之前转置之后联接之前联接之后合并之前合并之后新建行之后
移除字段
从聚合中移除从聚合中移除转置之前转置之后联接之前联接之后合并之前合并之后新建行之后
创建计算字段
NANA转置之前转置之后联接之后联接之后合并之前合并之后新建行之后
编辑值
NANA转置之前转置之后联接之前联接之后合并之前合并之后新建行之后
更改数据类型
聚合之前聚合之后转置之前转置之后联接之前联接之前合并之前合并之后新建行之前

注意:对于联接,如果字段是使用一个表中的字段创建的计算字段,则在联接之前应用更改。如果字段是同时使用两个表中的字段创建的,则在联接之后应用更改。

应用清理操作

若要向字段应用清理操作,请使用工具栏选项,或在字段配置卡、数据网格或“结果”窗格上单击“更多选项” 打开菜单。

在“聚合”、“转置”、“联接”和“合并”步骤类型中,可以在“结果”窗格和对应数据网格中的配置卡上找到“更多选项” 菜单。如果您在整个流程中反复执行相同的清理操作或操作,则可以复制和粘贴步骤、操作甚至字段。有关详细信息,请参见复制步骤、操作和字段。

“配置”窗格工具栏下拉菜单

选择视图

您可以在数据网格或列表视图中的配置窗格或结果窗格外部中执行清理操作。使用视图工具栏

Tableau Prep Builder 版本 2019.3.2 及更高版本以及在 Web 上)更改视图,然后在字段上单击“更多选项” 打开清理菜单。

  • 显示配置窗格:这是默认视图。选择此按钮可返回配置窗格或结果窗格视图。

  • 显示数据网格:折叠配置窗格或结果窗格以展开并仅显示数据网格。此视图提供了更详细的数据视图,在您需要处理特定字段值时非常有用。选择此选项后,此视图状态将在流程的所有步骤中保持不变,但您可以随时对其进行更改。

    注意:并非所有清理操作都可在数据网格中使用。举例来说,如果对值进行内联编辑,则必须使用“配置”窗格。

  • 显示列表视图Tableau Prep Builder 版本 2019.3.2 及更高版本以及在 Web 上):将配置窗格或结果窗格转换为列表。选择此选项后,此视图状态将在流程的所有步骤中保持不变,但您可以随时对其进行更改。

    在此视图中,您可以:

    • 使用“X”选项选择和移除多行。

    • (版本 2021.1.4 及更高版本)使用 选项选择并隐藏或取消隐藏多行。

    • (版本 2021.2.1 及更高版本)批量重命名字段。

    • 使用“更多选项” 菜单将操作应用于所选字段。

      如果为字段分配数据角色,或选择“筛选”“对值进行分组”“清理”“拆分值”,则将返回到“配置”或“结果”视图来完成这些操作。可以在列表视图中执行所有其他选项。

Tableau Prep Builder 版本 2019.3.1 及更低版本

暂停数据更新以提高性能

对数据执行清理操作时,Tableau Prep 会随着进展应用更改,以便立即向您显示结果。当您知道需要进行的更改并且在进行每次更改时不需要立即反馈时,为了节省宝贵的处理时间,您可以通过暂停数据更新来提高性能。

暂停数据更新时,可以一次进行所有更改,然后恢复更新以查看结果。您可以随时恢复数据更新并启用所有可用操作。

注意:暂停数据更新时,将禁用任何要求您查看值的操作。举例来说,如果要将筛选器应用于所选值,则需要查看要排除的值。

  1. 在顶部菜单中,单击“暂停数据更新”以暂停更新。

  2. Tableau Prep 会将“配置”窗格转换为“列表”视图。在“列表”视图中,使用“更多选项” 菜单将操作应用于所选字段。 如果操作要求您查看值,它将被禁用。若要启用该操作,您必须恢复数据更新。

    有关使用“列表”视图模式的详细信息,请参见选择视图。

  3. 若要查看更改的结果或启用禁用的功能,请恢复数据更新。单击“恢复数据更新”按钮,单击菜单对话框中或“流程”窗格顶部消息横幅中的“恢复”按钮。

    注意Tableau Prep Builder 为您提供直接从菜单中恢复更新的选项。如果在 Web 上编辑流程,您需要从顶部菜单恢复更新。

应用清理操作

若要将清理操作应用于字段,请执行以下操作:

注意:Tableau Prep Builder 版本 2019.3.2 开始以及在 Tableau Server 和 Tableau Cloud 上从版本 2020.4 开始,您可以在列表视图中执行清理操作。

  1. “配置”窗格、数据网格、“结果”窗格或列表视图中,选择要进行更改的字段。

  2. 从工具栏或字段的“更多选项” 菜单中,从以下选项中进行选择:

    • 自定义会计年度 Tableau Prep Builder 版本 2020.3.3 及更高版本以及在 Web 上):如果您的会计年度未在 1 月开始,则可以设置自定义会计月份以使用该月份而不是默认的 1 月转换日期。

      此设置基于每个字段,因此如果要将自定义会计年度应用于其他字段,请重复此相同的步骤。

      若要打开对话框,请从“更多选项” 菜单中选择“转换日期”>“自定义会计年度”

    • 筛选筛选值:选择筛选器选项之一,右键单击或按住 Ctrl 并单击 (MacOS) 字段值以保留或排除值。您也可以使用“选定值”筛选器来选取和选择要筛选的值,包括流程样本中没有的值。有关筛选器选项的详细信息,请参见筛选您的数据(链接在新窗口中打开)

    • 对值进行分组(以以前的版本中为“分组和替换”):手动选择值或使用自动分组。您也可以在“配置”卡中选择多个值,并右键单击或按住 Ctrl 并单击 (MacOS) 以对值进行分组或取消分组,或者编辑组值。有关使用“对值进行分组”的详细信息,请参见使用模糊匹配将值自动映射到标准值。

    • 清理:从快速清理操作列表中进行选择,以便应用于字段中的所有值。

    • 转换日期Tableau Prep Builder 版本 2020.1.4 及更高版本以及在 Web 上):对于分配给“日期”或“日期和时间”数据类型的字段,从 DATEPART 快速清理操作列表中选择,将日期字段值转换为表示年份、季度、月份、周、日或日期和时间值的整数值。

      从版本 2021.1.4 开始,您还可以从两个 DATENAME 快速清理操作中选择星期几或月份名称,以转换日期字段值。

    • 拆分值:基于常见分隔符自动拆分值,或使用自定义拆分来指定要如何拆分字段值。

      自动拆分和自定义拆分的工作方式与它们在 Tableau Desktop 中的工作方式相同。有关详细信息,请参见 Tableau Desktop 和 Web 制作帮助中的将字段拆分为多个字段(链接在新窗口中打开)

    • 重命名字段:编辑字段名称。

    • 复制字段Tableau Prep Builder 版本 2019.2.3 及更高版本以及在 Web 上):创建字段和值的副本。

    • 仅保留字段Tableau Prep Builder 版本 2019.2.2 及更高版本以及在 Web 上):仅保留所选字段并排除步骤中的所有其他字段。

    • 创建计算字段:在计算编辑器中编写自定义计算,或使用可视化计算编辑器(Tableau Prep Builder 版本 2020.1.1 及更高版本以及在 Web 上)创建详细级别、排名或行号计算。有关详细信息,请参见创建详细级别、排名和分片计算。

    • 移除(在以前的版本中为“移除字段”):从流程中移除字段。

      注意:您可以使用“以数据角色形式发布”选项创建随后可应用于字段以在清理数据时验证字段值的自定义数据角色。有关此选项的详细信息,请参见创建自定义数据角色(链接在新窗口中打开)

  3. 若要编辑值,请右键单击或按住 Ctrl 并单击 (MacOS) 一个或多个值,选择“编辑值”,然后输入新值。您也可以选择“替换为 Null”将值替换为 Null 值,或在单个字段中双击以直接对其进行编辑。有关编辑字段值的详细信息,请参见编辑字段值。

  4. “配置”窗格、“摘要”窗格或数据网络中查看这些操作的结果。

批量重命名字段

在 Tableau Prep Builder 版本 2021.2.1 及更高版本中受支持。在 Tableau Server 和 Tableau Cloud 版本 2021.2 及更高版本的 Web 版 Tableau Prep 中受支持。

使用“重命名字段”选项批量重命名多个字段。搜索字段名称的一部分以替换或移除它,或者为数据集中的所有或选定字段添加前缀或后缀。

通过在进行更改时选中“自动重命名新字段”复选框,您还可以自动将相同的更改应用于将来添加的任何符合您条件的字段。

注意:此选项仅在“清理”步骤类型中可用。

  1. “清理”步骤中,从工具栏中选择“重命名字段”

    您的视图会自动转换为显示流程中所有字段的“列表视图”。您可以使用工具栏中的“搜索”选项来缩小结果范围。

    所有字段默认情况下处于选定状态。清除顶部复选框可清除所有字段的选择,从而仅手动选择要更改的字段。

  2. “重命名字段”窗格中,从以下选项中进行选择:

    • 替换文本:在“查找文本”字段中,使用“搜索选项”查找匹配文本,然后在“替换为”字段中输入替换文本。若要查找空格,请在“查找文本”字段中按空格键。

      注意:重命名字段不会导致空白或重复的字段名称。

    • 添加前缀:将文本添加到所有选定字段名称的开头。

    • 添加后缀:在所有选定字段名称的末尾添加文本。

      当您进行输入时,您的结果将显示在“列表视图”窗格中。

  3. (可选)选择“自动重命名新字段”以在刷新数据时自动将这些相同的更改应用到符合替换条件的新字段。

  4. 单击“重命名”应用您的更改并关闭窗格。“重命名”按钮显示受更改影响的字段数。

查看您所做的更改

不同类型的清理操作由流程中步骤上的图标表示。如果向步骤应用了超过四种类型的操作,则步骤上会显示省略号。将光标悬停在这些图标上即可查看显示所应用的操作及其执行顺序的注释。

Tableau Prep Builder 版本 2019.1.3 及更高版本开始以及在 Web 上,您可以在“流程”窗格中某个步骤上单击更改图标上的注释,或者单击“配置”或“结果”窗格中的某个配置卡,更改及其影响的字段将会在“更改”窗格以及“配置”“结果”窗格中突出显示。

您也可以选择步骤,然后展开“更改”窗格以查看每个更改的详细信息、编辑或移除更改,或者将更改向上或向下拖动以更改其应用顺序,并且您可以添加描述,以便为其他用户提供上下文。有关为更改添加描述的详细信息,请参见为流程步骤和清理动作添加说明(链接在新窗口中打开)

清理注释“更改”窗格

在“聚合”、“转置”、“联接”或“合并”步骤中查看更改时,更改的应用顺序会在调整操作之前或之后显示。这些更改的顺序由系统应用,无法更改。您可以编辑和移除更改。

合并字段

如果字段包含的值相同,但名称不同,您可以通过将一个字段拖到另一个字段上,轻松地将它们合并为单个字段。在合并字段时,目标字段将成为主字段,并且目标字段的字段名称保持不变。合并到目标字段的字段会被移除。

示例:

通配符并集生成 3 个具有相同值的字段将 3 个字段合并为 1 个字段

合并字段时,Tableau Prep 会保留目标字段中的所有字段,并将该字段中的任何 null 值替换为您与目标字段合并的源字段中的值。源字段会被移除。

示例

NameContact_PhoneBusiness_PhoneCell_PhoneHome_Phone
Bob123-4567123-4567nullnull
Sallynullnull456-7890789-0123
Frednullnullnull567-8901
Emmanull234-5678345-6789null

如果将 Business _PhoneCell_PhoneHome_Phone 字段与 Contact_phone 字段合并,则会移除其他字段并生成以下内容:

NameContact_Phone
Bob123-4567
Sally456-7890
Fred567-8901
Emma234-5678

若要合并字段,请执行以下操作之一:

  • 将一个字段拖放到另一个字段上。将显示“放置以合并字段”指示符。

  • 选择多个字段,并在所选范围内右键单击以打开上下文菜单 ,然后单击“合并字段”

  • 选择多个字段,然后在工具栏上单击“合并字段”

有关如何修复合并所产生的不匹配字段的信息,请参见修复不匹配的字段。

使用建议应用清理操作

有时可能很难确定您需要使用哪些清理操作来修复数据中的问题。Tableau Prep 可对数据进行分析并提出清理操作建议,您可以自动应用这些操作来快速修复数据字段中的问题,或者帮助确定问题以便能对其进行修复。除“输入”、“输出”和“联接”步骤类型外的所有步骤类型中提供了此功能。

注意:在 Tableau Prep Builder 中,如果不想使用此功能,您可以将其关闭。从顶部菜单中,转到“帮助”>“设置和性能”。然后单击“启用建议”以清除设置旁边的复选标记。

建议类型包括:

  • 数据角色

  • 筛选

  • 对值进行分组(从 Tableau Prep Builder 版本 2019.2.3 开始以及在 Web 上,也适用具有数据角色的字段)

  • 将列转置为行(Tableau Prep Builder 版本 2019.4.2 及更高版本以及在 Web 上)

  • 将值替换为 Null 值

  • 移除字段

  • 拆分(Tableau Prep Builder 版本 2019.1.1 及更高版本以及在 Web 上)

    注意:此选项专用于处理固定宽度类型文本文件中的数据。若要将拆分建议与此文件类型结合使用,请在连接到数据源后,在“输入”步骤的“文本设置”选项卡中选择一个数据中未使用的“字段分隔符”字符,使数据以单一字段形式加载。

  • 剪裁空格

应用建议

  1. 执行以下操作之一:

    只有在 Tableau Prep 确定了建议的更改时,此选项才会出现。

    • 单击配置卡右上角中的灯泡 图标。

    • 从工具栏中单击“建议”下拉箭头以查看适用于您的数据集的所有建议,并从列表中选择一个建议。

  2. 若要应用建议,请将鼠标指针悬停在“建议”卡上,然后单击“应用”

    系统会自动应用更改,并向“更改”窗格中添加一个条目。若要移除更改,请在顶部菜单中单击“撤消”,或将鼠标指针悬停在“更改”窗格中的更改上,并单击“X”将其移除。

    如果将建议应用于转置字段,将自动创建一个“转置”步骤,您可以在其中执行任何其他转置操作,如重命名转置字段或对其他字段进行转置。

  3. 如果 Tableau Prep 因为所做更改而确定了进一步的建议,则灯泡图标会一直显示在“配置”卡上,直至找不到进一步的建议为止。

    重复上面的步骤以应用任何其他更改或忽略建议的更改,并使用其他清理工具来解决数据问题。

编辑字段值

相同值的多个变体可能会让您无法准确地汇总数据。可以使用以下选项快捷轻松地纠正这些变化。

注意:对值进行的任何编辑都必须与字段数据类型兼容。

编辑单个值

  1. “配置”卡中,单击要编辑的值,并输入新值。值旁边将显示一个组图标

    或者,右键单击值并单击“编辑值”。更改记录在屏幕左侧的“更改”窗格中。

  2. “配置”窗格和数据网络中查看结果。

编辑多个值

可通过多个选项来一次性编辑多个值。例如,使用快速清理操作来移除字段中所有值的标点符号、使用多选手动将值分组、使用可找到类似值的模糊匹配算法自动将值分组在一起,或者选择多个值并将它们替换为 Null。

注意:将多个值映射到单个值时,原始字段会在值旁边显示一个分组图标,显示哪些值分组在一起。

使用快速清理操作编辑多个值

此选项仅适用于文本字段。

  1. “配置”窗格、“结果”窗格或数据网格中,选择要编辑的字段。

  2. 单击“更多选项”,选择“清理”,然后选择以下选项之一:

    您可以累加操作,以将多个清理操作应用于字段。例如,首先选择“清理”>“移除数字”,然后选择“清理”>“移除标点符号”以从字段值中移除所有数字和标点符号。

    • 设为大写:将所有值更改为大写文本。

    • 设为小写:将所有值更改为小写文本。

    • 移除字母:移除所有字母并仅保留其他字符。

    • 移除数字:移除所有数字并保留字母和其他字符。

    • 移除标点符号:移除所有标点符号。

    • 剪裁空格:移除前导和尾随空格。

    • 移除额外的空格:移除前导和尾随空格,以及将字符之间的额外空格替换为单一空格。

    • 移除所有空格:移除所有空格,包括前导和尾随空格以及字符之间的任何空格。

  3. 若要撤消更改,请单击“流程”窗格顶部的“撤消”箭头,或从更改列表中移除更改。

以内联方式编辑分组或多个值

使用此选项可手动选择多个值,并将它们分组在配置卡中的某个标准值下。若要使用其他方法对值进行分组,请参见将多个值手动映射到标准值和使用模糊匹配将值自动映射到标准值。

  1. “配置”卡中,选择要编辑的字段。

  2. 按 Ctrl 或按住 Shift 并单击,或者按 Command 或按住 Shift 并单击 (MacOS),并选择要分组的值。

  3. 右键单击,并从上下文菜单中选择“分组”。您右键单击的所选内容中的值将成为新组的默认名称,但您可以对此名称进行内联编辑。

  4. 若要编辑组名称,请选择分组的字段并编辑值,或者右键单击或按住 Ctrl 单击 (Mac) 分组的字段并从上下文菜单中选择“编辑值”

  5. 若要取消分组已分组的字段值,请右键单击分组的字段,并从上下文菜单中选择“取消分组”

将一个或多个值替换为 Null

如果有要包括在分析中的数据行,但想要排除特定字段值,您可以将这些值更改为 Null 值。

  1. “配置”卡中,按 Ctrl 或按住 Shift 并单击,或者按 Command 或按住 Shift 并单击(Mac 上),并选择要更改的值

  2. 右键单击或按住 Ctrl 单击 (Mac),并从菜单中选择“替换为 Null”。值将更改为 Null,并且值旁边会显示分组图标。

将多个值手动映射到标准值

使用“对值进行分组”(以前的版本中为“分组和替换”)将字段的值从一个值映射到另一个值,或者手动选择多个值以对它们进行分组。您甚至可以添加新值,设置映射关系来组织数据。

例如,假设字段中有三个值:“My Company”、“My Company Incorporated”和“My Company Inc”。所有这些值都表示同一公司,即“My Company”。您可以使用“对值进行分组”将值“My Company Incorporated”和“My Company Inc”映射到“My Company”,以便所有三个值在字段中都显示为“My Company”。

将多个值映射到单个所选字段

  1. “配置”窗格或“结果”窗格中,选择要编辑的字段。

  2. 单击“更多选项”,并从菜单中选择“对值进行分组”(以前的版本中为“分组和替换”)>“手动选择”

  3. “对值进行分组”编辑器的左侧窗格中,选择要用作分组值的字段值。此值现在显示在右侧窗格的顶部。

  4. “对值进行分组”编辑器右侧窗格的下半部分中,选择要添加到组的值。

    若要从组中移除值,请在“对值进行分组”编辑器右侧窗格的上半部分中,清除值旁边的复选框。

通过选择多个值来创建组

  1. “配置”窗格或“结果”窗格中,选择要编辑的字段。

  2. 单击“更多选项”,并从菜单中选择“对值进行分组”(以前的版本中为“分组和替换”)>“手动选择”

  3. “对值进行分组”编辑器的左侧窗格中,选择要分组的多个值。

  4. “对值进行分组”编辑器的右侧窗格中,单击“对值进行分组”

    将会使用最后一个所选的值作为组名称创建一个新组。若要编辑组名称,请选择分组的字段并编辑值,或者右键单击或按住 Ctrl 单击 (MacOS) 分组的字段并从菜单中选择“编辑值”

    添加和标识不在数据集中的值

    如果要将数据集中的值映射到不存在的新值,您可以使用“对值进行分组”(以前的版本中为“分组和替换”)来添加该值。为了轻松识别数据集中没有的任何值,这些值在“对值进行分组”编辑器中的值名称旁边带有红点标记。

    例如在下图中,Wyoming 和 Nevada 不在数据集中。

    数据集中之所以可能没有某个值,可能有以下一些原因:

    添加新值:

    • 您刚刚手动添加了新值。

    • 值不再在数据中。

    • 值在数据中,但不在抽样数据集中。

    1. “配置”窗格或“结果”窗格中,选择要编辑的字段。

    2. 单击“更多选项”,并从上下文菜单中选择“对值进行分组”(以前的版本中为“分组和替换”)>“手动选择”

    3. “对值进行分组”编辑器的左侧窗格中,单击加号 以添加新值。

    4. 在字段中键入新值,并按 Enter 添加该值。

    5. 在右侧窗格中,选择要映射到新值的值。

    6. (可选)若要向映射的值中添加其他新值,请单击“对值进行分组”编辑器右侧窗格中的加号 按钮。

使用模糊匹配将值自动映射到标准值

若要搜索类似的值并对其进行自动分组,请使用模糊匹配算法之一。字段值依据最频繁出现的值进行分组。查看分组的值,并根据需要在组中添加或移除值。

如果使用数据角色来验证字段值,则可以使用“对值进行分组”(以前的版本中为“分组和替换”)选项将无效值与有效值匹配。有关详细信息,请参见按数据角色对类似值进行分组(链接在新窗口中打开)

选择以下选项之一对值进行分组:

  • 发音:查找发音类似的值并对其进行分组。此选项使用 Metaphone 3 算法,该算法按单词的发音对单词编制索引,最适合于英语单词。许多常用的拼写检查器都使用这种类型的算法。此选项对于数据角色不可用。

  • 常用字符:查找具有共同字母或数字的值并对其进行分组。此选项使用 ngram 指纹算法,该算法按单词移除标点符号、重复字符和空格之后的唯一字符对单词编制索引。此算法适合于任何支持的语言。此选项对于数据角色不可用。

    例如,此算法将匹配表示为“John Smith”和“Smith, John”的名称,因为它们均生成键“hijmnost”。由于此算法不考虑发音,因此值“Tom Jhinois”将具有相同的键“hijmnost”,并也会包括在组中。

  • 拼写:查找拼写类似的值并对其进行分组。此选项使用 Levenshtein 距离算法,使用固定默认阈值来计算两个文本值之间的编辑距离。当编辑距离小于阈值时,则将这两个值分组在一起。此算法适合于任何支持的语言。

    Tableau Prep Builder 版本 2019.2.3 开始以及在 Web 上,此选项可在应用了数据角色之后使用。在这种情况下,它会使用编辑距离将无效值与最近的有效值匹配。如果数据集示例中没有标准值,Tableau Prep 会自动添加该值,并将值标记为不在原始数据集中。

  • 发音 + 拼写:(Tableau Prep Builder 版本 2019.1.4 及更高版本以及在 Web 上)如果为字段分配数据角色,您可以使用该数据角色,通过数据角色定义的标准值来匹配值和对值进行分组。此选项随后将根据拼写和发音将无效值与最相似的有效值匹配。如果数据集示例中没有标准值,Tableau Prep 会自动添加该值,并将值标记为不在原始数据集中。此选项最适合于英文单词。

    有关详细信息,请参见清理和调整数据

    注意:Tableau Prep Builder 版本 2019.1.4 和 2019.2.1 中,此选项标为“数据角色匹配”

使用模糊匹配分组类似值

  1. “配置”窗格或“结果”窗格中,选择要编辑的字段。

  2. 单击“更多选项”并选择“对值进行分组”,然后选择以下选项之一:

    Tableau Prep Builder 将查找匹配的值并对其进行分组,并将它们替换为组中出现最频繁的值。

    • 发音

    • 常用字符

    • 拼写

  3. 查看分组,并根据需要手动添加或移除值或对其进行编辑。然后单击“完成”

在对字段值进行分组时调整结果

如果按“拼写”“发音”对类似值进行分组,您可以使用字段上的滑块来调整分组参数的严格程度,从而更改结果。

根据滑块的设置方式,您可以更大程度地控制组中包括的值数量以及创建的组数量。默认情况下,Tableau Prep 会检测最佳分组设置,并将滑块显示在该位置。

更改阈值时,Tableau Prep 会对值的样本进行分析来确定新的分组。依据设置生成的组保存并记录在“更改”窗格中,但不会保存阈值设置。下次通过编辑现有更改或进行新更改打开“对值进行分组”编辑器时,阈值滑块会显示在默认位置,使您能够根据当前数据集进行任何调整。

  1. “配置”窗格或“结果”窗格中,选择要编辑的字段。

  2. 单击“更多选项”,并选择“对值进行分组”(在前的版本中为“分组和替换”),然后选择以下选项之一:

    Tableau Prep 将查找匹配的值并对其进行分组,并将它们替换为组中出现最频繁的值。

    • 发音

    • 拼写

  3. “对值进行分组”编辑器的左侧窗格中,将滑块拖到 5 个阈值级别之一以更改结果。

    若要设置更严格的阈值,请将滑块向左移动。这会使匹配数更少,并创建更少的组。若要设置更宽松的阈值,请将滑块向右移动。这会使匹配数更多,并创建更多的组。

  4. 单击“完成”保存您所做的更改。