检查和筛选数据
- 版本 :2022.1 及更高版本
注意:从版本 2020.4.1 开始,您现在可以在 Tableau Server 和 Tableau Online 中创建和编辑流。除非特别说明,否则本主题中的内容适用于所有平台。有关在 Web 上创作流程的详细信息,请参阅Tableau Server(链接在新窗口中打开)和Tableau Online(链接在新窗口中打开)帮助。 使用本主题中的选项可以很好地了解数据的组成,以便更好地了解需要进行的更改以及流中包含的操作的效果。
使用本主题中的选项来透彻理解数据的组成,从而更好地了解所需进行的更改,以及流程中包括的操作的效果。
查看分配给数据的数据类型
像 Tableau Desktop 一样,Tableau Prep 会在您将连接拖到“流程”窗格中时对数据进行解读,并自动为其分配一个数据类型。由于不同的数据库可能会以不同的方式处理数据,因此 Tableau Prep 的解读可能不会始终正确。
若要更改数据类型,请单击数据类型图标,并从上下文菜单中选择正确的数据类型。您可以将“字符串”或“整数”数据类型更改为“日期”或者“日期和时间”,Tableau Prep 将触发“Auto DateParse”来更改这些数据类型。像 Tableau Desktop 一样,如果更改未成功,您将会在字段中看到 Null 值,并且您可以创建计算来进行更改。
有关使用 DateParse 的详细信息,请参见 Tableau Desktop 和 Web 制作帮助中的将字段转换为日期字段 。
在连接到以下数据源中的数据后,可以在输入步骤中更改数据类型:
Microsoft Excel
文本文件
PDF 文件
Box
Dropbox
Google Drive
OneDrive
对于所有其他数据源,请添加清理步骤或其他步骤类型以进行此更改。若要查看不同步骤类型中可用的清理选项列表,请参见关于清理操作。
查看有关数据的大小详细信息
连接到数据后,向流程中添加一个表,然后添加一个步骤。您可以使用“配置”窗格来查看数据的当前状态和结构,并找出 null 值和离群值。
字段数和行数:在“配置”窗格的左上角,您可以找到在流程的某个特定点数据中的字段数和行数的汇总。Tableau Prep 会舍入到最接近的千位。在下面的示例中,数据集中有 21 个字段和 3000 行。
将光标悬停在字段数和行数上时,您可以看到确切的行数(本例中为 2848)。
数据集大小:通过在“输入”窗格的“数据样本”选项卡中指定要包括的行数来使用数据子集。
已抽样:为了让您能够与数据直接交互,Tableau Prep 会使用原始数据的子集。行数由数据类型和所呈现的字段数确定。与整数相比,字符串字段会占用更多的存储空间,因此,如果数据集中有 10 个字符串字段,与有 10 个整数字段的情况相比,您得到的行数可能会更少。
“已抽样” 标记显示在“配置”窗格中大小详细信息的旁边,用于指明这是数据集的子集。您可以修改流程中包含的数据量。在 Web 上创建或编辑流程时,将应用其他数据限制。有关详细信息,请参见选择数据样本大小。
唯一值的数量:每个字段标题旁边的数字表示该字段内包含的不同值。Tableau Prep 会舍入到最接近的千位。在下面的示例中,“说明”字段中呈现的不同值为 3,000 个,但如果将光标悬停在数字上,您可以看到唯一值的确切数量。
查看值或唯一值的分布
默认情况下,Tableau Prep 会将字段中的数字、日期和日期时间值分组为存储段。这些存储段也称为数据桶。数据桶确保您能查看值的整体分布状况,并快速确定离群值和 null 值。数据桶大小是基于字段中的最小值和最大值计算得出的,并且 null 值始终显示在分布的顶部。
例如,将按年份对订单和发货日期进行汇总或“分桶”。每个数据桶都表示从起始年份一月份到下一年一月份的一年,并带有相应标签。由于有处于 2018 年和 2019 年下半年的销售日期及发货日期,因此将针对这些值为以下年度创建数据桶。
如果离散(或分类)数据字段包含许多行,或者其具有的分布太大,如果不滚动就无法显示在字段中,您可能会在字段的右侧看到汇总分布。您可以在分布中单击和滚动来定位特定值。
如果数据包含数字或日期字段,您可以切换显示值的详细(离散)版本或值的汇总(连续)版本。汇总视图显示字段中的值范围,以及某些值的出现频率。
这种切换可帮助您隔离唯一值(比如字段中的“3”记录数)或值的分布(比如字段中所有“3”记录的总和)
切换视图:
在“配置”窗格、“结果”窗格或数据网格中,单击数值或日期字段的“更多选项” 菜单。
在上下文菜单中,选择“详细信息”以查看值的详细版本,或选择“摘要”以查看值的分布式版本。
搜索字段和值
在“配置”窗格或“结果”窗格中,您可以搜索您特别感兴趣的字段或值,并使用搜索结果来筛选数据。
从版本 2021.1.1 开始,当您搜索字段时,将显示一个新指示符,告诉您找到的字段数,以便您更好地了解搜索结果。如果未找到字段,将显示其他消息。
若要搜索字段,请在工具栏上的搜索框中输入全部或部分搜索词。
在字段中搜索值:
单击字段的搜索图标,并输入一个值。
若要使用高级搜索选项,请单击“搜索选项...”按钮。
若要使用搜索结果来筛选数据,请选择“只保留”或“排除”。
在“流程”窗格中,受影响的步骤上方将出现一个筛选器图标。
复制数据网格中的字段值
在 Tableau Prep Builder、Tableau Server 版本 2022.3 及更高版本以及 Tableau Cloud 版本 2022.2(八月)及更高版本中受支持。
轻松地从数据网格复制一组选定的值,并将它们粘贴到任何文档中,如 Microsoft Excel、文本 (.csv) 文件、电子邮件等。您甚至可以将它们复制并粘贴到 SQL 编辑器中,以快速运行 SQL 查询。
在数据网格中,选择一个或多个要复制的字段值。
在所选字段值上右键单击或按住 cmd 并单击 (MacOS),然后从菜单中选择“复制”。您也可以使用键盘快捷键 Ctrl + C 或 cmd+C (MacOS),或者从“...”工具栏菜单中选择“复制”。
将复制的字段粘贴到您的文档或位置。
注意: “编辑”>“复制”当前不从数据网格复制字段值。
对值和字段进行排序
“配置”卡上的排序选项使您能按升序或降序对数据桶(由分布条形表示的值计数)进行排序或按字母顺序对单独的字段值进行排序。
对字段进行重新排序
2022.2.1 及更高版本支持使用列表视图更改字段顺序。
您可以通过将配置窗格、数据网格或列表视图中的字段拖放到新位置来更改它们的顺序。
若要重新排列字段的顺序,请执行以下操作:
从“配置”窗格、“结果”窗格、“数据”网格或“列表”视图中,选择一个或多个配置卡或字段。
拖动配置卡或字段,直到看到黑色目标线出现。
将配置卡或字段放置到位。
“配置”窗格、数据网格和列表视图是同步的,因此字段将以相同的顺序出现在两个位置中。在运行和计划流程时,字段的新顺序在 Tableau 产品中保持不变。
数据网格重新排序
列表视图重新排序
突出显示流程中的字段和值
利用 Tableau Prep 可轻松地查找流程数据中的字段和值。在流程窗格中跟踪字段的来源以及在流程中的何处使用了字段,或者在配置卡或数据网格中单击单独的值以突出显示相关值或相同的值。
在流程中跟踪字段
在 Tableau Prep 中,您可以突出显示字段的每处使用位置,甚至可以跟踪字段的来源,从而可帮助您在未看到预期结果时找出缺少的值或排查流程故障。
在清理步骤的“配置”窗格中或任何其他步骤类型的“结果”窗格中单击某个字段,流程窗格将突出显示其中使用了该字段的路径。
注意:此选项不可用于“输入”或“输出”步骤类型。
查看相关值
您可以使用突出显示来查找字段之间的相关值。当您在“配置”窗格或“结果”窗格的“配置”卡中单击某个值时,其他字段中的所有相关值会以蓝色突出显示。蓝色显示您选择的值与其他字段中的值之间的关系分布。
例如,若要突出显示相关值,请在“配置”窗格中单击字段中的一个值。其他字段中的相关值将变为蓝色,以蓝色突出显示的条形比例表示关联程度。
突出显示相同的值
在数据网格中选择值时,所有相同的值也会突出显示。这些突出显示可帮助您确定数据中的模式或不规则情况。