Power BI 微课堂 | 第15课:用 Power Query 检查数据质量

發布於: 2023-09-12

今天,我们来学习:用 Power Query 检查数据质量,了解在创建分析前,如何通过 Power BI 的模型视图与 Power Query 编辑器检查数据结构与质量。


》前言

分析数据是指了解数据的细微差别:确定异常、检查并开发基本数据结构以及查询数据统计信息,例如行计数、值分布、最小值和最大值,以及平均值等。

这一概念很重要,因为它使你能够对数据进行调整和整理,以便轻松地与数据交互并识别数据的分布,这有助于在几乎毫不费力的情况下在前端处理数据来开发报表元素。

  • 场景描述

假设你正在为企业的销售团队开发报表,但不确定数据的结构化方式以及数据是如何包含在表中的。因此,需要在开发视觉对象之前,先在幕后检查和分析数据质量。

Power BI 的固有功能可以让上述任务完成得更直接且对用户友好。


》检查数据结构

在 Power Query 编辑器中开始检查数据之前,应首先了解数据的基本结构。我们可以在 Power BI Desktop 的“模型”选项卡下查看当前的数据模型。

在“模型”选项卡上,可以通过选择表或列来编辑特定列和表属性,并可使用“转换数据”选项来转换数据,这会让你转至 Power Query 编辑器中进行操作。

此外,你还可使用菜单栏上的“管理关系”选项来管理、创建、编辑和删除不同表之间的关系。


》查找数据异常和数据统计信息

在创建了到数据源的连接并选择“转换数据”后,Power BI 会自动弹出 Power Query 编辑器,你可以从中确定数据中是否存在异常。

数据异常是指数据中存在离群值。确定数据存在哪些异常有助于确定数据是否正常分布,以及是否存在需要进一步调查的特定数据点。

在 Power Query 编辑器中,可以使用“列分布”功能来确定数据异常。

如下图所示,打开“视图”菜单后,可从“数据预览”的一些选项中进行选择。若要了解数据异常和统计信息,请选择“列分布”、“列质量”和“列分析”选项。

下图显示了出现的统计信息。我们可以看到,开启“列质量”和“列分布”后,数据列的上方会显示一些微型图表。

  • 列质量(Column quality)

“列质量”用于显示有效、错误和空数据的百分比。

理想情况下,100% 的数据都需是有效数据。请注意:默认情况下,Power Query 会查看数据集的前 1000 行。若要更改此设置,请在左下角的状态栏中选择分析状态,然后选择“基于整个数据集的列分析”。

  • 列分布(Column ditribution)

“列分布”用于显示数据在列内的分布情况以及明确和唯一值的计数,这两者都可以指示出数据计数的详细信息。

明确值是列中所有不同的值,包括重复值和 NULL 值;而唯一值则不包含重复值和 NULL 值。因此,这个表中的“distinct”指明总共出现多少个值,而“unique”则指明这些值中有多少只出现了一次。

  • 列分析(Column profile)

使用“列分析”,可以深入了解前 1000 行数据在列内的统计信息。此列提供了若干个不同的值,包括行计数,这在验证数据是否已成功导入时非常重要。

例如,如果原始数据库有 100 行,则可以使用这一行计数来验证是否存在 100 行。如果是,则表示已正确导入。此外,这一行计数将显示 Power BI 已视为离群值的行数、空行和字符串以及最小值和最大值,这将分别指示列中最小和最大值。

这种区别对于数字类型的数据尤其重要,因为如果你的最大值超出了业务所定义的“最大值”,它将立即通知你。该值会引起你的注意,这意味着你可以集中精力进行深入研究。

如果数据位于文本类型的列中(如下图所示),在数据按字母顺序排序时,最小值是第一个值,而最大值是最后一个值。

此外,“值分布”图还会指示该特定列中每个非重复值的计数。可以注意到,值分布指示“Anthony Grosse”在“SalesPerson”列中出现的次数最多,“Lily Code”出现的次数最少。

此信息十分重要,因为它可以标识离群值。如果某个值远远大于列中的其他值,通过“值分布”功能,可以确定开始调查出现此情况原因的位置。

而在数值类型的列上,“列统计信息”图表还会呈现包含存在多少个零和 NULL 值,以及列中的平均值、列中值的标准偏差和列中偶数和奇数值的数量。

这些统计信息使你能够了解数据在列中的分布情况,并且十分重要,因为它们会在列中汇总数据并充当确定离群值的起点。

例如,在查看发票数据时,你注意到“值分布”图显示“SalesPerson”列中的一些销售人员在数据中出现的次数相同。此外,还注意到“Profit”列以及其他一些表中也出现了相同的情况。

所以,在检查过程中,你就能发现使用的数据是错误的,需要刷新。这时,你应该立即进行刷新来确保数据正确。如果不查看这个图,你可能不会如此快速地看到此错误,因此,“值分布”是必不可少的功能。


》应用更改并开始分析

在 Power Query 编辑器中完成你的编辑并且准备开始生成视觉对象后,请回到 Power Query 编辑器的“开始”菜单。选择“关闭并应用”,这将使你回到 Power BI Desktop,并应用上述所有的数据列编辑或转换效果。

学完本节课后,你基本可以确定构成 Power BI 数据分析的元素,如在 Power BI 中加载数据、询问列属性以清楚了解列数据类型和格式并进一步编辑、发现数据异常,以及在 Power Query 编辑器中检查数据质量。



以上就是关于「用 Power Query 检查数据质量」的全部内容。感谢您的耐心阅读,更多 Power BI 学习资源,请持续关注优阅达大数据生态。