Power BI 微课堂 | 第15课:用 Power Query 检查数据质量
今天,我们来学习:用 Power Query 检查数据质量,了解在创建分析前,如何通过 Power BI 的模型视图与 Power Query 编辑器检查数据结构与质量。
》前言
分析数据是指了解数据的细微差别:确定异常、检查并开发基本数据结构以及查询数据统计信息,例如行计数、值分布、最小值和最大值,以及平均值等。
这一概念很重要,因为它使你能够对数据进行调整和整理,以便轻松地与数据交互并识别数据的分布,这有助于在几乎毫不费力的情况下在前端处理数据来开发报表元素。
场景描述
假设你正在为企业的销售团队开发报表,但不确定数据的结构化方式以及数据是如何包含在表中的。因此,需要在开发视觉对象之前,先在幕后检查和分析数据质量。
Power BI 的固有功能可以让上述任务完成得更直接且对用户友好。
》检查数据结构
在 Power Query 编辑器中开始检查数据之前,应首先了解数据的基本结构。我们可以在 Power BI Desktop 的“模型”选项卡下查看当前的数据模型。

在“模型”选项卡上,可以通过选择表或列来编辑特定列和表属性,并可使用“转换数据”选项来转换数据,这会让你转至 Power Query 编辑器中进行操作。
此外,你还可使用菜单栏上的“管理关系”选项来管理、创建、编辑和删除不同表之间的关系。
》查找数据异常和数据统计信息
在创建了到数据源的连接并选择“转换数据”后,Power BI 会自动弹出 Power Query 编辑器,你可以从中确定数据中是否存在异常。
数据异常是指数据中存在离群值。确定数据存在哪些异常有助于确定数据是否正常分布,以及是否存在需要进一步调查的特定数据点。
在 Power Query 编辑器中,可以使用“列分布”功能来确定数据异常。
如下图所示,打开“视图”菜单后,可从“数据预览”的一些选项中进行选择。若要了解数据异常和统计信息,请选择“列分布”、“列质量”和“列分析”选项。

下图显示了出现的统计信息。我们可以看到,开启“列质量”和“列分布”后,数据列的上方会显示一些微型图表。

列质量(Column quality)
“列质量”用于显示有效、错误和空数据的百分比。
理想情况下,100% 的数据都需是有效数据。请注意:默认情况下,Power Query 会查看数据集的前 1000 行。若要更改此设置,请在左下角的状态栏中选择分析状态,然后选择“基于整个数据集的列分析”。

列分布(Column ditribution)
“列分布”用于显示数据在列内的分布情况以及明确和唯一值的计数,这两者都可以指示出数据计数的详细信息。
明确值是列中所有不同的值,包括重复值和 NULL 值;而唯一值则不包含重复值和 NULL 值。因此,这个表中的“distinct”指明总共出现多少个值,而“unique”则指明这些值中有多少只出现了一次。
列分析(Column profile)
使用“列分析”,可以深入了解前 1000 行数据在列内的统计信息。此列提供了若干个不同的值,包括行计数,这在验证数据是否已成功导入时非常重要。
例如,如果原始数据库有 100 行,则可以使用这一行计数来验证是否存在 100 行。如果是,则表示已正确导入。此外,这一行计数将显示 Power BI 已视为离群值的行数、空行和字符串以及最小值和最大值,这将分别指示列中最小和最大值。
这种区别对于数字类型的数据尤其重要,因为如果你的最大值超出了业务所定义的“最大值”,它将立即通知你。该值会引起你的注意,这意味着你可以集中精力进行深入研究。
如果数据位于文本类型的列中(如下图所示),在数据按字母顺序排序时,最小值是第一个值,而最大值是最后一个值。
此外,“值分布”图还会指示该特定列中每个非重复值的计数。可以注意到,值分布指示“Anthony Grosse”在“SalesPerson”列中出现的次数最多,“Lily Code”出现的次数最少。

此信息十分重要,因为它可以标识离群值。如果某个值远远大于列中的其他值,通过“值分布”功能,可以确定开始调查出现此情况原因的位置。
而在数值类型的列上,“列统计信息”图表还会呈现包含存在多少个零和 NULL 值,以及列中的平均值、列中值的标准偏差和列中偶数和奇数值的数量。
这些统计信息使你能够了解数据在列中的分布情况,并且十分重要,因为它们会在列中汇总数据并充当确定离群值的起点。
例如,在查看发票数据时,你注意到“值分布”图显示“SalesPerson”列中的一些销售人员在数据中出现的次数相同。此外,还注意到“Profit”列以及其他一些表中也出现了相同的情况。
所以,在检查过程中,你就能发现使用的数据是错误的,需要刷新。这时,你应该立即进行刷新来确保数据正确。如果不查看这个图,你可能不会如此快速地看到此错误,因此,“值分布”是必不可少的功能。
》应用更改并开始分析
在 Power Query 编辑器中完成你的编辑并且准备开始生成视觉对象后,请回到 Power Query 编辑器的“开始”菜单。选择“关闭并应用”,这将使你回到 Power BI Desktop,并应用上述所有的数据列编辑或转换效果。
学完本节课后,你基本可以确定构成 Power BI 数据分析的元素,如在 Power BI 中加载数据、询问列属性以清楚了解列数据类型和格式并进一步编辑、发现数据异常,以及在 Power Query 编辑器中检查数据质量。
以上就是关于「用 Power Query 检查数据质量」的全部内容。感谢您的耐心阅读,更多 Power BI 学习资源,请持续关注优阅达大数据生态。
400 998 0226
Tableau
Tableau
Minitab

Alteryx











Neo4j











Talend


















IM
华为云
腾讯云
IT/安全