举个栗子!Tableau 技巧(74):运用本福德定律(Benford's law)验证数据真实性

发布于: 2022-10-20

本福德定律:本福德定律(本福德法则 Benford's law ),也称为本福德法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值 1/9 的 3 倍。而越大的数值,以它为首几位的数出现的机率就越低。

本福德定律对数据工作的价值在于:它可以用于检查数据源是否有问题。

当欺诈者伪造数据时,他们或许想不到要去创建符合本福德定律的假数据。在某些情况下,可以运用本福德定律检测伪造数据或者对数据真实性做出验证。

图片来自网络

那么,在 Tableau 中,如何运用本福德定律验证数据真实性呢?这里,我将方法分享给大家。

本期《举个栗子》,阿达要给大家分享的Tableau技巧是:运用本福德定律(Benford's law)验证数据真实性。

栗子使用 Tableau 自带的“Sample-Superstore”数据源,验证其销售数据。

Step 1:创建计算字段

首先,我们需要创建两个必要的计算字段:“首数字”和“本福德定律”。

◆ 首数字:LEFT(STR([Sales]),1)

◆ 本福德定律:LOG(INT([首数字])+1)-LOG(INT([首数字]))

Tips:本福德定律说明在b进位制中,以数n起头的数出现的机率为(logb(n + 1) − logb(n)).本福德定律不但适用于个位数字,连多位的数也可用。

Step 2:创建视图

将“首数字”拖拽到“列”,将“记录数“拖拽到”行“;

更改“记录数”的快速表计算为“合计百分比”;

现在,我们就可以看到 Sales 字段呈如下的分布形式了,这就说明该字段基本符合本福德定律。

接下来,我们可以通过添加引用分布来执行更多操作以精确地查看数据。

Step 3:查看分布情况

将“本福德定律”字段拖拽到“详细信息”标记卡中;

更改该胶囊的度量为“最小值”;

切换到分析窗格,将“分布区间”拖拽到画布的“单元格”选项中;

在编辑对话框中,更改“计算-值”的设置。在“百分比”区域中键入“80,100,120”(这会指定希望区间介于 80% 到 100% 以及 100% 到 120%),并且在“百分比”字段中,选择“最小(本福德定律)”;

Step 4:配置外观

以下的步骤将用于配置参考区间的外观,便于更直观的查看数据结果。

“标签”为“无”、“线”为最细型的可用线、“填充”为“停止指示灯”、勾选“向下填充”;配置完成后点击“确定”;

最后,单击功能栏中的“显示标记标签”功能,让百分比数字显现出来。

通过上图,我们很容易发现:虽然 Superstore 是系统自带的演示数据,但它也是达到符合本福德定律程度的现实数据。

蓝色条表明首数字实际百分比超过视图中显示预期本福德值的 100%(分布在绿色区间的值说明改区间超过预期本福德值的100%,黄色区间则介于80%~100%之间)。

今天的 Tableau 技巧,你 Get 到了吗?赶快打开你的 Tableau,试试看吧!


更多相关信息,请访问专题页: 数据可视化展示软件