社区
博客
Tableau Research | 超越默认设置:利用 GROOT 定制个性化的数据洞察
对算法生成的初始洞察进行交互式编辑,并允许重新配置分析参数,最终实现符合个性化需求的洞察定制。

随着数据可视化工具的不断发展,数据洞察的重点逐渐从“纯粹的数据呈现”向“主动提供决策指导性洞察”转变。在当今的分析工作流中,自动洞察工具日益普及,能快速揭示数据中的关联性、异常值和分布特征。然而,目前主流的自动洞察工具普遍存在灵活性不足的问题。

以业内主流工具为例,Tableau 的 Explain Data 或 Power BI 的 Quick Insights 功能通常是以黑盒方式运行,基于预定义的规则生成洞察。这些工具虽能揭示一些有价值的信息,但也可能忽略某些对用户来说至关重要的细节。

比如,系统可能过度强调存在相关性的指标,却忽视“无相关性”这一重要发现;或机械地标记极值数据点,未能构建具有业务意义的对比维度。这种脱离用户实际需求的自动化输出,对具备领域知识的专业人士尤为不便。

为了应对这一难题,由 Sneha Gathani、Anamaria Crisan、Vidya Setlur 和 Arjun Srinivasan 组成的 Tableau 研究小组开发了 GROOT 系统,支持用户对算法生成的初始洞察进行交互式编辑,并允许重新配置分析参数,最终实现符合个性化需求的洞察定制。最棒的是,相关研究成果已在 2024 年 IEEE VIS 学术会议上公开发表。

所以,今天就让我们一起了解 GROOT 的奇妙之处,看看它在业务分析场景中的实用价值。


GROOT 如何量身定制个性化洞察?

GROOT 允许通过以下三种方式编辑和重新配置自动生成的数据洞察:

(1)在图表中选取标记,以获得基于所选数据的洞察推荐;

(2)通过调整默认洞察的模板或生成洞察的阈值,重新配置已有洞察;

(3)通过指定文本模板,添加全新的自定义洞察。

图1

借助 GROOT,用户可直接在图表上与数据进行交互,以生成更多基于选中数据的洞察。

如上图所示,当用户在条形图中选择特定数据点后,系统会根据指令生成新的洞察,突出这些数据点之间的差异或获取具体的数值。这种方式超越了传统默认洞察,赋予用户对数据分析故事更大的掌控力。

此外,除了支持基于图表的直接操作生成新洞察外,GROOT 还支持用户对生成洞察的底层逻辑进行调整,重新设定系统的启发式规则,更精确地捕捉数据中的细微差异。比如,通过提高或降低判断异常值的阈值,用户能让生成的洞察更符合自身特定的分析需求。


GROOT 系统功能演示详解

为进一步说明 GROOT 系统的能力,Tableau 研究团队给出了一个使用场景:假设,商业分析师Phoebe 正在探索公司的销售数据。

当 Phoebe 在 GROOT 的三个主要视图中操作时——即数据表视图(如图2A)、图表视图(如图2B)和洞察视图(如图2C),她通过选择不同的数据属性对数据进行筛选,重点关注“销售额”和“地区”两个属性。

图2:GROOT 包含三个主要视图:数据表视图(A)、图表视图(B)以及洞察视图(C)

随后,GROOT 自动生成了一系列图表和洞察,包括:用散点图展示各个地区销售额差异并突出异常值;用条形图展示各地区的平均和总销售额的极端值洞察。

图3:在去除“未指定”订单优先级的数据行前后,各地区总销售额的条形图发生了明显变化

当查看各地区总销售额时(图3A), Phoebe 发现中部地区销售额最高,而南部地区则明显偏低。进一步调查后,她意识到数据中存在一些订单优先级未指定的条目,因此决定删除这些数据行,使系统动态更新生成的洞察(图3C)。

完成数据清理后,Phoebe 进一步分析中部和南部地区之间的销售额差异。当点击对应地区的条形图后,GROOT 随即生成新的洞察:一个洞察展示了每个地区的具体销售额,另一个则明确指出了两者之间的差异(图1-1)。

图4:从图 1-1 生成的关于中部与南部地区销售差异的洞察,自动传播到“单价 × 地区”的条形图中(A)。

散点图(销售额 × 利润)默认生成了一个相关性洞察(B)。从图 1-2 传播到“销售额 × 产品基础利润率”散点图的新相关性洞察(C)。

随后,Phoebe 将这些新洞察添加到她的图表中,并更新了系统生成洞察的逻辑,使这些差异在未来的图表中自动突出显示(图4A)。接下来,她好奇销售额增加是否对应利润增加,因此查看了一张散点图,该图显示二者呈现正相关关系(图4B)。

但当她转而分析销售额与折扣之间的关系时,默认系统未生成任何洞察。于是 Phoebe 通过 GROOT 的编辑界面,自定义了系统逻辑,降低洞察相关性判断的阈值,并编辑了洞察模板,以主动标示两者不存在相关性。

值得一提的是,此自定义洞察后续也自动传播到其他散点图中,如销售额与产品基础利润率的散点图(图4C)。

图5:重新配置运费的异常值洞察(A),通过查看公式(B)并编辑公式(C),减少了被标记为异常值的数据点数量(D)

随着深入探索, Phoebe 决定重新配置系统生成的洞察来分析运输成本。当注意到散点图中标记了过多的异常值时,她对异常值的判断公式进行了调整,下调了低成本项目的判断阈值,从而减少了被突出显示的异常值数量(图5A-D)。

图6:指定新自定义洞察的模板。“@”符号用于引用数据集中的属性(A),“=”符号用于引用数学计算(B),“{}”符号则用于在交互式编辑界面中定义公式

最后,Phoebe 还使用了 GROOT 提供的交互式洞察模板编辑界面,添加了一个自定义的洞察,以突出显示运费最高的产品类别(图 6)。


未来展望:下一步是什么?

如上所述,GROOT 不仅仅是一种调整数据洞察的工具,更代表了人们对自动化数据洞察系统思考方式的转变。

通过赋予用户更大的控制权,GROOT 提高了数据洞察生成过程的透明度和灵活性,使洞察更贴合用户自身的领域知识。此外,GROOT 系统的推出也为未来研究开辟了新的方向,例如未来可结合大语言模型(LLMs),提供更深入、更细致的洞察建议与解释。

然而,尽管 LLMs 在生成文本型洞察和解释方面具备优势,但它们仍难以充分理解特定领域的知识或专家关注的数据细微之处,因此,在高风险的数据分析场景中,用户主导的洞察定制依然至关重要。

正如漫威宇宙中的同名角色“格鲁特”(Groot)一样,在踏出舒适区、帮助银河护卫队保护宇宙的过程中,不断拓展自身边界;同样地,在数据探索领域,未来 Tableau 还有许多研究空间,去设计更加灵活且智能的伙伴型系统,为用户提供更具适应性与个性化的数据洞察服务。



如果对这项研究感兴趣,可通过浏览器访问网址,观看 Tableau 研究团队在 IEEE VIS 2024 大会上的汇报视频下载探索成果报告



获取最新的数据新闻

注册以获取 优阅达 Data Blog 的快讯、见解和研究