社区
博客
Tableau Research | 超越默认设置:利用 GROOT 定制个性化的数据洞察
对算法生成的初始洞察进行交互式编辑,并允许重新配置分析参数,最终实现符合个性化需求的洞察定制。

随着数据可视化工具的不断发展,数据洞察的重点逐渐从“纯粹的数据呈现”向“主动提供决策指导性洞察”转变。在当今的分析工作流中,自动洞察工具日益普及,能快速揭示数据中的关联性、异常值和分布特征。然而,目前主流的自动洞察工具普遍存在灵活性不足的问题。

以业内主流工具为例,Tableau 的 Explain Data 或 Power BI 的 Quick Insights 功能通常是以黑盒方式运行,基于预定义的规则生成洞察。这些工具虽能揭示一些有价值的信息,但也可能忽略某些对用户来说至关重要的细节。

比如,系统可能过度强调存在相关性的指标,却忽视“无相关性”这一重要发现;或机械地标记极值数据点,未能构建具有业务意义的对比维度。这种脱离用户实际需求的自动化输出,对具备领域知识的专业人士尤为不便。

为了应对这一难题,由 Sneha Gathani、Anamaria Crisan、Vidya Setlur 和 Arjun Srinivasan 组成的 Tableau 研究小组开发了 GROOT 系统,支持用户对算法生成的初始洞察进行交互式编辑,并允许重新配置分析参数,最终实现符合个性化需求的洞察定制。最棒的是,相关研究成果已在 2024 年 IEEE VIS 学术会议上公开发表。

所以,今天就让我们一起了解 GROOT 的奇妙之处,看看它在业务分析场景中的实用价值。


GROOT 如何量身定制个性化洞察?

GROOT 允许通过以下三种方式编辑和重新配置自动生成的数据洞察:

(1)在图表中选取标记,以获得基于所选数据的洞察推荐;

(2)通过调整默认洞察的模板或生成洞察的阈值,重新配置已有洞察;

(3)通过指定文本模板,添加全新的自定义洞察。

图1

借助 GROOT,用户可直接在图表上与数据进行交互,以生成更多基于选中数据的洞察。

如上图所示,当用户在条形图中选择特定数据点后,系统会根据指令生成新的洞察,突出这些数据点之间的差异或获取具体的数值。这种方式超越了传统默认洞察,赋予用户对数据分析故事更大的掌控力。

此外,除了支持基于图表的直接操作生成新洞察外,GROOT 还支持用户对生成洞察的底层逻辑进行调整,重新设定系统的启发式规则,更精确地捕捉数据中的细微差异。比如,通过提高或降低判断异常值的阈值,用户能让生成的洞察更符合自身特定的分析需求。


GROOT 系统功能演示详解

为进一步说明 GROOT 系统的能力,Tableau 研究团队给出了一个使用场景:假设,商业分析师Phoebe 正在探索公司的销售数据。

当 Phoebe 在 GROOT 的三个主要视图中操作时——即数据表视图(如图2A)、图表视图(如图2B)和洞察视图(如图2C),她通过选择不同的数据属性对数据进行筛选,重点关注“销售额”和“地区”两个属性。

图2:GROOT 包含三个主要视图:数据表视图(A)、图表视图(B)以及洞察视图(C)

随后,GROOT 自动生成了一系列图表和洞察,包括:用散点图展示各个地区销售额差异并突出异常值;用条形图展示各地区的平均和总销售额的极端值洞察。

图3:在去除“未指定”订单优先级的数据行前后,各地区总销售额的条形图发生了明显变化

当查看各地区总销售额时(图3A), Phoebe 发现中部地区销售额最高,而南部地区则明显偏低。进一步调查后,她意识到数据中存在一些订单优先级未指定的条目,因此决定删除这些数据行,使系统动态更新生成的洞察(图3C)。

完成数据清理后,Phoebe 进一步分析中部和南部地区之间的销售额差异。当点击对应地区的条形图后,GROOT 随即生成新的洞察:一个洞察展示了每个地区的具体销售额,另一个则明确指出了两者之间的差异(图1-1)。

图4:从图 1-1 生成的关于中部与南部地区销售差异的洞察,自动传播到“单价 × 地区”的条形图中(A)。

散点图(销售额 × 利润)默认生成了一个相关性洞察(B)。从图 1-2 传播到“销售额 × 产品基础利润率”散点图的新相关性洞察(C)。

随后,Phoebe 将这些新洞察添加到她的图表中,并更新了系统生成洞察的逻辑,使这些差异在未来的图表中自动突出显示(图4A)。接下来,她好奇销售额增加是否对应利润增加,因此查看了一张散点图,该图显示二者呈现正相关关系(图4B)。

但当她转而分析销售额与折扣之间的关系时,默认系统未生成任何洞察。于是 Phoebe 通过 GROOT 的编辑界面,自定义了系统逻辑,降低洞察相关性判断的阈值,并编辑了洞察模板,以主动标示两者不存在相关性。

值得一提的是,此自定义洞察后续也自动传播到其他散点图中,如销售额与产品基础利润率的散点图(图4C)。

图5:重新配置运费的异常值洞察(A),通过查看公式(B)并编辑公式(C),减少了被标记为异常值的数据点数量(D)

随着深入探索, Phoebe 决定重新配置系统生成的洞察来分析运输成本。当注意到散点图中标记了过多的异常值时,她对异常值的判断公式进行了调整,下调了低成本项目的判断阈值,从而减少了被突出显示的异常值数量(图5A-D)。

图6:指定新自定义洞察的模板。“@”符号用于引用数据集中的属性(A),“=”符号用于引用数学计算(B),“{}”符号则用于在交互式编辑界面中定义公式

最后,Phoebe 还使用了 GROOT 提供的交互式洞察模板编辑界面,添加了一个自定义的洞察,以突出显示运费最高的产品类别(图 6)。


未来展望:下一步是什么?

如上所述,GROOT 不仅仅是一种调整数据洞察的工具,更代表了人们对自动化数据洞察系统思考方式的转变。

通过赋予用户更大的控制权,GROOT 提高了数据洞察生成过程的透明度和灵活性,使洞察更贴合用户自身的领域知识。此外,GROOT 系统的推出也为未来研究开辟了新的方向,例如未来可结合大语言模型(LLMs),提供更深入、更细致的洞察建议与解释。

然而,尽管 LLMs 在生成文本型洞察和解释方面具备优势,但它们仍难以充分理解特定领域的知识或专家关注的数据细微之处,因此,在高风险的数据分析场景中,用户主导的洞察定制依然至关重要。

正如漫威宇宙中的同名角色“格鲁特”(Groot)一样,在踏出舒适区、帮助银河护卫队保护宇宙的过程中,不断拓展自身边界;同样地,在数据探索领域,未来 Tableau 还有许多研究空间,去设计更加灵活且智能的伙伴型系统,为用户提供更具适应性与个性化的数据洞察服务。



如果对这项研究感兴趣,可通过浏览器访问网址,观看 Tableau 研究团队在 IEEE VIS 2024 大会上的汇报视频下载探索成果报告



获取最新的数据新闻

注册以获取 优阅达 Data Blog 的快讯、见解和研究

省份
北京市
天津市
河北省
山西省
内蒙古自治区
辽宁省
吉林省
黑龙江省
上海市
江苏省
浙江省
安徽省
福建省
江西省
山东省
河南省
湖北省
湖南省
广东省
广西壮族自治区
海南省
重庆市
四川省
贵州省
云南省
西藏自治区
陕西省
甘肃省
青海省
宁夏回族自治区
新疆维吾尔自治区
台湾省
香港特别行政区
澳门特别行政区
海外
城市
行业
协会与非盈利组织
农业与矿业
汽车
航空与国防
银行与金融
商业服务
建筑
消费品与服务
教育
能源与公用事业
食品与饮料
政府
硬件
航空与国防
银行与金融
投资服务
制造业
媒体、娱乐与出版
药物与生物科技
零售与分销
软件与技术
电信
运输与物流
旅行与接待
其他
角色
分析师
协调员/专家
教授/教师
学生
主管
经理
CEO/总裁
高管人员
副总裁
校长/院长/教务长
架构师
开发人员/工程师
顾问/系统集成师
其他