内容:
- 构建图表和分析数据
- 嵌入和保存“数据问答”(Ask Data) 功能中的可视化
- “数据问答”(Ask Data)功能支持的分析函数
- 创建针对特定受众聚焦“数据问答”(Ask Data) 功能
- 针对“数据问答”(Ask Data)功能(Ask Data)优化数据
- 为“数据问答”(Ask Data)功能添加同义词
- 为站点禁用或启用“数据问答”(Ask Data) 功能
- 在“数据”窗格中组织和自定义字段
- 编辑字段的默认设置和属性
- 在视图中创建别名以重命名成员
- 在离散和连续之间转换字段
- 将度量转换为维度
- 创建分层结构
- 对数据进行分组
- 使用组为视图设置颜色
- 通过将数据分组来纠正数据错误或合并维度成员
- 创建集
- 为“前 N 个”和“其他”创建集
- 创建参数
- 使用参数使视图更具交互性
- 示例 – 向地图视图中添加参数
- 示例 – 使用参数交换度量
- 自定义日期和时间字段
- 数据源的日期属性
- 更改日期级别
- 自定义日期
- 会计日期
- 完善日期转置
- 自定义日期格式
- ISO-8601 基于周的日历
- 在自定义日期格式中使用基于周的占位符
- 连续日期
- 从头开始构建数据视图
- 通过将字段拖到视图中来开始构建可视化项
- 在视图中使用轴和多个度量
- 度量值与度量名称
- 处理 Null 值和其他特殊值
- 显示或隐藏缺少的值或空行和空列
- 使用“智能显示”启动视图
- 添加视觉细节
- 更改标记的类型
- 控制标记的外观
- 显示和隐藏标记标签
- 移动标记
- 堆叠标记
- 调色板和效果
- 示例 –“颜色”上的多个字段
- 对数据进行筛选和排序
- 筛选数据
- 跨多个数据源筛选数据
- 创建相对日期筛选器
- 使用上下文筛选器改善性能
- 将筛选器应用于多个工作表
- 对数据进行排序
- 展示见解
- 显示合计
- 添加注释
- 在工具提示中创建视图(工具提示内部可视化项)
- 使用动作添加交互功能
- 筛选动作
- 突出显示动作
- 颜色图例突出显示
- 在上下文中突出显示数据点
- 突出显示工具栏按钮
- 创建高级突出显示动作
- URL 动作
- 参数动作
- 集动作
- 运行动作
- 动作和仪表板
- 筛选动作
- 突出显示动作
- 在上下文中突出显示数据点
- 突出显示工具栏按钮
- 在动作名称中使用字段和筛选器值
- 生成常用图表类型
- 生成区域图
- 生成条形图
- 生成盒形图
- 构建标靶图
- 使用密度标记进行构建(热图)
- 生成甘特图
- 生成突出显示表
- 生成直方图
- 生成折线图
- 生成填充气泡图
- 生成饼图
- 生成散点图
- 生成文本表
- 生成树状图
- 生成组合图
- 构建高级图表类型
- 将计算列添加至视图
- 计算 Z 分数
- 显示关键进度指标
- 创建帕累托图
- 创建人口金字塔图
- 使用参数和集创建同现可视化
- 直观显示本福德定律
- 依据连续度量创建数据桶
- 针对辅助功能构建数据视图
- 设计无障碍视图的最佳做法
- 针对辅助功能制作视图
- 地图和地理数据分析
- 入门指南教程
- 地图概念
- 地图工作区
- 使用位置数据
- 连接到数据库中的空间数据
- 在 Tableau 中联接空间文件
- 在地图上绘制无法识别的位置
- 创建 schema.ini 文件
- 混合地理数据
- 自定义地理编码与数据混合
- 分配地理角色
- 编辑未知或不明确的位置
- 构建地图
- 简单地图
- 基于空间文件的地图
- 为地图创建地理层
- 显示定量值的地图
- 突出显示可视数据群集的地图
- 显示比例或聚合数据的地图
- 显示随时间变化的路径的地图
- 显示密度或趋势的地图
- 显示起点和终点之间的路径的地图
- 双轴(分层)地图
- 包含饼图的填充地图
- 自定义地图的外观
- 在地图上创建领地
- 自定义用户与地图的交互方式
- 选择背景地图
- 使用 Mapbox 地图
- 使用 WMS 服务器
- 保存地图源
- 导入地图源
- 浏览地图中的数据
- 在地图中搜索位置
- 入门指南教程
- 地图概念
- 地图工作区
- 在地图中测量数据点与位置之间的距离
- 地图图像存储
- 使用背景图像
- 在 Tableau 中将 Google 地图和 OpenStreetMap 的图像添加为背景图像
- 查找背景图像坐标
- 分析数据
- 使用“数据解释”功能更快地发现见解
- “数据解释”功能入门
- 解释类型
- 使用“数据解释”功能的要求和注意事项
- 控制对“数据解释”功能的访问
- “数据解释”功能的工作原理
- 查看分析的字段
- 为站点禁用或启用“数据解释”功能
- 使用数据更改雷达识别异常值(有限预览)
- 添加参考线、参考区间、参考分布和参考箱
- 显示趋势线
- 标记线
- 在数据中查找群集
- 预测数据
- Tableau 中的预测工作原理
- 创建预测
- 在视图中没有日期时进行预测
- 预测字段结果
- 配置预测选项
- 查看预测说明
- 预测疑难解答
- 解决预测错误
- 预测建模
- 预测建模函数在 Tableau 中的工作方式
- 选择预测模型
- 选择预测因子
- 预测建模中的计算依据和数据分区
- 示例 - 使用预测建模函数探索女性预期寿命
- 时间系列可视化项中的预测建模函数
- 使用生成的标记的预测建模
- 预测建模中的正则化与扩增
- 解决预测建模函数中的错误
- Tableau 中的 Einstein Discovery
- 使用 Einstein Discovery 仪表板扩展程序在 Tableau 中浏览预测
- 将表达式传递到分析扩展程序
- 分析扩展程序连接疑难解答
- 创建计算字段
- 计算入门指南
- 创建简单的计算字段
- 了解计算
- 计算的类型
- 选择正确的计算类型
- 关于了解如何创建计算的提示
- 创建计算的最佳做法
- 设置计算的格式
- 函数
- 数字函数
- 字符串函数
- 日期函数
- 类型转换
- 逻辑函数
- 聚合函数
- 直通函数 (RAWSQL)
- 用户函数
- 表计算函数
- 空间函数
- 预测建模函数
- 其他函数
- Tableau 中的 FORMAT() 函数解决方法
- 所有函数(分类)
- 所有函数(按字母顺序)
- 表计算
- 表计算类型
- 快速表计算
- 自定义表计算
- 详细级别表达式
- 概述:详细级别表达式
- 表范围详细级别表达式
- FIXED 详细级别表达式
- INCLUDE 详细级别表达式
- EXCLUDE 详细级别表达式
- 使详细级别表达式与视图详细级别一致
- 筛选器和详细级别表达式
- 详细级别表达式的数据源约束
- 使用计算字段的提示
- 临时计算
- 使用计算进行聚焦
- 计算百分比
- 在视图中浏览和检查数据
- 缩放和平移视图,以及选择标记
- 撤消和重做
- 摘要卡
- 查看基础数据
预测建模中的正则化与扩增
tableau- 版本 :2022.1 及更高版本
适用于: Tableau Desktop, Tableau Online, Tableau Public, Tableau Server
许多使用 Tableau 的人可能不使用预测建模,更不用说寻找方法来提高预测模型的拟合和预测质量。本文适用于对数据科学这一领域感兴趣的高级用户。
除了目标表达式(要预测的度量)和预测因子表达式(用于进行预测的度量和/或维度)等默认参数外,您还可以再添加两个参数来微调您的预测 :lambda、正则化参数和扩增。这涉及到将新参数添加到计算的语法中。
哪些模型可与正则化和扩增一起使用?
提醒一下,Tableau 中的预测建模函数支持三种模型:线性回归(也称为普通最小二乘回归,或 OLS)、正则化线性回归(或岭回归)和高斯过程回归。如果您使用线性回归或岭回归,则扩增允许您提高模型拾取非线性模式的能力。如果您使用的是岭回归,则正则化参数是一个标量,可用于调整模型上的正则化效果。
正则化和扩增不适用于高斯过程回归。
在进一步讨论正则化和扩增之前,让我们回顾一下以下两个模型:
线性回归最适合用于预测和预测目标之间有线性关系的一个或多个预测因子,它们不受相同基础条件的影响,并且它们不表示同一数据的两个实例(例如,以美元和欧元表示的销售额)。
正则化线性回归用于提高稳定性,减少共线性的影响,并改善计算效率和泛化。在 Tableau 中,使用 L2 正则化。有关 L2 正则化的详细信息,请参见有关岭回归的课程。
什么是正则化?
岭回归是一种特定的正则化线性回归。正则化对模型系数的大小施加了惩罚。正则化的强度由 lambda 控制,后者是用于微调正则化整体影响的标量。值越高,惩罚越重(即正则化程度越高)。
岭回归解决了线性回归的一些问题:
它消除了预测因子间多重共线性带来的病态。
如果最小二乘问题是病态的,例如如果数据点的数量少于特征的数量,那么 lambda 将选择唯一的解。
它为提高线性模型的泛化能力提供了一种途径。
默认情况下,Tableau 中的岭回归具有 lambda=0.5,因为此值在许多情况下效果良好。若要更改 lambda 值,只需编辑表计算(如下例所示)。
什么是扩增?
MODEL_QUANTILE 和 MODEL_PERCENTILE 的扩增是数据扩增的一个简单示例:预测因子扩展到更高阶的多项式。在 Tableau 中,预测建模函数内置了几种类型的多项式加法。
在线性回归中,默认情况下,只有有序维度在 augmentation=on 的情况下被扩增;在 model=rl 的岭回归中,默认情况下仅增加度量。若要覆盖设置并禁用计算中每个预测因子的扩增,请使用 augmentation=off;不会添加更高阶的多项式。
当数据集非常小时,关闭扩增是有利的,因为扩增可能过度拟合原始数据中存在的任何噪音,也因为由此产生的关系更简单、更直观。
注意:基于每个预测因子(即,在您的计算的预测因子参数内)打开/关闭扩增。Lambda(和模型)应用于更高级别(在任何预测因子表达式之外)。
在计算中配置 lambda 和扩增
现在,您了解了正则化参数(或 lambda)以及数据扩增,让我们在预测计算的上下文中查看它们:
MODEL_QUANTILE("model=rl, lambda=0.05", 0.5, SUM([Profit]), "augmentation=off", SUM([Sales]))
下表快速总结了更改默认的扩增和 lambda 是否会影响线性模型:
扩增 | Lambda | |
岭回归 | 是 | 是 |
线性回归 | 是 | 不适用 |
正则化和扩增注意事项
如果您的数据模型错误,则更改正则化参数或扩增不太可能产生明显更好的效果。考虑查看数据类型是否正确(度量与维度)。例如,如果基础数据是时间系列,请考虑使用高斯过程回归,方法是使用 model=gp 更改表计算中的模型。
由于 OLS 未正则化,因此没有可以更改的 lambda 值。
如果您的数据集非常小,并且您具有维度(尤其是高基数维度),则考虑通过在表中添加 model=rl 来使用岭回归。
在所有条件相同的情况下(对于相同的数据集,如果启用或禁用扩增),较低的 lambda 可能会改善拟合,但会损害泛化(导致过度拟合)。
相反,高 lambda 可能会将拟合推到一个恒定模型,而不依赖于任何预测因子。这将减少模型容量(导致欠拟合)。
示例 1
这个例子显示了男性和女性的平均胆固醇和心脏病之间的关系,其中男性用方形标记表示,女性用圆圈表示。
在第一个可视化项中,蓝色标记表示预测目标,橙色标记表示建模值。您可以看到,数据非常嘈杂,在启用增强功能和较小的 lambda 值 0.01 的情况下,我们会看到不切实际的心脏病发病率大于 1。这种依赖性太大了,可能是由于噪声数据中的所有离群值造成的。
MODEL_QUANTILE("model=rl, lambda=0.01", 0.5, AVG([Target]), ATTR([Sex]), "augmentation=on", AVG([Chol]))
在下一个可视化项中,我们将预测目标与不同的模型进行比较,扩增关闭,lambda 值关闭 10。请注意,此模型更符合实际,并且没有任何标记超过发病率 1。
MODEL_QUANTILE("model=rl, lambda=10", 0.5, AVG([Target]), ATTR([Sex]), "augmentation=off", AVG([Chol]))
示例 2
接下来,让我们看看另一个使用 Boston’s Bluebikes(前身为 Hubway)自行车共享系统的乘客数据的真实示例。在这种情况下,线性回归效果良好。将汇总到 2017 年各季度的以下可视化项进行比较:
MODEL_QUANTILE('model=rl, lambda=0.05', 0.5, sum([Trip.Duration]), AVG([Temp]))
MODEL_QUANTILE('model=rl, lambda=0.05', 0.5, AVG([Speed]), AVG([Temp]))
两者都不太容易过度拟合,所以对于一个小的 Lambda 来说,对 lambda 的依赖是很弱的。
现在看看最后这一个可视化项:
MODEL_QUANTILE('model=rl, lambda=2', 0.5, sum([Trip.Duration]), AVG([Temp]))
请注意,随着 lambda 的增加,拟合变得平坦到没有坡度(也就是说,变得过度正则化或“欠拟合”)。