举个栗子!Minitab 技巧(8):用 PLS 偏最小二乘分析大豆脂肪影响因素
在上一个 🌰 中,我们用 Minitab 最小二乘法验证了两个变量(单位桶数与运输时间)之间是否存在某种关系。那么,在更复杂的场景中,如何验证一组预测变量和一个或多个连续响应变量之间的关系?
假设:有一位农产品生产商想了解大豆脂肪和相关影响因子的关系。可是,相关影响因子有很多,哪些因子对大豆脂肪的影响会更大?在未知情况下,如何判断并得出有效结果?
面对上述问题,Minitab 提供了多种推理回归方法,比如偏最小二乘(PLS)。PLS 可以将预测变量数减少为一组不相关的分量,并对这些分量执行最小二乘回归。在具有连续或类别预测变量或者多项式模型时,PLS 特别有用。
下面,我们将以“大豆脂肪影响因子”举例,使用 Minitab 来进行变量关系的分析研究。
本期《举个栗子!Minitab 技巧》,我们就来分享方法:用 PLS 偏最小二乘分析大豆脂肪影响因素
为方便学习,栗子使用与大豆相关的数据源。如下图所示,数据中有多个变量,我们用 1-88 来标记。
掌握栗子方法后,数据粉可尝试使用自己的数据。如需跟随实操,可通过页面右侧获取数据源。
具体步骤如下:
01 连接数据
打开 Minitab 统计软件,导入示例数据。
在“数据”窗格中,我们看到该数据中与大豆相关的变量共有 88 项。因此,当数据的变量多于样本时,尤其是当预测变量高度共线时,是考虑使用偏最小二乘回归的好时机。
02 创建偏最小二乘回归分析
单击选择菜单栏中的“统计”-“回归”-“偏最小二乘”选项。
在弹出的“偏最小二乘”对话框中,将响应设置为 ’脂肪’,将模型设置为 '1'- '88'。
单击“选项”,打开“偏最小二乘: 选项”对话框,在交叉验证一项中勾选“逐一剔除法”,单击“确定”按钮。
单击“结果”,打开“偏最小二乘: 结果”对话框,完成如下图所示的选项勾选。然后,单击两次“确定”按钮,完成偏最小二乘回归分析的创建。
03 解读最小二乘回归分析结果
偏最小二乘回归的一大优点是能够形成组件,然后用它们进行普通最小二乘回归。因此,分析结果中包括了熟悉的统计数据。
例如,预测 R² 是 Minitab 用于选择分量数的标准。
模型中的每一个分量,都是所有 88 个变量的复杂线性组合。因此,尽管 ANOVA 表显示仅使用 9 个自由度进行回归,但分析使用的是所有数据的信息。
标准化系数的完整列表显示了模型中每个预测变量的相对重要性。
通过 PLS 系数图,我们可以直观地看到:前 1-40 个变量对模型影响比较大。换句话说,前 40 个变量对大豆脂肪的影响较大。
通过 PLS 响应图,可以观察到:大豆脂肪与变量之间存在拟合和交叉验证的关系。
由于拟合点和交叉验证点之间没有太多差异,因此我们认为整体情况比较合理,本次研究大豆脂肪影响因子的结果是有效的。
今天的 Minitab 技巧,你 Get 到了吗?赶快打开软件试试看吧~