内容:

多案例 Cook 距离

  • 版本 :Minitab 21

多案例 Cook 距离

此宏可计算 Cook 的单个案例距离度量的多案例扩展。根据数据集大小,可为所有案例对和三要素计算距离度量。此外,还可为用户选定的案例子集(最多十个案例)计算距离度量。生成的图形包括各个案例与案例编号的 Cook 距离图、有影响的案例对 ID 图和固定案例对效应图(显示效应或由于将第三个案例添加到固定案例对中导致的 Cook 距离的变化情况)。Like 功能可用于没有常数项的模型

下载宏

确保 Minitab 知道可在何处找到您下载的宏。选择文件>选项>常规。在宏位置下,浏览到您保存宏文件的位置。

重要信息

如果您使用较低版本的 Web 浏览器,则在您单击下载按钮时,此文件可能会在 Quicktime 中打开,因为 Quicktime 与 Minitab 宏使用相同的 .mac 文件扩展名。要保存此宏,请右键单击下载按钮并选择目标另存为

下载 MULTDIST.mac

必需输入

  • 单列响应值

  • 多列预测变量值。

可选输入

  • HOLD

  • 用于指定要根据其创建固定对效应图的案例对。

  • NOCONSTANT

  • 在您不希望模型中有常量项时,可使用此子命令。当您要分析混合模型且要省略模型中的常量项以免 XTX 矩阵中出现秩亏时,此命令尤其有用。

  • NOPAIR

  • 在您不想计算所有案例对的距离值时,可使用此子命令。要使用此子命令,需要计算所有三要素、计算一个或多个选定子集或使用 hold 子命令。

  • NOPLOTS

  • 在您不想显示诊断图时,可使用此子命令。

  • REPORTALL

  • 用于报告所有计算的距离值。如果选择此子命令,将不需要与阈值进行比较,因为报告了所有距离值。如果您选择此子命令,仍将在图形上显示阈值以帮助进行直观的比较。

  • SPAIRS C C C

  • 使用此子命令可将案例对的所有距离值存储在工作表中。指定三列;前两列用于存储指标,第三列用于存储距离值。

  • STRIPLES C C C C

  • 用于将三要素的所有距离值存储在工作表中。指定四列;前三列用于存储索引,第四列用于存储距离值。

  • SUB1 K…K

  • 如果希望计算至多十个案例 (K) 的选定子集的距离值,可使用此子命令。对于多于三个案例的子集,此子命令尤其有用。您可以使用 SUB1、SUB2、SUB3、SUB4 和 SUB5 子命令指定最多五个子集。

  • THRESHOLD K

  • 用于指定阈值。默认情况下,阈值为 1.00。输出将显示大于或等于此值的所有已计算结果。指定的阈值必须是正数值。

  • TRIPLE

  • 在您要让此宏计算所有案例三要素的 Cook 距离并与默认或指定阈值进行比较时,可使用此子命令。

运行宏

用于运行宏的语法会略有区别,具体取决于您使用的版本。

下面的示例使用的样本数据是 Rousseeuw 和 Leroy (1987) 中的“Modified Data on Wood Specific Gravity”(木材特定比重的修改数据)数据集,其中包括二十个案例和五个预测变量。五个选定案例子集的计算结果与 Seaver、Triantis 和 Reeves (1999) 中给出的结果一致。

假设响应值 Y,即特定比重,在 C1 中,五个预测变量的值 X1-X5 在列 2-6 中。五个子集案例已选定。

要运行此宏,请选择查看>命令行/历史记录,然后键入:

%MULTDIST C1-C6;
SUB1 5;
SUB2 8 19;
SUB3 6 8 19;
SUB4 4 8 19;
SUB5 4 6 8 19。

单击运行

输出

下面是该宏生成的结果。

Multiple Case Cook's Distance

Model Information
------------------------
Response:     Y

Predictors:   X1 , X2 , X3 , X4 , X5                                            

Parameters:    6
 
Threshold value:    1.00
------------------------
 
*** Cook's Distance for Case Pairs ***
 
     Cases        Cook's Distance

     7 , 11             1.03

 
*** Cook's Distance for a Subset ***

     Cases:  5   Cook's Distance:  0.06                                              


     Cases:   8 , 19   Cook's Distance:  0.33                                        


     Cases:   6 ,  8 , 19   Cook's Distance:  1.99                                   


     Cases:   4 ,  8 , 19   Cook's Distance:  0.49                                   


     Cases:   4 ,  6 ,  8 , 19   Cook's Distance:  53.93
注意

未显示图形输出。

更多信息

数据集大小

对于案例对和案例三要素,计算 Cook 距离的数据集大小限制分别为 60 和 30。计算案例子集的数据集大小限制为 500。您可以在此宏内更改案例对和三要素限制。要更改这些限制,请转到宏代码中标记为“MSE 检查,三要素,无配对”部分,然后将 30 和 60 更改为您所需的大小。请注意,计算所需的时间会随着数据集大小的增加而增加,尤其是计算所有三要素时更是如此。

逆矩阵不存在

如果分析混合模型,必须指定非常数子命令。如果没有指定非常数子命令,将会看到一则错误消息,指示 XTX 矩阵的逆矩阵不存在。通常,如果有任何预测变量(几乎)完全相关,则会看到此错误消息。

缺失值

该宏通过删除包含缺失数据的行来处理缺失数据。这会在输出和图形中显示。

参考资料

Rousseeuw, P. J. 和 Leroy, A. M. (1987),《Robust Regression & Outlier Detection》(可靠回归与异常值检测),John Wiley & Sons, Inc.

Seaver, B.、Triantis, K. 和 Reeves, C. (1999),The Identification of Influential Subsets in Regression Using a Fuzzy Clustering Strategy(在回归中使用模糊聚类策略识别有影响的子集),《Technometrics》(技术计量学),第 41 期,第 340 到 351 页。