对于所有行业来说,应用 Minitab 统计软件中的预测分析模型是非常有价值的。企业或机构可以通过预测客户流失率、患者住院时间、成本、风险、利润或其他因素来发现业务价值。
而对于银行来说,向错误的人提供抵押贷款,可能会付出数十万美元的错误代价。鉴于利害关系,银行在决定批准或拒绝客户的抵押贷款申请前,了解客户信息并对其进行预测是极其重要的。
今天,我们将了解银行业中的一个应用示例,看看如何通过 Minitab 的预测分析模块准确预测哪些客户未来可能违约,从而最大限度地减少抵押贷款违约的次数。
第一步:了解抵押贷款数据
在此示例中,下图显示了分析所使用的一部分观测数据。这里有之前客户抵押贷款的 1645 条观察数据。
“C1”列显示响应变量或目标,若该客户拖欠抵押贷款,则该变量的值为“Yes”,否则为“No”。其他 9 列表示将作为潜在预测变量进行评估的特征。
第二步:抵押贷款违约的现状
通过简单的饼图分析,我们可以更好地了解借款人拖欠抵押贷款的比率。从下图可以看到:有 10% 的抵押贷款违约。如果能够降低这一违约率,就有可能极大地增加利润。
第三步:比较预测模型
为了更好地解决问题,我们借助 Minitab 统计软件的预测分析模块,对客户违约率进行预测。
由于响应结果为“Yes”或“No”,我们将使用分类模型。如果对连续响应感兴趣,则使用基于树的回归模型。在 Minitab 中,预测分析模块包含三种分类建模类型:CART® 分类 、Random Forests 分类、TreeNet 分类。
对于分类,评估模型拟合优度的主要指标之一是 ROC 曲线下方的区域。该指标越接近 1 ,表示预测效果越好。示例将使用这三个建模引擎,并比较 ROC 曲线下各自的面积值。
TreeNet 分类产生的 ROC 曲线下方面积为 0.9695,此数值超过了其他两个模型。这意味着生成的 TreeNet 分类模型是抵押贷款违约的最佳预测模型。
PS:TreeNet 梯度推进是 Minitab 最灵活、获得最多奖项且最强大的机器学习工具,能够按照统一的方式生成非常准确的模型。在这三个建模引擎中,TreeNet 往往会产生最佳预测结果。
第四步:可视化重要变量
我们先从下图中,看看作为模型输出一部分的相对变量重要性。相对变量重要性值的范围从 0% 到 100%,最重要的变量始终是 100%。
可以看到:债务信用比是预测抵押贷款违约最重要的变量,其次债务收入比是第二重要的变量。九个功能中的八个在某种程度上对模型很重要。
第五步:对违约概率进行预测
在 Minitab 创建好模型后,就可以进行预测了。我们可以在 Minitab 中输入单个数值进行预测。如果一次性进行较大量的预测是有价值的话,则可以输入一列数值。
》例子一
有个客户申请了 485000 美元的抵押贷款,此人的数据如下所示:43 岁、收入为 81000 美元、9 个信贷来源、债务信用比为 0.68、债务收入比为 0.73、住宅抵押贷款、来自西北地区、无家属
我们将这些值输入预测模型,得到如上图所示的个人违约概率。
可见,此客户拖欠抵押贷款的概率超过 97%。一旦做出预测,那么具备银行业知识的人员,就可以解读预测并依此采取行动。显而易见,一个违约概率为 97% 的人,很大可能会被拒绝抵押贷款。
当所有预测变量值都可用时进行预测,是比较乐观的情况。但事实上,大多数情况下都会缺失一些预测变量值。
即便发生这种情况,Minitab 的预测分析仍让我们可以轻松地进行预测。在下面的示例二中,存在多个缺失值。尽管如此,我们仍然可以对此客户拖欠抵押贷款的概率进行预测。
》例子二
另外一个客户申请了 375000 美元的抵押贷款。我们没有该申请人的收入、债务收入比、地区和家属人数等数据,只有以下信息: 49 岁、4 个信贷来源、债务信用比为 0.31、住宅抵押贷款。
从上图可以看到:该客户拖欠抵押贷款的可能性不到 1%。因此,我们可以推断此客户应该是一位优质的抵押贷款候选人。
想深入了解更多 Minitab 功能应用?欢迎试用 Minitab 统计软件,或者联系我们咨询!