医疗保健服务商常常需要与众多保险公司打交道,但许多服务商对保险公司的支付流没有深入的了解。这使得他们在试图预测未来收入时处于不利地位,在与保险公司谈判未来合同时也没有任何准备。
更具体地说,医疗保健服务商需要知道每个保险公司为他们提供的各种服务支付的费用,以便他们可以根据收取的费用来预测未来的赔付收入。
利用自动化机器学习(AutoML)和功能工程在业务范围内扩展分析,能使业务领域专家能够加速洞察。Alteryx 机器学习可以帮助医疗保健金融专业人员利用机器学习的力量,更好地了解他们的保险公司收入流,并对未来的收入进行预测。还可以帮助他们利用所获得的知识,在保险公司合同到期时,为谈判做更好的准备。
使用案例
Jonah 是一家中型医院的财务数据分析师。他的领导团队要求他预测保险公司最近已开账单但尚未支付的手续的付款,并且评估保险公司之间的赔付表现。
他收集了医院向保险公司收费的程序数据,以及保险公司支付的费用。他将使用 Alteryx 机器学习来获得有关数据的见解,并建立一个机器学习模型来预测保险公司的付款。他还想确定哪些保险公司支付高,哪些偏低。他的数据包含以下信息:
-Paid_Insurance -保险公司为手术支付的费用
-Patient_Pay -患者为手术支付的金额
-Charge_Insurance -医院向保险公司开出的账单
-Diagnosis_Code -所执行程序的标识符
数据准备与探索
Jonah 在 Alteryx 机器学习中创建了一个新项目并加载了他的数据。在“问题设置”屏幕上,他打开数据分析,以了解数据每列中值的分布情况,以及 AYX ML 推断的数据类型,例如,数字与分类等。由于他正在使用机器学习来建模保险公司支付了多少钱,所以'Paid_Insurance'是他在建模过程中将使用的目标变量,所以他选择了这个变量。Alteryx 机器学习建议使用回归机器学习方法,这对 Jonah 来说很有意义,因为他的目标变量是数字。
他研究了每一列的数据分布,并注意到 DC_48 是最常见的诊断码,保险人(付款人)P_A 是最常见的付款人。他将密切关注这些项目的进展。他决定不删除任何列,因为所有列都与他的问题有关。此外,他观察到 Alteryx 机器学习为他的列自动推断的数据类型(Double、Double、Double、Categorical、Categorical)是正确的。
数据洞察
Jonah 继续访问 Data Insights 面板,了解他的数据是如何关联的,以及他的数据中是否存在有问题的离群值。他发现 Charge_Insurance 和 Payed_Insurance 之间存在很高的相关性(0.94),这并不令他感到惊讶。但是,他更感兴趣的是 Diagnosis_Code 和目标 Payed_Insurance 之间的关系,以及 Payor 和 Payed_Insurance 之间的关系。他很高兴看到它们之间存在相关性,并期待在建模过程中了解更多相关性。
接下来,他检查异常值。除了行 2748 中的“Charge_Insurance”值一个之外,大多数识别的异常值都是其业务上下文中的合法值。与 Diagnosis_Code 为“DC_50”的其他行相比,该值与公司对该程序的可接受范围相去甚远,因此他删除该行,因为如果他包括非代表性数据,这将不利于他的模型。
模型设置
Jonah 打开模型设置面板。由于他不是机器学习专家,他选择接受默认设置,并观察到 holdout 集合的默认值是原始数据集的 20%。项目后期,将使用保留集评估模型性能。
运用特征工程
Jonah 转到 Primitives 选项卡,查看他的数据中是否有可能通过特征工程发现的潜在信号。特征工程是利用领域知识从原始数据中发现新特征(特性、属性、属性)的过程。其动机是使用新功能来提高机器学习过程结果的质量,而不是只提供原始数据。这是用于创建新功能的数据操作。由于他想看到他的原始数据是如何建模的,他决定不选择任何基元,如果他的建模结果不令他满意,他会稍后回到这个面板。
建 模
Jonah 通过单击“下一步”开始自动建模过程。Alteryx 机器学习就会运行一套建模算法以找到最佳算法,并在排行榜上提供结果。基于 R 平方(R2)度量,随机森林回归模型表现最好。再点击“了解更多”,了解各种排名指标。随机森林回归模型在大多数其他回归特定指标上也表现良好,如均方误差(MSE)和解释方差。这增加了他在模型表现上的信心。
点击“下一步”来应用保留数据,看看随机森林回归器如何处理它。打开 Performance 选项卡,观察模型与 holdout 集的性能,与 AutoModel 步骤中根据交叉验证数据获得的性能。与坚持集相比,模型表现良好,对于大多数指标,甚至比交叉验证时表现得更好。如果使用与创建模型的数据具有相似轮廓的新数据来使用此模型,则预测的误差范围应该与他的度量所指示的一致。
转到 Insights 选项卡,查看影响 Paid_Insurance 的因素。毫不奇怪, Charge_Insurance 是最重要的功能。他还对 Payor 非常感兴趣,Payor 是一个重要变量,它代表了企业在合同谈判中可以影响的东西。
继续深入挖掘,查看目标 Paid_Insurance 对其他列的部分依赖。他指出,对于 Charge_Insurance,保险公司的赔付似乎随着 Charge_Insurance 接近 4000 美元而趋于平稳。对于付款人,他看到保险公司 P_D 支付的金额明显高于其他四家。他还看到保险公司 P_A 支付的费用明显减少。Patient_Pay 和 Diagnosis_Code 不是强指标,所以他不进一步考虑。
导出与预测
由于 Jonah 现在有了一个模型,他可以用来预测预期的保险公司付款,通过导入包含患者支付金额、账单费用、诊断代码和保险公司账单记录的数据集来上传新数据进行预测。由于进行预测需要在传入的预测数据集中至少具有与建模期间使用的相同的列,他确保列标题分别为 Patient_Pay、Charge_Insurance、Diagnosis_Code 和 Payor,因此 Alteryx 机器学习可以识别它们并将它们与模型匹配以进行预测。
Jonah 下载结果并使用它们为管理层准备收入预测。此外,他还写了一份报告,列出了他所在医院与五家保险公司打交道的相对赔付水平。Jonah 相信,管理团队会非常开心能掌握这些信息,进入合同谈判,获取主动权。
总 结
Jonah 使用 Alteryx 机器学习快速地获得可操作的见解,而无需事先了解机器学习的复杂性。他创建了一个模型,他的医院可以用来预测未来的保险公司收入流,他还获得了有关保险公司支付水平的重要见解,这将有助于与保险公司的谈判。