今天,我们一起来学习 Data Literacy For All 的第 7 课:使用相关和回归来检查关系。你将了解如何检查数据中的关系,以衡量一个因素与另一个因素的关联程度。探索一个值如何影响另一个值,使你能够在模型拟合时根据数据进行预测。
考察数据内部的相关性
数据素养是高效使用和沟通数据的关键。在《数据素养基础》模块中,我们探讨了定量变量,这些变量是可以通过数字来量化的特征,例如每天观看电视的小时数、以英里/小时计的速度、某城市的年降雨量(以英寸计)、销售额(以美元计)以及市场营销的开支。
当你探索数据间的关系时,如何评估两个变量,比如销售额和营销费用之间的相关性强度?是否有可能用一个变量来预测另一个变量的值?
相关性和回归分析是揭示趋势和进行预测的关键技术。尽管在数据分析中还有其他重要的方法,但我们专注于在人工智能和数据分析中应用最广泛的基础技术——线性相关性和回归。
在本小节,你将深入了解相关性这一概念,它描述了两个变量之间的相互关系及其密切程度。你将学习到,相关性可以衡量变量间的关联性,但并不证明因果关系。在下一小节中,你将探索如何利用线性回归,除了评估模型与数据的契合度外,还能根据一个变量的值来计算或预测另一个变量的值。
1、什么是相关性?
相关性是可以展示成对的定量变量是否相关以及相关性的强度的方法。比如,每日消耗的热量与体重是否有关系?消耗更多热量的人是否更重?相关性可以告诉你人的体重与他们的热量摄入相关程度。
体重和热量摄入之间的相关性只是一个简单的例子,但是有时候你需要处理的数据未必具有你预期的关系。还有一些时候,你可能怀疑存在相关性,但是不知道哪个是最强的。而相关性分析有助于你了解你的数据。
开始相关性分析时,你可以创建一张散点图来考察两个定量变量之间的关系。变量绘制为笛卡尔坐标,标记每个数据点在水平 x 轴上的距离和垂直 y 轴上的距离。在下面的散点图中,你可以看出销售额和营销费用之间的关系,似乎存在相关性:随着一个变量升高,另一个似乎也升高。
2、相关性与因果关系比较
既然你已经知道如何定义相关性以及如何以图形化表示,那我们来讨论如何更好地理解相关性。
首先,重要的是要知道相关性永远不能证明因果关系。皮尔逊相关性只是告诉我们一对定量变量的线性相关性强度。它不能解释它们如何相关或为什么相关。比如,空调的销售与遮阳帘的销售有关。人们不买空调是因为他们买了遮阳帘,反之亦然。两者的购买原因都是天气炎热。
3、如何衡量相关性?
皮尔逊相关性,也叫相关性系数,用来衡量两个定量变量间的线性关系的强度和方向(正相关或负相关)。衡量数据样本中的相关性时,所用的符号是字母 r。皮尔逊的 r 介于 -1 到 1 之间。
当 r = 1 时,两个变量之间存在完美的正线性关系,意思是随着数值提高,两个变量完美相关。当 r = -1 时,变量之间存在完美的负线性关系。在完美的负相关性中,当一个变量增加时,另一个变量以相同的幅度减小。 当 r = 0 时,表示两个变量间不存在线性关系。
完美的正相关性
当 r=1 时,两个变量之间存在完美的正线性关系,意思是随着数值提高,两个变量完美相关。
完美的负相关性
当 r=-1 时,两个变量之间存在完美的负线性关系,意思是随着数值下降,两个变量完美相关。
无线性相关性
当 r=0 时,表示两个变量间不存在线性关系。
对于实际数据,r 的值不可能是 -1、0 或 1。 通常 r 越接近 1 或 -1,相关性越强,如下表所示。
4、线性相关条件
为了保证相关性有意义,你需要考虑一些条件:必须使用定量变量描述线性关系,同时考虑所有异常值的影响。在进行相关性分析之前,你应该检查这些条件。
1973 年,一位名叫 Francis Anscombe 的统计学家开发出了“安斯库姆四重奏”,可以图形化展示图表数据的重要性,与简单地运行统计学测试不同。他的四重奏中的四个可视化都显示了相同的趋势线方程。四张图说明为什么可视化如此重要,它们可以帮助我们发现数据内部可能被统计学测试掩盖的趋势。
在下面的例子中,四张图中只有左上角的散点图满足线性且没有异常值的条件。右上角的散点图未显示线性关系,非线性模型会更合适。底部的两个散点图都有异常值,这些异常值会极大地影响结果。
通过线性回归发现关系
上一小节中,你学到相关性是指两个定量变量的关系的方向(正相关或负相关)和强度(从非常强到非常弱)。
与相关性一样,线性回归也显示两个数字变量的关系的方向和强度,但和相关性不同的是,回归采用连接散点图上的点的最佳拟合直线来根据 X 值预测 Y 值。对于相关性,X 和 Y 的值可以互换。对于回归,如果互换 X 和 Y,分析结果将随之变化。
1、线性回归:绘制数据的直线
与相关性分析相似,要使线性回归分析有效,必须遵循几个关键步骤:
使用定量变量
检查变量间的线性关系
注意异常值的影响
线性回归同样可以在散点图上进行可视化展示。在散点图上,回归线是一条最佳拟合直线,它通过尽可能使所有数据点到这条直线的距离之和最小来连接这些点。
这条线的价值在于,一旦我们知道了 X 值,就可以利用线性回归方程来计算或预测 Y 值。为了更直观地理解这一点,让我们通过一个具体的例子来说明。
2、回归的例子
假设你想预测要购置 1,500 平方英尺的房子,需要多少钱。我们通过线性回归来预测。
把你想要预测的变量,即房价,放在 y 轴(这也叫因变量);
把预测所依据的变量,即面积,放在 x 轴(这也叫自变量)。
这是一幅散点图,显示房价(y 轴)和面积(x 轴)。
该散点图显示面积越大,房子价格往往越高,但是 1,500 平方英尺的房子需要花多少钱呢?
为了帮助回答这个问题,画一条连接点的线。这就是线性回归。回归线条将帮助你预测一栋特定面积的典型房子需要多少钱。在这个例子中,你可以看到回归线条的方程式。
线条的方程式是 Y = 113*X + 98,653(四舍五入)。这个方程式的含义是什么?如果你购买一个没有建筑面积的地方(比如一块空地),价格是 98,653 美元。下面是解这个方程式的步骤。
要想得到 Y,将 X 的值乘以 113,然后加上 98,653。在这个例子中,我们在看零建筑面积,因此 X 的值是 0。
Y = (113 * 0) + 98,653
Y = 0 + 98,653
Y = 98,653
98,653 这个值叫做 y 截距,因为这是线条与 y 轴的交叉点或截线。它是 X 等于 0 时 Y 的值。
数字 113 是线条的斜度。斜度是描述线条的方向和陡度的数字。在这个例子中,斜度预测,面积每增加一平方英尺,房价将提高 113 美元。
因此,1,500 平方英尺的房子需要花费的钱是:
Y = (113 * 1500) + 98,653 = 268,153美元
再看一下这张散点图。蓝色标记是实际数据。你可以看到拥有 1,100 到 2,450 平方英尺之间的房子的数据。
请注意该方程式不能用来预测所有房子的价格。由于 500 平方英尺的房子和 10,000 平方英尺的房子都在实际数据范围之外,因此使用该方程式以那些值进行预测时你需要特别注意。
3、r 平方值
除了这个例子中的方程式,我们还可以看到一个 r 平方值(也叫决定系数)。
r 值从统计学上衡量数据与回归线条的接近程度,或者模型与你的观察的匹配程度。如果数据完美地落在线条上,r 平方值将是 1,即 100%,表示你的模型完美匹配(所有观察的数据点都在线条上)。
对于房价数据,r 平方值是 0.70,即 70%。
4、线性回归与相关性比较
现在你可能在疑惑如何区分线性回归和相关性。请参阅下表,其中总结了每个概念的关键点。