Statistics 残差分析
残差分析用于通过定义残差和检查残差图来评估线性回归模型的适用性。
残差
Residual($ e $) 是指观测值($ y $) 与预测值($ \hat y $) 之间的差值。每个数据点都有一个残差。
${ 残差 = 观察值-预测值 \\[7pt] e = y-\hat y }$
残差图
残差图是一种图形,其中残差在纵轴上,自变量在横轴上。如果点随机分布在水平轴周围,则线性回归模型适用于数据;否则,选择非线性模型。
残差图的类型
以下示例显示残差图中的几个模式。
在第一种情况下,点是随机分散的。所以线性回归模型是首选。在第二种和第三种情况下,点是非随机分散的,这表明首选非线性回归方法。
示例
问题说明:
检查线性回归模型适用于以下数据的位置。
$ x $ |
60 |
70 |
80 |
85 |
95 |
$ y $(实际值) |
70 |
65 |
70 |
95 |
85 |
$ \hat y $(预测值) |
65.411 |
71.849 |
78.288 |
81.507 |
87.945 |
解决方案:
步骤 1: 计算每个数据点的残差。
$ x $ |
60 |
70 |
80 |
85 |
95 |
$ y $(实际值) |
70 |
65 |
70 |
95 |
85 |
$ \hat y $(预测值) |
65.411 |
71.849 |
78.288 |
81.507 |
87.945 |
$ e $(残差) |
4.589 |
-6.849 |
-8.288 |
13.493 |
-2.945 |
第 2 步:-绘制残差图。
第 3 步:-检查残差的随机性。
这里的残差图表现出一种随机模式-第一个残差为正,接下来的两个为负,第四个为正,最后一个残差为负。由于模式非常随机,这表明线性回归模型适用于上述数据。