发布时间:2022-11-03 07:52:30 文章来源:互联网
微博 微信 QQ空间


不用拟合效果非常差,但似乎这个回归线也尽力了

不用拟合效果非常差,但似乎这个回归线也尽力了

不做数学分析,肉眼也可以看出,这条回归线的拟合效果很差,但看起来这条回归线是“尽力而为”,也只能拟合到这个程度(根据平方差损失函数)。为了量化这个问题,我们需要引入相关系数R

注意上面提到的决定系数R^2的区分和理解。决定系数用来判断回归方程的拟合程度,表示拟合的直线在多大程度上能反映Y的波动。

统计学中有一个类似的概念,叫做相关系数R(学名是皮尔逊相关系数,因为这不是唯一的相关系数,而是最常见也是最常用的一种),用来表示X和Y为两个随机变量的线性相关程度,取值范围为[-1, 1]。

1. 当R=1,说明X和Y完全正相关,即可以用一条直线,把所有样本点(x,y)都串起来,且斜率为正
2. 当R=-1,说明完全负相关,及可以用一条斜率为负的直线把所有点串起来
3. 如果在R=0,则说明X和Y没有线性关系,注意,是没有线性关系,说不定有其他关系(例如非线性关系)

这告诉我们,如果我们遇到这种情况,也就是我们使用线性回归发现我们无法很好地拟合我们的训练样本。这个时候,其实有两种可能

1. 我们的特征工程有问题,选错了一个和目标值Y不相关或相关性很差的特征X
2. 特征X选对了,但是X和Y是非线性关系,强行用线性回归自然无法得到好的结果

在建模之前,我们需要对自己的业务场景有充分的了解,根据实际业务场景中的数据规律,选择合适的拟合模型

相关链接:

http://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html#sphx-glr-auto-examples-linear-model-plot-ols-py
http://www.jianshu.com/p/fcd220697182
http://studyai.site/2016/07/22/%E6%96%AF%E5%9D%A6%E7%A6%8F%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E8%AF%BE%E7%A8%8B%20%E7%AC%AC%E4%B8%80%E5%91%A8%20(4)%E4%B8%80%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/
https://baike.baidu.com/item/%E4%B8%80%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E9%A2%84%E6%B5%8B%E6%B3%95

0x3:对多元线性回归的扩展

将上面的单变量示例扩展到多变量情况。多元线性回归模型

在实际的经济问题中,一个变量往往受到多个变量的影响,有时很难区分几个影响因素的主次因素,或者有些因素是次要的,但它们的作用不容忽视。例如,家庭消费支出除受家庭可支配收入的影响外,还受到家庭财富、物价水平、金融机构存款利息等多种因素的影响。在拟合此类复杂问题时,我们需要使用多元线性函数

多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析

1.多元线性模型的数学公式

假设解释变量

具有多个解释变量

它们之间存在如下线性关系(即对变量X满足如下多元线性函数),则X与Y的关系构成多元线性回归模型

是解释变量,

为了

一个解释变量,

为了

未知参数,

是一个随机误差项。可以看出,多元线性函数实际上是许多单变量线性函数的线性组合。

为了

小组观察

,其方程为:

这是

其矩阵形式为

=

+

这是:

是被解释变量的观测值向量;

是解释变量的观测值矩阵;

是整体回归参数向量;

是随机误差项向量。

整体回归方程表示为:

2.回归变量的选择和逐步回归――在构建多元线性回归模型之前如何做特征工程

有时,当我们在构建多元线性模型进行预测时,遇到不好的结果时,我们可能会盲目地增加 X 的数量。可能碰巧增加的一些X是与Y高度相关的X特征,所以拟合和预测效果都提高了。我们误以为自己做对了,暗自高兴,但实际上可能会浪费大量的计算资源。实际上,只需添加几个有限的功能 X 即可达到相同的效果。

在建立多元回归模型时,为了保证回归模型具有优良的解释能力和预测效果,首先要注意自变量的选择。标准是:

(1) 自变量对因变量必须有显著的影响,并呈密切的线性相关(相关系数R值较大);
(2) 自变量与因变量之间的线性相关必须是真实的,而不是形式上的,这就要求我们在建模前对业务场景有充分的了解。这里举一个例子来说明,也许在训练集中,天气的情况和你这个月的收入正好呈现强正相关,但这也许只是样本量不足带来的一种假象,事实上是不符合真实规律的;
(3) 自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之因的相关程度,这条准则意思是特征自变量之间最好不要存在太多的冗余关系,当出现冗余时可以考虑降维处理(例如PCA);
(4) 自变量应具有完整的统计数据,其预测值容易确定

在实际问题中,影响因变量Y的因素(自变量)很多,我们希望选择影响显着的自变量建立回归关系,这就涉及到自变量选择问题。

如果在回归方程中省略了对 Y 有显着影响的自变量,则建立的回归方程在用于预测时会有很大的偏差。但是,如果回归公式中包含的变量太多,其中一些对Y影响不大,显然这样的回归公式不仅使用不便,而且影响预测的准确性。因此,选择合适的变量来建立“最优”回归方程是非常重要的。

用于选择“最佳”子集的变量(特征)筛选方法包括

1. 逐步回归法(Stepwise)
2. 向前引入法(Forward)
3. 向后剔除法(Backwad)

1.前向介绍

前向引入法从只包含常数项的回归方程开始,将自变量一一引入回归方程。具体来说,首先在m个自变量中选择一个与因变量线性关系最接近的变量(使用X和Y的相关系数R),记为

,然后在剩下的m-1个自变量中,再选一个

, 以便

组合二元回归效果最好,第三步在剩下的m-2个自变量中选择一个变量

, 以便

组合回归效果最好,依此类推,直到你得到“最佳”回归方程。

前向引入方法中的终止条件是,给定显着性水平

,当检查要引入的变量的回归系数之一的显着性时,如果 p 值

(即改善幅度小于某个阈值),引入变量的过程结束,得到的方程就是“最优”回归方程。

前向引入法有一个明显的缺点,即后续变量的选择可能会使之前选择的自变量变得不重要,因为各个变量之间可能存在关系。这样最终的“最优”回归方程可以包含一些对Y影响不大的自变量。冗余的可能性

2. 向后剔除

后向消除法与前向引入法正好相反。首先将所有m个自变量引入回归方程,然后将对因变量Y影响不显着的自变量一一剔除。具体来说,从回归公式的m个自变量中,选择一个对Y贡献最小的自变量,比如

,将其从回归方程中移除;然后重新计算Y的回归方程和剩下的m-1个自变量,然后去掉一个贡献最小的自变量,比如

,依此类推,直到得到“最优”回归方程。

后向消除法中的终止条件与前向引入法类??似。也就是说,直到减少的幅度小于某个阈值,才指示收敛。

后向剔除法的缺点是,先前剔除的变量可能会因后续剔除变量而成为相对重要的变量,从而在最终的“最优”回归方程中可能遗漏相对重要的变量。

3.逐步回归

前向引入法和后向消除法的缺点原因已经很清楚了。自然,我们会想到找到一种动态对账方法来综合利用这两种技术。逐步回归法应运而生。逐步回归法是上述两种方法的结合。在正向导入中选择的变量将始终保留在方程中。在反向消除方法中消除的变量将始终被排除。在某些情况下,这两个方程都可能给出不合理的结果。因此,可以考虑在引入新变量后,当其作用变得微不足道时,可以将所选变量删除;当引入新变量时,当其角色变得重要时使用回归分析法可以预测销售额,可以删除已删除的变量。, 它也可以重新选择到回归方程中。这种以前向引入法为基础,变量可以进出的筛选变量的方法,称为逐步回归法。

逐个引入自变量。每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中既不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量

3.根据训练样本(观测数据)推断多元线性模型的参数――最大似然估计的思想

多元线性回归模型包含多个解释变量,多个解释变量同时影响被解释变量。

发生,以检查解释变量之一对

必须假设其他解释变量保持不变来分析效果。因此,多元线性回归模型中的回归系数为偏回归系数,即反映在模型中其他变量不变的情况下,其中一个解释变量对因变量有影响。

均值的影响。

由于参数

是未知的,可以使用样本观察

估计他们。如果计算的参数估计是

,用参数估计值替换总体回归函数的未知参数

,则得到多元线性样本回归方程:

。在

是参数估计,

为了

样本回归值或样本拟合值、样本估计值

其矩阵表达式为:

是拟合值的列向量;

为了

顺序样本观察矩阵;

为了

阶参数估计的列向量

4、如何评价多元线性模型下的拟合度?1. 残差平方估计

与单变量线性回归一样,最小二乘估计也可用于获得多变量情况下拟合值与实际值之间的差异。

观察

与回归值

残差

为了:

从训练样本估计的参数估计值通过最小二乘法已知

应该做所有的观察

与回归值

残差

平方和最小,即使

得到最小值。根据多元函数的极值原理,

分别

求一阶偏导数并使其等于零,即

这是

化简得到下列方程组

(3.3)

以上

这些方程称为正规方程,它们的矩阵形式为

因为

认为

是参数估计的向量

根据上式使用回归分析法可以预测销售额,可以得到正规方程组:

2.决定系数R2

与单变量线性回归中的决定系数r2相对应,在多元线性回归中也存在多个决定系数r2,即回归方程解释的变化量(回归平方和)在总变化量中的比例因变量,R2值越大,每对样本数据点的拟合度越强,所有自变量与因变量的关系越密切。计算公式为:

分母表示实际值与实际均值的残差平方和,分子表示拟合值与实际均值的残差平方和

3. 估计标准误

估计的标准误差,即因变量y的实际值和回归方程得到的估计值

之间的标准误差,估计的标准误差越小,回归方程的拟合越好

其中,k为多元线性回归方程中自变量的个数。除此之外,还有显着性检验、F检验等,性质类似。它们都用于评估拟合值与真实值之间的差异程度。我不会在这里一一列出。

注意多重共线性问题

多重共线性是指在多元线性回归方程中,自变量之间存在很强的线性关系。如果这种关系超过因变量和自变量之间的线性关系,就会破坏回归模型的稳定性,估计回归系数。不准确。需要指出的是,在多元回归模型中,多重共线性是不可避免的,只要多重共线性不太严重即可。为了判断多元线性回归方程中是否存在严重的多重共线性,可以分别计算每两个自变量之间的决定系数r2。如果r2>R2或接近R2,尽量减少多线性的影响

减少多重共线性的主要方法是对自变量的值进行转换,例如

1. 变绝对数为相对数或平均数
2. 或者更换其他的自变量 

相关链接:

另一视角

换一换