发布时间:2022-12-19 04:11:51 文章来源:互联网
微博 微信 QQ空间

7种回归分析方法详解

什么是回归分析?

回归分析是一种预测建模技术,用于研究因变量(目标)和自变量(预测变量)之间的关系。该技术通常用于预测分析、时间序列建模和发现变量之间的因果关系。例如使用回归分析法可以预测销售额,司机鲁莽驾驶与道路交通事故数量之间的关系最好使用回归来研究。

回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线拟合这些数据点,使曲线或线到数据点的距离差异最小。我将在下一节中详细解释这一点。

为什么要使用回归分析?

如上所述,回归分析估计两个或多个变量之间的关系。下面,我们举个简单的例子来理解一下:

举例来说,您想要估计一家公司在当前经济条件下的销售增长。现在,您获得了公司的最新数据,显示销售增长速度大约是经济增长速度的 2.5 倍。然后使用回归分析,我们可以根据当前和过去的信息预测未来公司的销售额。

使用回归分析的好处很多。详情如下:

1. 表明自变量与因变量之间存在显着关系;

2. 表示多个自变量对一个因变量的影响强度。

回归分析还允许我们比较衡量不同尺度的变量之间的相互作用,例如价格变化与促销活动数量之间的关系。

这些帮助市场研究人员、数据分析师和数据科学家排除和估计用于构建预测模型的最佳变量集。

我们有多少回归技术?

有多种用于预测的回归技术。这些技术具有三个主要度量(自变量的数量、因变量的类型和回归线的形状)。我们将在以下部分详细讨论它们。

对于那些有创造力的人,如果您觉得需要结合使用上述参数,您甚至可以创建一个以前没有使用过的回归模型。但在开始之前,这里有一些最常用的回归方法:

1.Linear Regression线性回归

它是最著名的建模技术之一。线性回归通常是人们在学习预测模型时使用的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的或离散的,回归线的性质是线性的。

线性回归使用最佳拟合直线(又称回归线)在因变量 (Y) 和一个或多个自变量 (X) 之间建立关系。

用方程表示,Y=a+b*X+e,其中a是截距,b是直线的斜率,e是误差项。该等式在给定预测变量的情况下预测目标变量的值。

单变量线性回归与多元线性回归的区别在于,多元线性回归有(>1)个自变量,而单变量线性回归通常只有1个自变量。现在的问题是“我们如何获得最佳拟合线?”。

我怎样才能得到最适合的线(a和b的值)?

使用最小二乘法可以很容易地解决这个问题。最小二乘法也是拟合回归线最常用的方法。对于观察到的数据,它通过最小化每个数据点与线的垂直偏差平方和来计算最佳拟合线。因为相加时先对偏差求平方,所以没有抵消正负值。

我们可以使用 R 平方指标来评估模型性能。要了解有关这些指标的更多信息,您可以阅读:模型性能指标第 1 部分、第 2 部分。

要点:

1、自变量和因变量之间必须存在线性关系

2、多元回归具有多重共线性、自相关性和异方差性。

3. 线性回归对异常值非常敏感。它会严重影响回归线并最终影响预测值。

4. 多重共线性会增加系数估计的方差,使估计对模型的微小变化非常敏感。结果是系数估计不稳定

5.在有多个自变量的情况下,可以采用前向选择法、后向淘汰法和逐步筛选法,选择最重要的自变量。

2.Logistic Regression逻辑回归

逻辑回归用于计算“事件=成功”和“事件=失败”的概率。当因变量的类型是二元(1/0,真/假,是/否)变量时,我们应该使用逻辑回归。这里,Y的值为0~1,可以用下式表示。

odds= p/ (1-p) = 事件发生的概率/事件不发生的概率 ln(odds) = ln(p/(1-p))logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk

上式中,p表示具有某个特征的概率。你应该问这个问题:“为什么我们在公式中使用对数?”。

由于这里我们使用的是二项分布(因变量),因此我们需要选择一个最适合该分布的链接函数。它是 Logit 函数。在上面的等式中,参数是通过观察样本的最大似然估计来选择的,而不是最小化误差平方和(如在普通回归中使用的那样)。

要点:

1.广泛应用于分类问题。

2、逻辑回归不需要自变量和因变量之间存在线性关系。它可以处理各种类型的关系,因为它使用了预测相对风险指数 OR 的非线性对数变换。

3. 为了避免过拟合和欠拟合,我们应该包括所有重要的变量。确保这一点的一个好方法是使用逐步筛选方法来估计逻辑回归。

4. 需要大样本量,因为最大似然估计在样本量小的情况下效果不如普通最小二乘法。

5. 自变量之间不应存在相关性,即不应存在多重共线性。然而,在分析和建模中,我们可以选择包括分类变量交互作用的影响。

6. 如果因变量的值是序数变量,则称为序数逻辑回归。

7. 如果因变量是多类别的,则称为多元逻辑回归。

3. Polynomial Regression 多项式回归

对于回归方程,如果自变量的指数大于1使用回归分析法可以预测销售额,那么它是一个多项式回归方程。如下式所示:y=a+b*x^2,在这种回归技术中,最佳拟合线不是直线。相反,它是用于拟合数据点的曲线。

重点:

虽然会出现拟合更高阶多项式并获得更低误差的诱因,但这可能会导致过度拟合。您需要经常绘制关系以查看拟合情况,并重点确保拟合合理,既不会过拟合也不会欠拟合。

这是一个帮助理解的插图:

显然要寻找两端的曲线点,看看形状和趋势是否有意义。更高阶的多项式最终会产生奇怪的推理结果。

4.Stepwise Regression 逐步回归

在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在不包括人为干预的自动过程中完成的。

这个壮举是通过查看 R 平方、t 统计和 AIC 指标等统计值来识别重要变量。逐步回归通过根据指定标准同时添加/删除协变量来拟合模型。

下面列出了一些最常用的逐步回归方法:

这种建模技术的目标是使用最少数量的预测变量来最大化预测能力。这也是处理高维数据集的方法之一。

5. Ridge Regression 岭回归

岭回归分析是一种针对存在多重共线性(高度相关的自变量)的数据的技术。在存在多重共线性的情况下,即使最小二乘法(OLS)对每个变量都是公平的,但它们之间的差异很大,使得观测值偏移并远离真实值。岭回归通过向回归估计添加一定程度的偏差来减少标准误差。

上面,我们看到了线性回归方程。你还记得吗?可以表示为:

等式 y=a+b*x 也有一个误差项。完整的等式是:

y=a+b*x+e (error term), [误差项是校正观察值和预测值之间的预测误差所需的值]

=> y=a+y= a+ b1x1+ b2x2+....+e,用于多个自变量。

在线性方程中,预测误差可以分解为 2 个子分量。一个是偏差,另一个是方差。预测错误可能由这些组件中的一个或两个引起。在这里,我们将讨论由方差引起的相关误差。

岭回归通过缩小参数 λ (lambda) 来解决多重共线性问题。见下面的公式

在这个公式中,有两个组件。第一个是最小二乘项,另一个是 λ 乘以 β2(β 平方),其中 β 是相关系数。将其添加到收缩参数的最小二乘项以获得非常低的方差。

要点:

1、除常数项外,该回归的假设与最小二乘回归相似;

2.它缩小了相关系数的值,但没有达到零,说明它没有特征选择功能

3. 这是一种正则化方法,它使用的是L2正则化。

6.Lasso Regression套索回归

它与岭回归类似,Lasso(Least Absolute Shrinkage and Selection Operator)也是对回归系数的绝对值进行惩罚。此外,它能够降低变异程度并提高线性回归模型的准确性。看看下面的公式:

Lasso 回归与 Ridge 回归略有不同,它使用的惩罚函数是绝对值而不是平方。这导致惩罚(或等于约束估计的绝对值之和)值使某些参数估计等于零。使用较大的惩罚值,进一步估计会使收缩值趋近于零。这将使我们从给定的 n 个变量中选择变量。

要点:

1、除常数项外,该回归的假设与最小二乘回归相似;

2. 它的收缩系数接近于零(等于零),对特征选择很有帮助;

3、这是一种正则化方法,使用L1正则化;

如果预测的变量集高度相关,Lasso 会挑选出其中一个变量并将其他变量收缩为零。

7. ElasticNet回归

ElasticNet 是 Lasso 和 Ridge 回归技术的混合体。它首先使用 L1 进行训练,并使用 L2 作为正则化矩阵。当有多个相关特征时,ElasticNet 很有用。Lasso 随机选择其中之一,而 ElasticNet 则选择两个。

Lasso 和 Ridge 之间的实际优势在于它允许 ElasticNet 在循环状态下继承 Ridge 的一些稳定性。

要点:

1、在变量高度相关的情况下,产生群体效应;

2、选择变量的个数没有限制;

3、可承受双重收缩。

除了这 7 种最常用的回归技术,您还可以查看其他模型,例如贝叶斯回归、生态回归和稳健回归。

如何正确选择回归模型?

当您只知道一两种技术时,生活往往很简单。我知道的一家培训机构告诉他们的学生,如果结果是连续的,就使用线性回归。如果是二元的,就用逻辑回归!但是,在我们的治疗中,选择越多,就越难选择正确的。类似的情况也发生在回归模型中。

在多类回归模型中,重要的是根据自变量和因变量的类型、数据的维数以及数据的其他基本特征选择最合适的技术。以下是您选择正确回归模型的关键因素:

1. 数据探索是构建预测模型的必然环节。这应该是选择合适模型时的首选步骤,例如识别变量的关系和影响。

2.比较不同模型的优势,我们可以分析不同的指标参数,如统计显着性参数、R-square、Adjusted R-square、AIC、BIC和error terms,另一个是Mallows' Cp准则。这主要是通过将模型与所有可能的子模型进行比较(或仔细选择)来检查模型中可能存在的偏差。

3. 交叉验证是评估预测模型的最佳方式。在这里,将您的数据集分成两部分(一个用于训练,一个用于验证)。使用观察值和预测值之间的简单均方误差来衡量你预测的准确性。

4. 如果你的数据集是多个混合变量,那么你不应该选择自动模型选择的方法,因为你不应该同时把所有的变量放在同一个模型中。

5. 这也取决于你的目的。与具有高度统计意义的模型相比,功能较弱的模型可能更容易实施。

6. 回归正则化方法(Lasso、Ridge 和 ElasticNet)在数据集变量之间存在高维和多重共线性的情况下效果很好。

来自网络

另一视角

换一换