7种回归分析方法详解什么是回归分析? 回归分析是一种预测建模技术,用于研究因变量(目标)和自变量(预测变量)之间的关系。该技术通常用于预测分析、时间序列建模和发现变量之间的因果关系。例如使用回归分析法可以预测销售额,司机鲁莽驾驶与道路交通事故数量之间的关系最好使用回归来研究。 回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线拟合这些数据点,使曲线或线到数据点的距离差异最小。我将在下一节中详细解释这一点。 为什么要使用回归分析? 如上所述,回归分析估计两个或多个变量之间的关系。下面,我们举个简单的例子来理解一下: 举例来说,您想要估计一家公司在当前经济条件下的销售增长。现在,您获得了公司的最新数据,显示销售增长速度大约是经济增长速度的 2.5 倍。然后使用回归分析,我们可以根据当前和过去的信息预测未来公司的销售额。 使用回归分析的好处很多。详情如下: 1. 表明自变量与因变量之间存在显着关系; 2. 表示多个自变量对一个因变量的影响强度。 回归分析还允许我们比较衡量不同尺度的变量之间的相互作用,例如价格变化与促销活动数量之间的关系。 这些帮助市场研究人员、数据分析师和数据科学家排除和估计用于构建预测模型的最佳变量集。 我们有多少回归技术? 有多种用于预测的回归技术。这些技术具有三个主要度量(自变量的数量、因变量的类型和回归线的形状)。我们将在以下部分详细讨论它们。 对于那些有创造力的人,如果您觉得需要结合使用上述参数,您甚至可以创建一个以前没有使用过的回归模型。但在开始之前,这里有一些最常用的回归方法: 1.Linear Regression线性回归 它是最著名的建模技术之一。线性回归通常是人们在学习预测模型时使用的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的或离散的,回归线的性质是线性的。 线性回归使用最佳拟合直线(又称回归线)在因变量 (Y) 和一个或多个自变量 (X) 之间建立关系。 用方程表示,Y=a+b*X+e,其中a是截距,b是直线的斜率,e是误差项。该等式在给定预测变量的情况下预测目标变量的值。 单变量线性回归与多元线性回归的区别在于,多元线性回归有(>1)个自变量,而单变量线性回归通常只有1个自变量。现在的问题是“我们如何获得最佳拟合线?”。 我怎样才能得到最适合的线(a和b的值)? 使用最小二乘法可以很容易地解决这个问题。最小二乘法也是拟合回归线最常用的方法。对于观察到的数据,它通过最小化每个数据点与线的垂直偏差平方和来计算最佳拟合线。因为相加时先对偏差求平方,所以没有抵消正负值。 我们可以使用 R 平方指标来评估模型性能。要了解有关这些指标的更多信息,您可以阅读:模型性能指标第 1 部分、第 2 部分。 要点: 1、自变量和因变量之间必须存在线性关系 2、多元回归具有多重共线性、自相关性和异方差性。 3. 线性回归对异常值非常敏感。它会严重影响回归线并最终影响预测值。 4. 多重共线性会增加系数估计的方差,使估计对模型的微小变化非常敏感。结果是系数估计不稳定 5.在有多个自变量的情况下,可以采用前向选择法、后向淘汰法和逐步筛选法,选择最重要的自变量。 2.Logistic Regression逻辑回归 逻辑回归用于计算“事件=成功”和“事件=失败”的概率。当因变量的类型是二元(1/0,真/假,是/否)变量时,我们应该使用逻辑回归。这里,Y的值为0~1,可以用下式表示。 odds= p/ (1-p) = 事件发生的概率/事件不发生的概率 ln(odds) = ln(p/(1-p))logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk 上式中,p表示具有某个特征的概率。你应该问这个问题:“为什么我们在公式中使用对数?”。 由于这里我们使用的是二项分布(因变量),因此我们需要选择一个最适合该分布的链接函数。它是 Logit 函数。在上面的等式中,参数是通过观察样本的最大似然估计来选择的,而不是最小化误差平方和(如在普通回归中使用的那样)。 要点: 1.广泛应用于分类问题。 2、逻辑回归不需要自变量和因变量之间存在线性关系。它可以处理各种类型的关系,因为它使用了预测相对风险指数 OR 的非线性对数变换。 3. 为了避免过拟合和欠拟合,我们应该包括所有重要的变量。确保这一点的一个好方法是使用逐步筛选方法来估计逻辑回归。 4. 需要大样本量,因为最大似然估计在样本量小的情况下效果不如普通最小二乘法。 5. 自变量之间不应存在相关性,即不应存在多重共线性。然而,在分析和建模中,我们可以选择包括分类变量交互作用的影响。 6. 如果因变量的值是序数变量,则称为序数逻辑回归。 7. 如果因变量是多类别的,则称为多元逻辑回归。 3. Polynomial Regression 多项式回归 对于回归方程,如果自变量的指数大于1使用回归分析法可以预测销售额,那么它是一个多项式回归方程。如下式所示:y=a+b*x^2,在这种回归技术中,最佳拟合线不是直线。相反,它是用于拟合数据点的曲线。 重点: 虽然会出现拟合更高阶多项式并获得更低误差的诱因,但这可能会导致过度拟合。您需要经常绘制关系以查看拟合情况,并重点确保拟合合理,既不会过拟合也不会欠拟合。 这是一个帮助理解的插图: 显然要寻找两端的曲线点,看看形状和趋势是否有意义。更高阶的多项式最终会产生奇怪的推理结果。 4.Stepwise Regression 逐步回归 在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在不包括人为干预的自动过程中完成的。 这个壮举是通过查看 R 平方、t 统计和 AIC 指标等统计值来识别重要变量。逐步回归通过根据指定标准同时添加/删除协变量来拟合模型。 下面列出了一些最常用的逐步回归方法: 这种建模技术的目标是使用最少数量的预测变量来最大化预测能力。这也是处理高维数据集的方法之一。 5. Ridge Regression 岭回归 岭回归分析是一种针对存在多重共线性(高度相关的自变量)的数据的技术。在存在多重共线性的情况下,即使最小二乘法(OLS)对每个变量都是公平的,但它们之间的差异很大,使得观测值偏移并远离真实值。岭回归通过向回归估计添加一定程度的偏差来减少标准误差。 上面,我们看到了线性回归方程。你还记得吗?可以表示为: 等式 y=a+b*x 也有一个误差项。完整的等式是: y=a+b*x+e (error term), [误差项是校正观察值和预测值之间的预测误差所需的值] => y=a+y= a+ b1x1+ b2x2+....+e,用于多个自变量。 在线性方程中,预测误差可以分解为 2 个子分量。一个是偏差,另一个是方差。预测错误可能由这些组件中的一个或两个引起。在这里,我们将讨论由方差引起的相关误差。 岭回归通过缩小参数 λ (lambda) 来解决多重共线性问题。见下面的公式 在这个公式中,有两个组件。第一个是最小二乘项,另一个是 λ 乘以 β2(β 平方),其中 β 是相关系数。将其添加到收缩参数的最小二乘项以获得非常低的方差。 要点: 1、除常数项外,该回归的假设与最小二乘回归相似; 2.它缩小了相关系数的值,但没有达到零,说明它没有特征选择功能 3. 这是一种正则化方法,它使用的是L2正则化。 6.Lasso Regression套索回归 它与岭回归类似,Lasso(Least Absolute Shrinkage and Selection Operator)也是对回归系数的绝对值进行惩罚。此外,它能够降低变异程度并提高线性回归模型的准确性。看看下面的公式: Lasso 回归与 Ridge 回归略有不同,它使用的惩罚函数是绝对值而不是平方。这导致惩罚(或等于约束估计的绝对值之和)值使某些参数估计等于零。使用较大的惩罚值,进一步估计会使收缩值趋近于零。这将使我们从给定的 n 个变量中选择变量。 要点: 1、除常数项外,该回归的假设与最小二乘回归相似; 2. 它的收缩系数接近于零(等于零),对特征选择很有帮助; 3、这是一种正则化方法,使用L1正则化; 如果预测的变量集高度相关,Lasso 会挑选出其中一个变量并将其他变量收缩为零。 7. ElasticNet回归 ElasticNet 是 Lasso 和 Ridge 回归技术的混合体。它首先使用 L1 进行训练,并使用 L2 作为正则化矩阵。当有多个相关特征时,ElasticNet 很有用。Lasso 随机选择其中之一,而 ElasticNet 则选择两个。 Lasso 和 Ridge 之间的实际优势在于它允许 ElasticNet 在循环状态下继承 Ridge 的一些稳定性。 要点: 1、在变量高度相关的情况下,产生群体效应; 2、选择变量的个数没有限制; 3、可承受双重收缩。 除了这 7 种最常用的回归技术,您还可以查看其他模型,例如贝叶斯回归、生态回归和稳健回归。 如何正确选择回归模型? 当您只知道一两种技术时,生活往往很简单。我知道的一家培训机构告诉他们的学生,如果结果是连续的,就使用线性回归。如果是二元的,就用逻辑回归!但是,在我们的治疗中,选择越多,就越难选择正确的。类似的情况也发生在回归模型中。 在多类回归模型中,重要的是根据自变量和因变量的类型、数据的维数以及数据的其他基本特征选择最合适的技术。以下是您选择正确回归模型的关键因素: 1. 数据探索是构建预测模型的必然环节。这应该是选择合适模型时的首选步骤,例如识别变量的关系和影响。 2.比较不同模型的优势,我们可以分析不同的指标参数,如统计显着性参数、R-square、Adjusted R-square、AIC、BIC和error terms,另一个是Mallows' Cp准则。这主要是通过将模型与所有可能的子模型进行比较(或仔细选择)来检查模型中可能存在的偏差。 3. 交叉验证是评估预测模型的最佳方式。在这里,将您的数据集分成两部分(一个用于训练,一个用于验证)。使用观察值和预测值之间的简单均方误差来衡量你预测的准确性。 4. 如果你的数据集是多个混合变量,那么你不应该选择自动模型选择的方法,因为你不应该同时把所有的变量放在同一个模型中。 5. 这也取决于你的目的。与具有高度统计意义的模型相比,功能较弱的模型可能更容易实施。 6. 回归正则化方法(Lasso、Ridge 和 ElasticNet)在数据集变量之间存在高维和多重共线性的情况下效果很好。 来自网络 |
另一视角
换一换- 2023元旦高速公路有免费吗?
- 现在的取暖煤真的降价了吗?
- 煤炭价格下月能降下来吗?
- 煤炭价格为什么会爆涨?
- 我们这边现在一吨自己烧锅炉的1400—1800元了,你们那里多少钱啊
- 全国多地拉闸限电,企业出路究竟在哪里?
- 可以买腾讯了吗?中概互联ETF规模暴增,谁在抄底?
- 中国奥园被穆迪列入负面观察,是否会成下一个花样年?
- 我国三季度GDP同比增4.9%,今年能完成预定6%的目标吗?
- 90年代下岗的人,现在都在做什么工作?
- 广东又开始限电了,是不是制造业产能过剩了?
- mg通胀连续超记录之后,还会怎么走?
- 欧盟提出应对气候变化一揽子计划,企业和消费者将受到哪些影响?
- 苏伊士运河被堵事件分析
- 苏伊士运河被堵,长荣公司预计赔多少钱?
- 为什么日本作为发达国家,日元却这么不值钱?
- 澳大利亚铜精矿出口暴跌80%,澳企还能顶得住吗?
- 听说在新西兰居住超过10年,到65岁就可以领取退休金对吗?
- 俄罗斯真的有全民免费医疗吗?
- 欧盟各国,农村老人的养老金与城市老人养老金差距大吗?
- 苏宁任性付逾期有哪些后果
- 车贷首付几成不用银行流水(买车首付几成不用银行流水)
- 急用钱借款哪里最安全可靠(急用钱上哪借最安全)
- 什么正规的贷款平台容易通过的(哪些正规贷款平台好下款)
- 花呗不小心注销了还能开通吗(花呗不小心注销了还能开通吗怎么办
- 哪个网络平台借钱利率最低(哪个网络平台借钱利息最低)
- 查征信一定要身份证原件吗(查征信是不是一定要身份证)
- 桔多多是正规的贷款平台吗(桔多多是正规借贷平台吗)
- 车贷4厘5的利息贵吗(车贷44厘利息高不高)
- 随借随还贷款利息怎么算(随借随还的利息怎么还)
- 网贷逾期一年多,没人催收也没被起诉?
- P2P里的借方都可以不还钱了吗?为何不归为“失信”人?
- 如果网贷全面取缔来临,出借人和借款人,哪一个最受益?
- 卢志强从未投资团贷网 22万出借人觉得呢?
- 有多少人受了P2P的亏?有多少人投进去的钱拿不回来的?
- 手机hao被盗用,申请网贷,金融机构找我追款,怎么处理?
- 平台进行协商后要求借款者只还本金,不还征信会受到影响吗?
- 借了网贷钱后,还款也有套路?
- 欠了一大笔网贷,即将全面逾期,应该如何度过这个时期?
- 网贷逾期后,这个还款协议千万不能签!否则这辈子别想还清知道吗
- 2023年凝析油概念龙头股一览,两分钟带你了解
- 豆油概念股有哪些? 2023年豆油概念股一览
- 2023年果蔬加工上市公司名单果蔬加工个股今日股价查询
- TOF概念股分类_TOF概念股上市公司有哪些(2/3)
- 今天游乐园股票的股价是多少? A股游乐场有哪些上市公司?
- 3大“焦炭龙头”个股名单,赶紧收藏起来! (2/3)
- 2023年A股VR头显龙头上市公司有哪些? (2 月 5 日)
- 2023年二氟磷酸锂上市公司有哪些?二氟磷酸锂上市公司名单
- 金属锆概念股有哪些,金属锆概念股股价一览表
- A股酶制剂上市公司龙头股汇总 (2023/2/5)
- 是高市净率好还是低市净率好?
- 为什么最近很多人买基金都亏了?
- 基金都是牛市赚大钱,熊市亏大钱,为什么出现这样的情况?
- 为什么很多新基民喜欢买新基金?
- 首只ETF发行失败,基金募资失败或被清盘,投资者有哪些损失?
- 按照排行榜买基金,为什么总受伤?
- 100万用来买大盘基金,年收益用来当生活费,能不能做到一辈子不
- 投资者买基金时,买的是什么?
- “爆款基金”值得投资吗?
- 基金的表现,会均值回归吗?
- 如何看待那些把人民币兑换成美元现金放在家里的人?
- 今日人民币最新外汇牌价查询(2021年11月12号)
- 今日人民币最新外汇牌价查询(2021年11月11号)
- 今日人民币最新外汇牌价查询(2021年11月9号)
- usa的钱我们叫美元,那人民币走出国门,在国外叫什么?
- 今日人民币最新外汇牌价查询(2021年11月7号)
- 今日人民币最新外汇牌价查询(2021年11月6号)
- 今日人民币最新外汇牌价查询(2021年11月4号)
- 今日人民币最新外汇牌价查询(2021年11月2号)
- 今日人民币最新外汇牌价查询(2021年11月1号)
- 第24届冬奥会铜合金纪念币预约为何没有出现“秒杀”?
- 河南发现50吨特大金矿,对世界金价有影响吗?
- 个人储备较多黄金算违法吗?
- 可以把手里的闲钱买成黄金,来抵御货币贬值?
- 现货黄金行情分析软件下载后怎么做?
- 黄金典当和黄金回收,哪种方式好?
- Taper临近,滞胀担忧来袭,黄金真能翻身吗?
- 黄金现在跌到多少钱一克了?
- 非农数据“爆冷”,金价后续又将有怎样的走势?
- 2021年10月11号金店黄金价格今天多少一克?
- 商品房的预售证哪里可以查到 怎么在网上查商品房预售证
- 18层的槽钢层在哪几层 18层的楼房槽钢层在哪几层
- 新房预售许可证哪里可以查到 房子的预售证哪里可以查询
- 房子过户最安全的办法 怎么规避房产过户风险
- 住房公积金缴纳比例如何上调 住房公积金的缴存基数是如何算的
- 各地为什么绿化率计算规则不一样 有了绿化率如何算绿化面积
- 个人公积金账号在哪里开通 个人公积金账户如何开通大庆
- 2018老房产证贷款买新房流程 新房组合贷款办理流程详解
- 买房小产权房需要注意什么 买小产权房的最佳条件是啥
- 新的婚姻法房产加名字有效吗 现在婚姻法婚前房产可以加名字吗
- 夫妻两人每人月薪3000,工作稳定,小县城,能养的起比亚迪汉吗?
- 最近大雪,很多电动汽车都开不了了,电动汽车的发展之路是不是还
- 网友都说小米汽车以后会超越特斯拉,在技术上有实现的可能性吗?
- 特斯拉生产供应链基本都靠中国,为什么我们不能成,特斯拉能成?
- 汽车传感器市场分析,国产机会如何?
- 大家聊聊今年汽车行业市场行业现状与趋势?
- 存一万给一辆电动车,银行为什么那么大方?
- 为什么有那么多人骑电动车上班?
- 你觉得自动驾驶的前景如何?
- 拿到驾驶证后三年内没开过车,现在想买车,但是又担心开车技术不
- 中国城市GDP排名2020年排行榜-2020全国GDP省份排名一览表
- 2020年中国区块链企业百强榜
- 2019年全球银行千强排名,中国包揽前四,总利润3120亿美元
- 华尔街金融巨头有哪些?华尔街十大金融巨头排名排行榜
- 法国各大银行排名排行榜:法国巴黎银行排第二,第一名成立最早
- 德国银行排名排行榜:德国商业银行登榜,第一名德意志银行
- 巴西各大银行排名排行榜:巴西哪家银行最好?巴西银行仅第三
- 加拿大银行排名排行榜:皇家银行第一 历史最悠久的排名第四
- 2020全球500强排名排行榜完整版 世界五百强排名一览表
- 2020福布斯全球最新富豪排名排行榜 杰夫·贝佐斯位居世界首富第
- 夫妻两人每人月薪3000,工作稳定,小县城,能养的起比亚迪汉吗?
- 最近大雪,很多电动汽车都开不了了,电动汽车的发展之路是不是还
- 鄂尔多斯60万年薪,招清北毕业的教师,教师竞争越来越内卷了吗?
- 新东方真的给学生、老师退款了吗?
- 为什么一些没有技术含量的工作反而比有技术含量的收入高?
- 网友都说小米汽车以后会超越特斯拉,在技术上有实现的可能性吗?
- 特斯拉生产供应链基本都靠中国,为什么我们不能成,特斯拉能成?
- 汽车传感器市场分析,国产机会如何?
- 大家聊聊今年汽车行业市场行业现状与趋势?
- 李云迪还有出路吗?