×

多项式回归

如何用EXCEL拟合回归多项式公式?数据分析师必须掌握的7种回归分析方法

admin admin 发表于2022-06-13 14:57:04 浏览369 评论0

抢沙发发表评论

如何用EXCEL拟合回归多项式公式


手头比方说有如下的数据,如果我们要对未来收入进行预测,该怎么做呢,当然是要找合适的回归模型!这个可以利用差分法或者散点图来判别,不过还是散点图比较方便,还可以自动出拟合回归方程。

插入散点图如下,我们首先看一下散点的波动情况,如果对趋势线比较熟悉的话,应该知道这是二次曲线,不知道也不要紧,我们可以一个个试!

右击散点图中的数据标记,找到“添加趋势线”进入“趋势线选项”界面。

经过一个个试之后,来到多项式,顺序为2,代表二阶多项式模型,即,还要勾选下方的显示公式和R平方值。R方代表着回归方程的拟合程度,越靠近1越好,我们已经看到R方是0.999了,已经拟合的很好了!

以上是一种方法,不过系数还要自己抄多麻烦,况且常数项被简写了到底是多少啊??要自己去求得的话也特别简单,使用Linest函数即可,大家不知道吧,我也是刚刚知道,太好用了!!!!

LINEST函数简介:
LINEST(known_y’s, [known_x’s], [const], [stats])
LINEST 函数语法具有以下参数 (参数:为操作、事件、方法、属性、函数或过程提供信息的值。):
Known_y’s 必需。关系表达式 y = mx + b 中已知的 y 值集合。

如果 known_y’s 对应的单元格区域在单独一列中,则 known_x’s 的每一列被视为一个独立的变量。
如果 known_y’s 对应的单元格区域在单独一行中,则 known_x’s 的每一行被视为一个独立的变量。
Known_x’s 可选。关系表达式 y = mx + b 中已知的 x 值集合。

known_x’s 对应的单元格区域可以包含一组或多组变量。如果仅使用一个变量,那么只要 known_y’s 和 known_x’s 具有相同的维数,则它们可以是任何形状的区域。如果使用多个变量,则 known_y’s 必须为向量(即必须为一行或一列)。
如果省略 known_x’s,则假设该数组为 {1,2,3,...},其大小与 known_y’s 相同。
const
可选。一个逻辑值,用于指定是否将常量 b 强制设为 0。

如果 const 为 TRUE 或被省略,b 将按通常方式计算。
如果 const 为 FALSE,b 将被设为 0,并同时调整 m 值使 y = mx。
stats

可选。一个逻辑值,用于指定是否返回附加回归统计值。

如果 stats 为 TRUE,则 LINEST 函数返回附加回归统计值,这时返回的数组为 {mn,mn-1,...,m1,b;sen,sen-1,...,se1,seb;r2,sey;F,df;ssreg,ssresid}。
如果 stats 为 FALSE 或被省略,LINEST 函数只返回系数 m 和常量 b。

如何就这个例子应用函数呢?因为我们要产生3个数分别是常数项,回归系数2项,因此,我们要选中3个单元格以便输出3个数字即A14:C14。

然后按F2,输入{=LINEST(C3:C11,B3:B11^COLUMN($A:$B),TRUE,FALSE) }公式,再按Ctrl+Shift+Enter返回数组。(必须按数组模式输入公式,输入成功的话会看见“{}”这两个符号),看见了吧,已经产生了3个数字!!!
跟散点图的公式去核对一下是不是一模一样?这样我们就可以预测2006年的收入!!!后面不再写了吧。。略过。

公式说明,C3:C11选择了Y数据,B3:B11选择了X数据,^COLUMN($A:$B),后面COLUMN其实返回的是数据所在列号即(1,2)代表1次方和2次方,也就是产生了这样的公式,后面的TRUE代表输出常数项,最后一个FALSE只返回系数和常量,不返回附加回归统计值。

数据分析师必须掌握的7种回归分析方法


1、线性回归


线性回归是数据分析法中最为人熟知的建模技术之一。它一般是人们在学习预测模型时首选的技术之一。在这种数据分析法中,由于变量是连续的,因此自变量可以是连续的也可以是离散的,回归线的性质是线性的。


线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。


2、逻辑回归


逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 /0,真/假,是/否)变量时,我们就应该使用逻辑回归.


逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。


为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。-多项式回归


3、多项式回归


对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。下面是一个图例,可以帮助理解:-多项式回归


明显地向两端寻找曲线点,看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果。


4、逐步回归


在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。


这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。


5、岭回归


岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。-多项式回归


除常数项以外,这种回归的假设与最小二乘回归类似;它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能,这是一个正则化方法,并且使用的是L2正则化。


6、套索回归


它类似于岭回归。除常数项以外,这种回归的假设与最小二乘回归类似;它收缩系数接近零(等于零),确实有助于特征选择;这是一个正则化方法,使用的是L1正则化;如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。-多项式回归


7、回归


ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso会随机挑选他们其中的一个,而ElasticNet则会选择两个。Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。-多项式回归


通常在高度相关变量的情况下,它会产生群体效应;选择变量的数目没有限制;并且可以承受双重收缩。


关于数据分析师必须掌握的7种回归分析方法,青藤小编就和您分享到这里了,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的职业前景及就业内容,可以点击本站的其他文章进行学习。-多项式回归


常见的回归分析方法有哪些


1/6分步阅读
1.线性回归方法:通常因变量和一个(或者多个)自变量之间拟合出来是一条直线(回归线),通常可以用一个普遍的公式来表示:Y(因变量)=a*X(自变量)+b+c,其中b表示截距,a表示直线的斜率,c是误差项。如下图所示。

2/6
2.逻辑回归方法:通常是用来计算“一个事件成功或者失败”的概率,此时的因变量一般是属于二元型的(1 或0,真或假,有或无等)变量。以样本极大似然估计值来选取参数,而不采用最小化平方和误差来选择参数,所以通常要用log等对数函数去拟合。如下图。

3/6
3.多项式回归方法:通常指自变量的指数存在超过1的项,这时候最佳拟合的结果不再是一条直线而是一条曲线。比如:抛物线拟合函数Y=a+b*X^2,如下图所示。

4/6
4.岭回归方法:通常用于自变量数据具有高度相关性的拟合中,这种回归方法可以在原来的偏差基础上再增加一个偏差度来减小总体的标准偏差。如下图是其收缩参数的最小误差公式。

5/6
5.套索回归方法:通常也是用来二次修正回归系数的大小,能够减小参量变化程度以提高线性回归模型的精度。如下图是其惩罚函数,注意这里的惩罚函数用的是绝对值,而不是绝对值的平方。

6/6
6.ElasticNet回归方法:是Lasso和Ridge回归方法的融合体,使用L1来训练,使用L2优先作为正则化矩阵。当相关的特征有很多个时,ElasticNet不同于Lasso,会选择两个。如下图是其常用的理论公式。

-多项式回归