在研究X对于Y的影响时,会区分出很多种情况,比如Y有的是定类数据,Y有的是定量数据,也有可能Y有多个或者1个,同时每种回归分析还有很多前提条件,如果不满足则有对应的其它回归方法进行解决。这也就解决了为什么会有如此多的回归分析方法。那么在分析过程中应该如何选择回归方法?本篇文章带你去探索30种回归方法。
一、 回归分析方法概述
二、 分类
1.应用领域分类
(1)通用型
线性回归:
如果回归模型中X仅为1个,此时就称为简单线性回归或者一元线性回归;如果X有多个,此时称为多元线性回归,Y满足定量数据即可。
逐步回归:
逐步回归分析研究X对Y的影响关系情况,X可以为多个,但并非所有X均会对Y产生影响;当X个数很多时,可以让系统自动识别出有影响的X;这一自动识别分析方法则称为逐步回归分析;SPSSAU提供三种方法:向前法、向后法、逐步法。
Logistic回归:
如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元logistic回归;如果Y为多类比如1,2,3(比如小狗、小猫、小蛇),此时就会多分类logistic回归;如果Y为多类且有序比如1,2,3(比如1为不喜欢,2为一般,3为喜欢),此时可以使用有序logistic回归。
(2)统计学角度
线性回归和逐步回归上述有说明,对于一般线性模型,请看下文描述。
(3)计量角度
分层回归
比如第一次放入4个X;第二层放入3个X;第3层放入2个X; 每一层均在上一层基础上放入更多项;那放入的更多项是否对模型有解释力度,此则为分层回归关心的问题;分层回归通常用于中介作用或者调节作用研究中。
Poisson回归
如果数据符合Poisson分布时,而又想研究X对于Y的影响(Y呈现出Poisson分布);此时则需要使用Poisson回归,而不是使用常规的线性回归等。
负二项回归
针对Possion回归来讲,如果计数资料不适合Poisson分布时,尤其是数据过离散时,此时使用负二项回归分析更合适。
Cox回归
研究相关因素对于生存时间影响的回归模型,
Robust回归
对于数据中,一般有异常值时,比较常用。
WLS加权回归
使用OLS回归时,放入加权项,需要使用WLS加权回归。
OLS回归
OLS回归研究X对于Y的影响,在计量研究中,异方差问题非常重要,严重的异方差问题会影响模型估计和模型检验等,因而在OLS回归时需要对其进行检验,如果出现异方差问题则需要进行处理等。实际上也是线性回归,在计量经济学中比较常用。
两阶段回归
计量经济学中,解决内生性的方法。
分位数回归
顾名思义,研究分位数影响关系的方法。
分组回归
实质是线性回归,比如将性别分为男和女,分别做线性回归并且对比参数值。
GMM估计
在计量经济学中,处理内生性问题。
Tobit模型
需要删除的数据使用的回归方法。
面板模型
不同对象在不同时间上的指标数据是面板数据,面板模型面板数据的回归,
(4)社科学角度
路径分析
路径分析在于研究模型影响关系,用于对模型假设进行验证。比如下图的模型框架:希望研究工作条件,人际关系对于公司满意度的影响;
结构方程模型SEM
结构方程模型SEM是一种多元数据分析方法,其可用于研究多个潜变量之间的影响关系情况。结构方程模型共包括两部分结构,分别是测量关系和影响关系。
调节作用
调节作用是研究X对Y的影响时,是否会受到调节变量Z的干扰;比如开车速度(X)会对车祸可能性(Y)产生影响,这种影响关系受到是否喝酒(Z)的干扰,即喝酒时的影响幅度,与不喝酒时的影响幅度 是否有着明显的不一样。
中介作用
中介作用是一种概念,具体研究时需要对应使用研究方法(分层回归)去实现;中介作用分析时,Y一定是定量数据(比如工作绩效)。X也是定量数据(比如工作满意度),中介变量M也是定量数据(比如创新氛围)。
调节中介
包括中介作用和调节作用。
分层回归
多个层的线性回归,并且进行模型对比。
分组回归
实质是线性回归,比如将性别分为男和女,分别做线性回归并且对比参数值。
(5)医学角度
Poisson回归
如果数据符合Poisson分布时,而又想研究X对于Y的影响(Y呈现出Poisson分布);此时则需要使用Poisson回归,而不是使用常规的线性回归等。
负二项回归
上述中有提到。
Cox回归
上述中有提到。
条件logit回归
医学研究的病例-对照研究中,为了控制一些重要的混杂因素,经常会把病例和对照按年龄,性别等条件进行配对,形成多个匹配组。各匹配组的病例数和对照人数是任意的,比如一个病例和若干个对照匹配即1:1,常见是1:M(M <=3),即1个病例和1或2或3个对照匹配。也或者在使用过计量研究里面的PSM倾向得分匹配,也有可能使用到条件logistic回归。
诸如上述说明时,如果研究数据带有‘类实验’性质,因变量Y为0和1二分类数据,此时则应该使用条件logistic回归
Deming回归
Deming回归,其可用于研究两种仪器(或者两种测量方法等)是否有着一致性(相似的测量值)。Deming回归与普通线性回归(OLS回归)的原理上有所不同,普通线性回归时,只有Y会包含测量误差,但是Deming回归时X和Y均会包含测量误差。
(6)数学建模
PLS回归
在进行X对于Y的影响关系研究时,Y只能是一项,如果Y有多项,则有两种处理办法,一是重复进行多次;二是将Y概括成一个整体。那如果研究人员希望将多个Y同时放一起分析时,则需要使用PLS回归。
逐步回归
逐步回归分析研究X(自变量,通常为量数据)对Y(因变量,定量数据)的影响关系情况,X可以为多个,但并非所有X均会对Y产生影响;当X个数很多时,可以让系统自动识别出有影响的X;这一自动识别分析方法则称为逐步回归分析;如果全部X均没有显著性,此时系统默认返回 回归分析结果。
岭回归
岭回归分析用于解决线性回归分析中自变量共线性的研究算法。岭回归通过引入k个单位阵,使得回归系数可估计;单位阵引入会导致信息丢失,但同时可换来回归模型的合理估计。针对岭回归:其研究步骤共为2步,分别是结合岭迹图寻找最佳K值;输入K值进行回归建模。
Lasso回归
回归结果中出现共线性的解决方法,也可做特征筛选。
Poisson回归
上述有提到过。
(7)专业型
曲线回归
曲线回归是指对于非线性关系的变量进行回归分析的方法。曲线回归在关系形式上是非线性关系,但可通过各类转换变成线性关系,最终建立回归模型。
非线性回归
不是线性回归的拟合模型。
PLS回归
在进行X对于Y的影响关系研究时,Y只能是一项,如果Y有多项,则有两种处理办法,一是重复进行多次;二是将Y概括成一个整体。那如果研究人员希望将多个Y同时放一起分析时,则需要使用PLS回归。
岭回归
岭回归分析用于解决线性回归分析中自变量共线性的研究算法。岭回归通过引入k个单位阵,使得回归系数可估计;单位阵引入会导致信息丢失,但同时可换来回归模型的合理估计。针对岭回归:其研究步骤共为2步,分别是结合岭迹图寻找最佳K值;输入K值进行回归建模。
Lasso回归
上文有提及。