广义线性模型调节参数选择方法研究

(整期优先)网络出版时间:2021-02-26
/ 2

广义线性模型调节参数选择方法研 究

高钰蓉 宋凤丽

南京信息工程大学 江苏南京 210044

摘要:随着大数据时代的不断发展,线性模型的应用更加普遍,广义线性模型因而就突显出它很大的优势,具有更大的发展前景和研究价值。广义线性模型在统计分析中是一个非常重要且应用比较广泛的模型。本文介绍SCAD 的惩罚来产生系数估计,再分别用CV准则、AIC

准则、BIC 准则和 ERIC 准则进行了论述,最终ERIC 准则的惩罚部分引入了调节参数,较大的调节参数值能引发更大程度的系数收缩和更平滑(方差更小)的均值响应。

关键词:广义线性模型;调节参数选择;SCAD惩罚;ERIC方法;

1引言

一般而言,模型选择准则主要包含两种情况:第一种是站在重复抽样与预测稳定性的角度考虑,例如CV、Bootstrap 等;第二种是站在似然与模型复杂度的角度考虑,例如AIC、BIC 等。文章主要是基于后者来研究的。在日常生活中的数据量不大或者给定一些简单模型的条件下,以前经常使用的一些传统的变量选择方法,如最优子集法,逐步回归法,以及一些固定惩罚函数的选择方法,例如Mallow’Cp方法以及Bayesian 的信息准则 BIC 方法等确实能够帮助我们进行变量选择,选择结果较好。但是,当模型的变量维数变高即就是高维数据情况下,这些传统的方法就会表现比较差,不仅会忽略每一次变量选择时的扰动项的分布变化,而且还会花费大量的维护费用以及计算时间,这对分析人员来说是非常不愿意看到的。

2 SCAD惩罚似然函数

现代的变量选择选择方法多围绕正则化方法进行展开。模型选择的正则化方法可以看作是一类特殊的收缩方法,能够同时实现变量选择和参数估计,且现在已经成为一种主流的变量选择方法。正则化方法是基于惩罚的思想,对目标函数添加一个惩罚项,使得新目标函数的最小化子相对于原目标函数最小化子有所收缩,从而能够挑选出重要的系数加以保留。本文选择前面提到的能够同时满足连续性、稀疏性和无偏性且具有 Oracle 性质的 SCAD 惩罚函数,下面是SCAD 惩罚似然函数的理论基础介绍。

2.1 理论基础

SCAD 惩罚(Smoothly Clipped Absolute Deviation Penalty)是 Fan 和 Li 提出的一种连续可微的惩罚函数,其形式可构造如下:

6038845aceebe_html_4935585bc5188e0a.png

并且建议取a= 2+√3=3.7 ,λ=0.7。SCAD 惩罚回归能产生出稀疏解和无偏估计。在 SCAD 函数中有两个参数,但是他们认为当a=3.7时对于大多数模型来说效果都是很好的,所以本文取a=3.7。

2.2 Oracle估计量及性质

Oracle估计量及Oracle 性质最初是由Fan和Li提出的,假设我们预先已经知道哪些参数是模型中不想要看到的,即系数为零的那些参数,哪些参数是模型中想要看到的,即系数不为零的参数,在这种情况下做参数选择及估计时,所得到的参数估计即就是Oracle 估计量。该估计量在后续的模拟研究过程中有着非常重要的应用。Oracle性质,在有些文章中又称作“神谕”性质,它具体指的是下面这两条性质,第一条性质是变量选择后的稀疏性(sparsity),该处稀疏性的意思是指对于真实值为零的参数,其对应的估计值也为零。第二条性质是非零系数的渐近正态性,简明阐述就是对于真实值不为零的参数,其对应的估计量随着样本量n趋于无穷服从渐近正态性。 

3. 调节参数选择方法 

3.1 交叉验证(CV 准则)

交叉验证(cross validation)法简称CV 方法,该方法的基本原理是在某种条件下将初始数据分为两组,一组作为验证集数据(validation set),另一组作为训练集数据(train set)。然后利用训练集数据对分类器进行训练,得到一个模型,再利用验证集数据来验证训练集数据得到的模型,以此作为评价分类器的性能指标,起到验证分类器性能的作用。

交叉验证一般需要满足以下两个条件:(1) 训练集的比例要足够多,一般最少大于整个数据集的一半;(2) 训练集数据和验证集数据要进行均匀抽样。交叉验证的类型主要有k

折交叉验证(k-fold cross-validation)和留一交叉验证(least-one-out cross-validation)。

3.2 赤池信息准则(AIC 准则)

AIC(Akaike information criterion)信息准则,全称为最小信息量准则,是由日本统计学家赤池弘次(Akaike) 于1973提出的。AIC 准则是未知参数个数的加权和拟合精度结合的一种函数,可作为衡量信息流失的指标。该准则可基于一些已知模型对现实问题进行分析,在构建模型过程中可以用该准则来描述偏差-方差权衡问题,换句话即就是模型的精度和复杂度。AIC 准则表达式如下所示:

6038845aceebe_html_a3631d6d1b2af15f.png

当上述表达式值达到最小时,可认为此时的模型为最优模型。AIC 准则为模型选择提供了依据,若给定一组数据,通过上面的表达式可得到一系列AIC 值,选择使得 AIC 值最小的候选模型作为最优模型。虽然AIC 准则提供了模型选择的依据,但是它不会提供所选模型对这组数据的拟合程度到底如何,不论候选模型拟合的好与不好,从该准则得不到任何提示。我们能做的就是根据该准则选择使得 AIC 值达到最小时的调节参数作为最优调节参数。

3.3 贝叶斯信息准则(BIC准则)

Schwarts 为了弥补 AIC 准则的不足,根据贝叶斯理论提出了 BIC信息准则,该准则是在AIC准则的基础上将惩罚项加以改进的一种方法。通常情况下,BIC 准则中的惩罚项要大于 AIC 准则。它的具体表达式如下所示:

6038845aceebe_html_57d1d4e2ac488858.png

根据偏差-方差权衡, BIC(λ)的第一项测量的是偏差或者拟合优度,而第二项测量的是预测值的方差。我们抛弃全模型的最大似然估计,更多的变量将会从模型中剔除出去,拟合优度增加。然而方差惩罚会因为模型复杂度的降低而减少。BIC 准则对AIC 准则的改进是将惩罚部分由常数2变成了样本容量的对数 log(n)。在所有通过检验的候选模型中,我们需要选择的模型是具有最小BIC值对应的模型。同样选择使得BIC准则最小的调节参数作为最优调节参数,与AIC 准则相比较,在低维回归问题中,BIC准则具有渐近相容的特性,也就是说当样本量n 趋于无穷时,BIC 准则能以趋向于1的概率选择出正确模型。

3.4 ERIC信息准则

SCAD 惩罚函数的优良性质取决于调节参数λ的正确选择,因为不同的调节λ参数对应于不同的模型,那么究竟哪个调节参数对应的模型才是拟合最好的,这是一个值得思考的问题。选择一个恰当的评价模型优劣的准则能帮助我们确定一个合适的调节参数。前面提到的选择模型优劣的准则有CV 准则、AIC 准则和 BIC 准则等,这些准则能够选择出调节参数。但这些传统的选择准则也都各有缺陷,要么欠拟合,要么过拟合,因此本文基于比较新颖的

ERIC准则进行调节参数的选择文章将给出ERIC信息准则的计算公式,并且将其应用到SCAD

惩罚函数中来进行调节参数选择,ERIC 函数形式如下:

6038845aceebe_html_e4d1ae4fbc2886e2.png

该方法是在BIC准则的基础上做了相应的改进。将BIC的方差惩罚由|αλ| log(n) 降低|αλ| log(nΦ/λ),即ERIC准则选择的不趋于零的系数有更小方差。而更大的λ值能引发更大程度的系数收缩和更平滑(方差更小)的均值响应。需要特别强调的是,虽然方法 ERICυ(λ)是BICυ(λ)的基础上推广而来的,但是因为模型的复杂性,方法ERICυ(λ)与BICυ(λ)又有着根本上的区别。BICυ(λ)在每一个新的变量进入模型时而惩罚了一个常数值,与此相反,ERICυ(λ)有着动态方差惩罚,且这个动态方差惩罚取决于λ本身。至于大样本情况,ERICυ(λ)假定λ随着样本量n的增加而增大,因为基于偏差方差权衡的惩罚效果很重要。λ会随着样本量的增加以某种方式达到选择一致性。



  1. 结束语

广义线性模型在统计分析中是一个非常重要且应用比较广泛的模型。本文介绍SCAD 的惩罚来产生系数估计,再分别用CV准则、AIC 准则、BIC 准则和 ERIC 准则进行了论述,最终ERIC 准则的惩罚部分引入了调节参数,较大的调节参数值能引发更大程度的系数收缩和更平滑(方差更小)的均值响应。。

参考文献

  1. Fan J.Q. and Li R.. Variable selection via nonconcave penalized likelihood and its oracle properties [J]. Journal of the American Statistical Association. 2001, V96(456): 1348-1360.

  2. Akaike H.. Information theory and an extension of the maximum likelihood principle. In Proc. 2nd[M]. Informational Symposium on Information Theory. 1973, 267-281.

  3. 周荣旺.SCAD 方法的调整参数选择[D].大连理工大学. 2010.