Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续的回响变数不满足常态分配的情况。Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变数的相关性。Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应採取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性,对许多实际数据都是行之有效的。
基本介绍
- 中文名box-cox变换
- 外文名Box-Cox transformation
- 性质变换
- 所属学科数学
- 属性一种广义幂变换方法
- 相关方法极大似然估计
简介
Box-Cox变换的一般形式为
式中为经Box-Cox变换后得到的新变数,为原始连续因变数,为变换参数。以上变换要求原始变数取值为正,若取值为负时,可先对所有原始数据同加一个常数使其为正值,然后再进行以上的变换。对不同的所作的变换不同。在时该变换为对数变换,时为倒数变换,而在时为平方根变换。Box-Cox变换中参数的估计有两种方法(1)最大似然估计;(2)Bayes方法。通过求解值,就可以确定具体採用哪种变换形式。
变换过程
Box-Cox变换是对回归因变数Y的如下变换
在这里是一个待定变换参数。对于不同的,所作的变换也不相同,所以Box-Cox变换是一族变换,它包括了平方根变换(),对数变换()和倒数变换()等常用变换,对因变数的n个观测值,套用上述变换,可得变换后的向量
我们要确定变换参数,使得满足
即要求通过因变数的变换,使得变换过的向量与回归自变数具有线性相依关係,误差也服从常态分配.误差各分量是等方差且相互独立,故Box-Cox变换是通过参数的适当选择。达到对原来数据的“综合治理”,使其满足一个正态线性回归模型的所有假设条件。
用极大似然方法来确定,由于,故对固定的,和的似然函式为
其中,为变换的Jacobi行列式
当固定时,是不依赖于参数和的常数因子,的其余部分关于和求导数,令其等于零,可求得和的极大似然估计
残差平方和为
对应的似然最大值为
该式为的一元函式,通过求它的最大值来确定,因为是x的单调函式,问题可转化为求的最大值,对式(3)求对数,略去与无关的常数项,得
其中,
式(4)对Box-Cox变换在计算机上实现带来很大的方便,因为我们只要求出残差平方和的最小值,就可以求出的最大值,虽然很难找出使达到最小值的的解析表达式,对一系列的给定值,通过最普通的求最小二乘估计的回归程式,很容易计算出对应的,画出关于的曲线,可在图上近似地找出达到最小值的。
Box-Cox变换变换的具体步骤如下
(1)对给定的值,计算,如果,用式(6)计算,否则用式(7);
(2)利用式(5)计算残差平方和;
(3)对一系列的值,重複上述步骤,得到相应的残差平方和的一串值,以为横轴,作出相应的曲线,用直观的方法,找出使达到最小值的点。
(4)利用式(2),求出。
意义
Box-Cox变换的一个显着优点是通过求变换参数来确定变换形式,而这个过程完全基于数据本身而无须任何先验信息,这无疑比凭经验或通过尝试而选用对数、平方根等变换方式要客观和精确。
Box-Cox变换的目的是为了让数据满足线性模型的基本假定,即线性、正态性及方差齐性,经Box-Cox变换后数据是否满足了以上假定,仍需要考察验证。