变异係数(Coefficient of Variation)当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标準差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异係数可以做到这一点,它是原始数据标準差与原始数据平均数的比。CV没有量纲,这样就可以进行客观比较了。事实上,可以认为变异係数和极差、标準差和方差一样,都是反映数据离散程度的绝对值。其数据大小不仅受变数值离散程度的影响,而且还受变数值平均水平大小的影响。
基本介绍
- 中文名变异係数/变差係数
- 外文名Coefficient of Variation
- 套用领域数学
- 类别计数方法
- 又名离散係数
- 定义机率分布离散程度的归一化量度
定义
在机率论和统计学中,变异係数,又称“离散係数”(英文coefficient of variation),是机率分布离散程度的一个归一化量度,其定义为标準差与平均值之比
变异係数(coefficient of variation)只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。变异係数也被称为标準离差率或单位风险。
变异係数只对由比率标量计算出来的数值有意义。举例来说,对于一个气温的分布,使用开尔文或摄氏度来计算的话并不会改变标準差的值,温度的平均值会改变,使用不同的温标的话得出的变异係数是不同的。也就是说,使用区间标量得到的变异係数是没有意义的。
基本含义
,变数值平均水平高,其离散程度的测度值越大,反之越小。
变异係数是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标準差来比较。如果单位和(或)平均数不,比较其变异程度就不能採用标準差,而需採用标準差与平均数的比值(相对值)来比较。标準差与平均数的比值称为变异係数,记为C·V。变异係数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
变异係数的计算公式为变异係数 C·V =( 标準偏差 SD / 平均值Mean )× 100%
在进行数据统计分析时,如果变异係数大于15%,则要考虑该数据可能不正常,应该剔除。
举例
已知某良种猪场长白成年母猪平均体重为190kg,标準差为10.5kg,而大约克成年母猪平均体重为196kg,标準差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。
此例观测值虽然都是体重,单位相同,但它们的平均数不相同,只能用变异係数来比较其变异程度的大小。
由于,长白成年母猪体重的变异係数C.V = 10.5 / 190 100% = 5.53%
大约克成年母猪体重的变异係数C.V = 8.5 / 196 100% = 4.34%
所以,长白成年母猪体重的变异程度大于大约克成年母猪。
注意,变异係数的大小,受平均数和标準差两个统计量的影响,因而在利用变异係数表示资料的变异程度时,最好将平均数和标準差也列出。
公式
(标準偏差SD、平均值MN)
优缺点
优点
比起标準差来,变异係数的好处是不需要参照数据的平均值。变异係数是一个无量纲量,在比较两组量纲不同或均值不同的数据时,应该用变异係数而不是标準差来作为比较的参考。
缺陷
- 当平均值接近于0的时候,微小的扰动也会对变异係数产生巨大影响,造成精确度不足。
- 变异係数无法发展出类似于均值的置信区间的工具。
套用
变异係数在机率论的许多分支中都有套用,比如说在更新理论、排队理论和可靠性理论中。在这些理论中,指数分布通常比常态分配更为常见。
由于指数分布的标準差等于其平均值,所以它的变异係数等于一。变异係数小于一的分布,比如爱尔朗分布称为低差别的,而变异係数大于一的分布,如超指数分布则被称为高差别的。