当前位置: 华文星空 > 知识

在统计学中为什么要对变量取对数?

2013-11-12知识

对数变化可以看做是Box-Cox变换的一种特例,转换目的是让数值更加接近标准的正态分布 。我们知道有很多统计检验的前提条件是数据近似符合正态分布,但是在绝大多数场景下我们接触到的数据都是呈现肥尾特征的。下图展示了包钢股份2015年至今的股价分布,我们可以看到取对数明显缓解了原数值右偏的情况。

Box-Cox变换相传是George Box和David Cox第一次见面时因为名字相近又同为英国人决定合作一篇文章,因此就诞生了这个经典的转换,可以看到对数变换是Box-Cox的一种特例:

那Box-Cox转换中的参数lambda该如何取值呢? 对于右偏(长尾在右侧)的数据lambda取小于0,左偏的数据lambda取大于0 ,背后的原因我们先通过下图来理解一下为什么对数函数能够缓解数据右偏的问题。对数函数的左侧更陡,因此原数据取对数之后左侧的间隔放大,右侧的间隔缩小,右边的长尾因此变得不那么明显了。

不同的lambda取值得到的函数图像如下图:

从图中可以看到lambda小于0时左侧更陡,所以适合解决右偏的问题,反之lambda大于0时右侧更陡,所以适合解决左偏的问题。并且lambda的绝对值越大,对原数值的调整更明显。