当前位置: 华文星空 > 知识

计量经济学中为什么要对变量取对数,差分以及对数差分?

2015-06-28知识

Why 取对数?

(1) 缩小数据之间的绝对差异;避免个别极端值的影响

(2) 尽可能满足经典线性模型假定( classic Linear Model)

  • 避免共线性
  • 避免异方差,满足同方差基本假定
  • 尽可能符合正态分布
  • (3) 经济学意义

  • 用线性模型估计非线性关系 比如,考虑教育回报方程,相比于「每多接受一年教育,增加的工资相同」,「每多接受一年教育,工资增长的百分数相同」更合理。具体而言,相比于「每多接受一年教育,小时工资都增加 54 美分」,「每多接受一年教育,工资都增长 8%」更合理。因为后者更能刻画工资增长量随受教育程度的增加而增加的规律,即教育回报递增,受教育程度对工资水平的偏效应随着受教育程度的增加而增加(见 Wooldridge 的 Introductory Econometrics,2009,4e,pp.43)。
  • 直接估计弹性/半弹性 弹性是经济学中一个重要指标,衡量了一个变量的百分比变动会导致另一个变量百分比变动的程度。半弹性,即因变量取对数,自变量不取,表示自变量变动一个单位引起因变量多少的百分比变化。 比如产出对资本和工人劳动时间回归,变量都取对数。
  • \begin{gathered} \ln (\text { 产量 } Y)=\alpha_{0}+\alpha_{1} \ln (\text { 资本 } K)+\alpha_{2} \ln (\text { 劳动时间 } L) \\ \frac{\partial \ln (Y)}{\partial \ln (K)}=\frac{\frac{\partial Y}{Y}}{\frac{\partial K}{K}}=\frac{K}{Y} \frac{\partial Y}{\partial K}=\epsilon_{Y K} \end{gathered} \\

    因此 \alpha_{1} 就表示资本变化 1 \% , 产量变动百分之 100 * \epsilon_{Y K} \% , 则 \alpha_{1} 表示弹性。

  • 取对数背后的经济理论模型 " 上述这个例子中,如果背后假设的是 CD 生产函数。
    Y=e^{\alpha_{0}} K^{\alpha_{1}} L^{\alpha_{2}} \\ 其中, e^{\alpha_{0}} 是全要素生产率,在 \alpha_{0} 上加一个扰动,再两端取对数即回归模型, 由此, 回归方程式里的参数都能对应到模型中的参数,此时, 回归从一个 reduced-form 变为了 structural-form 。
  • 经济理论模型中,某些变量本身就以对数形式存在,则应取对数 比如,劳动经济学中研究教育投资回报率的决定因素,通常以工资对数为被解释变量,这是从 Mincer 模型推导出来的。
  • 为更便于研究,可能会取对数。
  • How 取对数?

  • 当数据均为正数时,可直接取对数;当数据为非负数据,且有较多 0 时,可 ln(x+1),尽可能保留更多的样本;当数据存在负数时,可能需要再看一下数据本身是否存在问题,此时没法直接取对数。
  • Stata 中,log(·)和 ln(·)都以自然对数为底。如果要换底,比如 log10(·)表示以 10 为底。
  • 如何解释估计系数?

    取对数意味着什么?

    将 \log (y) 在 y_{0} 处 Taylor 展开,

    \begin{gathered} \log (y)=\log \left(y_{0}\right)+\frac{1}{y_{0}}\left(y-y_{0}\right) \\ \Rightarrow \Delta \log (y)=\frac{\left(y-y_{0}\right)}{y_{0}} \\ \Rightarrow 100 * \Delta \log (y) \approx \% \Delta y \end{gathered} \\

    可发现,取对数后的变量的变动(变量对数的变动*100)近似等于变量的百分比变动 (增长率)。

    对数-水平模型:Y 取对数 \beta_{1} 的解释,考虑度量单位变换

    (1) 简单估计

    考虑工资方程

    \log (w a g e)=\beta_{0}+\beta_{1} e d u c+u \\

    估计系数 \beta_{1} 的解释可从下式中获知:

    \begin{gathered} \Delta \log (w a g e)=\beta_{1} \Delta e d u c \\ \% \Delta w a g e \approx\left(100 \cdot \beta_{1}\right) \Delta e d u c \end{gathered} \\

    即每多接受一年教育,工资将增加 100 * \beta_{1} \% 。 NB 变量对数的变动* 100 近似变量的百分比变动, 上式等式左侧 * 100, 根据度量单位变 换相关知识, 解释估计系数 \beta_{1} 时也要 * 100 。

    (2) 精确估计

    如果要精确估计 x 变动一单位, y 变动多少,则考虑

    \begin{gathered} \log \left(y_{1}\right)-\log \left(y_{0}\right)=\beta_{1} \Delta x \\ \log \left(\frac{y_{1}}{y_{0}}\right)=\beta_{1} \Delta x \\ \frac{y_{1}-y_{0}}{y_{0}}=\exp \left(\beta_{1}\right)-1 \\ \% \Delta y=100 *\left[\exp \left(\beta_{1}\right)-1\right] \end{gathered} \\

    (3) 举例

    \log \widehat{(\text { wage })}=0.584+0.083 $educ$ \\

    其中,0.083 意味着每多受一年教育将带来小时工资增长 8.3% ; 而精确估计下,多受一年 教育将带来小时工资增长 8.65% 。

    当 X 为哑变量时 现在,我们研究这样一个问题 : 年轻的时候上私立学校到底会不会对之后的劳动回报产生影响?

    最简单的思路是观察这样一个回归模型:

    \ln Y_{i}=\alpha+\beta P_{i}+e_{i} \\

    其中 Y_{i} 表示 i 参加工作之后的工资水平, P_{i} 等于 1 意味着年轻的时候渎私立学校, 0 意味着读公立学校, e_{i} 则代表了影响 工资的经济学家观测不到的其它因素, 如个人能力。

    上述模型,在「其它变量保持不变的情况下",一个年轻时候读私立学校的员工工作之后的收入是:

    \ln Y_{i, P_{i}=1}=\alpha+\beta+e_{i} \\

    而一个年轻时候读公立学校的员工参加工作之后的收入是:

    \ln Y_{i, P_{i}=0}=\alpha+e_{i} \\

    模型对于系数 \beta 的解释是读公立学校和读私立学校给员工 i 的收入带来的潜在影响差:

    \ln Y_{i, P_{i}=1}-\ln Y_{i, P_{i}=0}=\beta \\

    这意味着系数 \beta 具备的意义是:

    \beta=\ln \frac{Y_{i, P_{i}=1}}{Y_{i, P_{i}=0}}=\ln \left(1+\frac{Y_{i, P_{i}=1}-Y_{i, P_{i}=0}}{Y_{i, P_{i}=0}}\right)=\ln \left(1+\Delta \% Y_{p}\right) \approx \Delta \% Y_{p} \\

    也就是说 : 当找们把输出变量取对数时,所得到的模型估计的结果近似告诉我们相比读公立学校,私立学校对未来收入造成的百分比影响。

    水平-对数模型:X 取对数 一个 X 取对数, Y 为百分数的例子 研究学校规模对学生成绩的影响, 估计出如下模型 (见 Wooldridge 的 Introductory Econometrics, 2009, 4e, pp.126-128) 。

    \widehat{m a t h 1} 0=-207.66+21.16 \log (\text { totcomp })+3.98 \log (s t a f f)-1.29 \log (\text { enroll }) \\

    其中, m a t h 10 表示标准化十分制数学测验通过百分比, t o t \operatorname{com} p 年均教师薪资; s t a f f 平均每干名学生拥有的教职工 人数; e n r o l l 表示学校注册人数,用以衡量学校规模。 如何解释- 1.29 这一估计系数呢? \mathrm{NB} \times 取对数后,要解释为 x 的百分比变动,则意味着解释变量的度量单位乘以 100 , 则估计系数的解释要除以 100。

    \Delta \widehat{\text { math } 10} \approx-(1.29 / 100)(\% \Delta \text { enroll }) \approx-0.013(\% \Delta \text { enroll }) \\

    可以解释为, 学校注册人数每增加 10 \% , 预计数学测验通过率将下降 0.13 个百分点(注意, matp0 为百分比,取值 35.3 则表示 35.3 \% 的学生通过测验) 。

    详细内容参见连享会推文

  • 专题: 数据处理
  • 取对数!取对数?
  • 相关推文

    Note:产生如下推文列表的 Stata 命令为:
    . lianxh 系数
    . songbl 系数
    安装最新版 lianxh / songbl 命令:
    . ssc install lianxh, replace
    . ssc install songbl, replace
  • 专题: Stata 教程
  • Stata:各类集中度指数估算-广义基尼 Gini 系数

  • 专题: Stata 绘图
  • forest-森林图:分组回归系数可视化
  • Stata 绘图:回归系数可视化-论文更出彩
  • Stata 绘图:随机推断中的系数可视化
  • 专题: 结果输出
  • Stata 结果输出:pwcorr_a 输出相关系数矩阵
  • pwcorr_a:输出相关系数矩阵至 Word 和 Excel
  • Stata:回归结果中不报告行业虚拟变量的系数

  • 专题: 回归分析
  • 0.0005:估计系数太小怎么办?
  • Stata:系数为何不显著?GIF-演示-OLS-的性质.md
  • 正确姿势:回归系数的解释与评估
  • Stata: 实时估计个股贝塔(beta)系数
  • 多元回归系数:我们都解释错了?
  • 图示线性回归系数:Frisch-Waugh 定理与部分回归图
  • Stata: 如何检验分组回归后的组间系数差异?
  • 如何比较解释变量的系数相对大小?
  • Stata: 获取分组回归系数的三种方式
  • 专题: 面板数据
  • 异质性分析:系数平滑可变模型
  • 面板变系数模型:每家公司都有一个斜率

  • 专题: IV-GMM
  • IV-工具变量法:第一阶段系数符号确定时的小样本无偏估计
  • 专题: 时间序列
  • DCC-MGARCH:动态条件相关系数模型 (R+Stata)
  • CCC-MGARCH:常值条件相关系数模型 (R+Stata)

  • 专题: 风险管理
  • Stata:普通年金现值系数表