想要高端的,学stata,不会的找个会的教你,估计两小时就可以处理简单的时间序列或者面板了。
然后知网找个计量的文章,比如xx(解释变量)与经济增长,假如你学校北京的你就找个写上海的文章,看他用的啥数据,你也去找北京的相关数据,用个普通的ols或者面板数据跑一下,显著了就成了。
然后文献综述随便写写根据结果随便提一下政策建议,文章基本就结了。
查重肯定过,相比绝大部分本科生毕业论文来说,强百倍(这种套路仅适用于经济金融专业写本科毕业论文)
当然如果计量模型用的高端点又是别人没怎么研究的变量,核心也能发。
-------------------------------------------------------------------
今天闲来无事,更新下,首先讲讲怎样寻找可以参考的计量经济学的实证文章。
经管类的实证文献,一般题目都有固定套路,那就是解释变量在前,被解释变量在后,中间用「与」字或者顿号连接,后面跟个可爱的小尾巴说明下用的数据或者计量模型。举几个常见的经管类论文的题目:
第一类:X1与 Y
举例:
金融发展与经济增长——基于我国金融发展门槛变量的分析
人力资本与经济增长关系实证分析——以浙江省为例
第二类:X1、X2 与 Y
举例:
民间金融、产业发展与经济增长——基于中国省际面板数据的实证分析
东北三省能源消费、要素投入与经济增长关系研究——基于长面板和面板因果检验模型
金融发展、技术创新与经济增长的关系研究——基于中国的省市面板数据
金融发展与经济增长——基于我国金融发展门槛变量的分析
第三类:X 是否(促进了or阻碍了or提升了……) Y
举例:
金融创新是促进还是阻碍了经济增长——基于技术进步视角的面板分析
金融发展是否能够促进海外直接投资——基于面板分位数的经验分析
经济增长是否促进官员晋升?——基于广东省地级市数据的经验研究
从上面几个例子可以发现,经管类的实证论文有着很严谨的命名方式。
对于本科生来说,以经济增长作为被解释变量最简单,用GDP对数就好了,当然你想复杂点去算实际GDP会更好。也可以采用城乡收入差距,这个就是城镇居民可支配收入比上农村居民纯收入,统计年鉴都有的。
而解释变量考虑你的专业,如果是金融学,那金融发展最简单,一般都是用存贷款余额比GDP表示;如果是国际贸易,可以用进出口总额比GDP作解释变量;如果是管理学,可以考虑用人力资本变量来做解释变量,这个一般是用平均受教育年限,会复杂一点,但是人大经济论坛都有别人算好的可以下了用。
下面以金融发展与经济增长这个题目,在知网搜索
可以看到很多人都写过这个方面的核刊,如果你以此做题目,一来别人已经做过了,二来这个题目太大了。因此我们可以考虑在后面加个直辖市或者省份,比如上海。
然后我们以这篇研究上海的金融发展与经济增长的文献为例。
打开论文我们直接去看模型。
可以看到该文章选取了GDP增长率来衡量经济增长,你可以简单点用GDP对数来衡量,而金融发展采用了金融机构存款、贷款在GDP的占比,这些各省统计年鉴都有,搜下统计局的网站都查的到。
既然知道了模型的设立和数据的来源,那么你可以去套你学校所在的地区,比如我学校新疆的,那我写毕业论文就可以用新疆的GDP做经济增长变量,用新疆地区的存贷款余额来做金融发展变量,一个ols就结束了,至于这个ols怎么做,软件怎么用,本科的计量经济学的书都学过的,如果你不会,说明你一定没听课。
如果你觉着你想做更高端的,那就在搜文献的时候,在后面再加个计量方法的关键词,假设你想找研究金融发展与经济增长的面板数据模型的文献,可以这么搜。
如果你选择这个题目,显然还是需要面对题目太大的问题,那么简单的解决办法就是,分区域。比如你看到一个文章用的全国的面板数据,而你的学校在东北,那么你就可以用东三省数据来做面板模型。(对本科生来说,能用到最简单的面板固定效应模型,就足够让很多老师感动一会了)
顺带丢了Eviews吧,stata才简单粗暴(用R的请忽视这句话)
有空我会更新下如何用stata做基础的面板数据模型!
日常摸鱼的强师傅,终于想起来填这个大坑了!
许多有关计量的入门教程都上来先丢一堆理论,看的头晕脑胀,但实际应用却讲的十分含糊
这对于很多想快速水paper或者写毕业论文交差的同学十分不友好
而跟着本教程走,则可以通过实际的例子,快速的学习Stata软件的使用,这样在导入自己的数据后,可以快速搞出一篇论文的实证模型
经管类专业在本科都会学计量经济学,但是一般只会教到基本的多元OLS模型就戛然而止了
诚然,这对于本科生来说够用了,但是基本的多元OLS模型本身并不好处理。如果是横截面数据,那解决异方差问题还算简单,但是大部分容易获得的经济数据都是时间序列数据,而时间序列数据的多重共线性处理又十分棘手。本科的计量书里一般都会说,逐步回归剔除一下就好了,但是这样会使得你能用的变量数量大打折扣,有些奇葩导师总会要你必须加一些他们想要的变量,不能让你去掉。另一个可行的方法则是采用主成分分析降维分析,但是这种方法,又需要用一个复杂的公式换算,过程繁琐且麻烦,一些类似KMO检验的东西还可能根本过不去
因此,强师傅更推荐采用面板数据来处理本科以及硕士的毕业论文实证,因为其检验简单,而且更易操作,总之就是坑少好摸
对于很多上了计量课就浪起来的同学来说,可能还分不清计量里的三种数据结构
本科一般只教两种:
横截面数据:举例来说,就是中国2020年30个省份的GDP
时间序列数据:整个中国2010至2020年的GDP
而第三种数据结构便是面板数据,实际上就是横截面数据和时间序列数据的结合
值得注意的是,不同软件输入面板数据的格式不一样,我只推荐Stata来处理这些数据,因为真的对新手很友好
面板数据可以在excel整理好,直接粘贴到Stata
一个简单的面板数据例子如下:
以北京上海和广州3个城市2010至2016年的人口,地区生成总值和商品房均价为例,在excel里的整理如下:
可以看到,A列为我们的具体城市,实际上也就是截面或叫做个体,而B列年份则是时间,其余列为变量
你可以自己搭配不同的数据,整理成这样的格式即可
打开stata的窗口
其中下方命令窗口可以直接输入我们要做的指令,左边为历史窗口可以看到我们已经进行过的处理,而变量窗口则可以显示我们输入数据后产生的变量
在命令窗口输入edit则可以打开数据编辑窗口
将excel的数据连同表头直接粘贴到这个窗口,则会有如下提示:
选择变量名则可以直接将第一行作为变量名称
关闭该窗口回到stata主界面,则可以发现,有五个变量21个观测被导入了进去
由于城市变量是字符数据,因此在处理之前需要采用encode命令将其改为数值型数据
具体命令如下:
encode 城市,gen(city)
这个命令中 encode为命令的名字,其作用是将字符数据转换为数值型。而gen为生成的意思,实际上是生成一个新变量。如果你的城市是以数值如1,2,3,4来命名的,则可以省略这一步
紧接着,可以用xtset来声明面板模型的截面和时间
在stata里,x代表个体或截面(在计量中和paper里,个体一般用n或i来表示,面板的模型的公式角标一般是it或者nt),t代表时间,set便是设置的意思。在stata里,一般与面板相关的命令都会以xt开头
输入xtset city 年份
则会发现,stata提示我们的panel变量,也就是个体为city,而时间跨度为2010至2016,如果每个城市每个年份均有数据,则为strongly balanced,即平衡面板,如果缺失数据,则为非平衡面板
接着我们就可以着手跑第一个面板模型了,输入:
xtreg 商品房均价 年末总人口 地区生产总值,fe
则可以得到如下结果:
此时我们便得到了第一个面板个体固定效应模型的结果
其中xtreg表示我们运行的面板模型,在stata里,第一个出现的变量一定是y变量,也就是被解释变量,而后面的变量均为x变量,因此在这个模型里,商品房价格为Y变量,人口和地区生产总值为X变量
在stata里,逗号后面一般跟随的都是命令的选项,你可以通过不同的选项来调节模型。我们的命令里,fe代表fixed effects,即个体固定效应模型
在上述结果中,最为重要的是t检验的p值,即P>|t|这一列,可以发现,年末总人口的P值为0.103,这一般认为是不显著的结果。而地区生产总值为0.000,意味着其在1%水平上通过了显著性检验,可以认为地区生产总值直接与商品房房价有关。(一般P值小于0.1为10%显著,0.05为5%显著,小于0.01为1%显著,在论文里一般用星号代替,分别为*, ** , ***)
值得注意的是,面板模型不需要在意R2,因此R-sq的数值并不重要,这个后续的文章再讲原因。而_cons为常数项,不需要特别的解释
需要关注的是coef.这一列,对于P>|t|显著的,如变量「地区生产总值」可以这样解释:北京上海广州三个城市地区生产总值每上涨1万元,商品房房价上涨0.0001247元
但是这样解释看起来,很奇怪,因为一来系数非常的小,感觉很不直观,二来并不能反映出边际效应的变化
因此,需要将y和x两边取对数,一来缩小量纲,二来转换为边际效应,也可以称为弹性
stata里输入
gen ln商品房均价=log( 商品房均价 )gen ln年末总人口 =log( 年末总人口 )gen ln地区生产总值 =log( 地区生产总值 )
即可生成三个变量的对数形式:
计量模型一定要用自然对数,stata里,log和ln都会取以e为底的自然对数。而excel里取对数的公式,用ln是自然对数,用log是以10为底的对数,是不一样的(一个小坑)
再次运行面板模型的命令:
可以发现,系数coef.的数值一下子变得好解释了。当然也会发现,年末总人口的P值小于了0.05,通过了显著性检验。这是由于许多社会经济数据本身是右偏的,而取对数可以将其转换为正态分布,从而修正异方差性,这部分会后续再详细解释(挖坑*1)
而此时,模型则可以这样解释:
当北上广三个城市,人口上升1%,则会导致商品房均价下降5.97%,而地区生产总值上升1%,则商品房价格会上升1.43%
有些时候,结果不是我们想要的,可能是我们的数据结构和样本选取导致的。面板模型是一个大树,后面根据不同的数据结构会出现不同的分支。对于个体多于时间的数据,则为短面板,一般为大N小T,而个体少于时间的数据,则为长面板,一般被称为小N大T。我们这个模型只有3个城市,但时间跨度为7年,显然属于长面板范畴,则需要特殊的处理,这个后续再补(挖坑*2)
对于本科生来说,采用短面板是比较好的选择,对于硕士生来说,长面板可以进行许多高阶操作以满足实证的复杂度需要,如变系数模型或动态面板(挖坑*3)
模型需要做Hausman检验以在随机和固定效应两种不同的模型中进行选择,这会在下一期文章中讲解(挖坑*4)
而遗漏变量和内生性问题也可能会导致我们得不到想要的结果,这时候则需要一些高级的方法如工具变量法来处理(挖坑*5)
但是对于许多想要快速进行实证分析的本科生和硕士生来说,这篇文章算是一个好的入门了
等不了更新的同学也可以购买这本书
虽说这本书有些内容比如空间计量等章节都过时了,理论部分写的马马虎虎,但是Stata的基础操作还是写的很透彻的
我的个人公众号已上线,各位大佬可以随意添加,欢迎向我提问哦