3. 因此,需要从经济学的角度说明扰动项为何与右边变量不相关。除非你做好了前面两项,要不然你无释清楚这一关键假设。
5. 工具变量和控制变量之间的差异是什么?将y 对x 回归,何时z 应作为自变量加到右边,何时z 应作为x 的工具变量?
6. 对你所报告的每一个估计数字,要说明数据中哪些变量的差异导致了估计结果。例如,加入固定效应之后,相应的解释会截然不同。在回归方程中加入公司固定效应后,每个公司内部的时变因素会影响回归系数。若回归方程中没有加入公司固定效应,回归系数往往取决于在某一时刻上各个公司之间的差异。
7. 你确信你看到的是需求曲线,而不是供给曲线吗?要想这一问题,请自问“你在对谁的行为建模?”例如,你感兴趣的是利率如何影响住房需求,并用新增贷款量对利率作回归。但如果其他因素导致住房需求变得很大时,住房抵押贷款需求(以及与住房抵押贷款需求相关的其它贷款需求)也会抬高利率。你的暗含假设是需求曲线是不变的,价格的提高会降低需求量。但数据可能是因为供给曲线不变而产生的,从而增加的需求会抬高价格,或者需求与价格交互攀升。你是在对房屋购买者的行为建模,还是在对储蓄者的行为建模呢(储蓄会如何对利率变动做出反应)?
8. 你能肯定不会是y 导致了x?或者z 同时导致了y 和x?看看下面反向关系的例子吧。例如:前一个例子也是一种关系:究竟是利率变动导致了住房需求的变动,还是住房需求的变动导致了利率的变动呢(或者是整体宏观经济状况同时导致了利率和住房需求的变动)?
9. 仔细斟酌自变量中应包括哪些变量,不应包括哪些变量。大多数论文中引入的自变量过多。大可不必把决定y 的所有因素都作为自变量。
a. R2较高通常是坏事—这意味着回归方程是左脚的鞋子数量 = α + β×右脚的鞋子数量 + γ×价格 + 扰动项。右脚的鞋子数量不应该作为控制变量。
b. 不要做这样的回归:工资 = a + b×教育程度 + c ×行业 + 扰动项。固然,加入行业变量是会提高R2,并且行业变量也是影响工资的重要因素(如果你做好了前述的第2 项,它应该在扰动项里),但教育的主要目的是帮助人们进入更好的行业,而不是从助理汉堡师傅擢升为首席汉堡师傅。
只报告估计值和p 值是不够的,要说明数据中导致估计结果的事实或规律。Fama 和French1996 年的论文《多因子解释》(Multictor explanations)便是一个很好的例子。按照过去的文献惯例,只需要报告一个数字:GRS 检验。Fama 和French 展示了每个投资组合的期望收益和β值,并读者相信期望收益的规律与β 值的规律相吻合。虽然GRS 检验糟糕透顶,但该文提出了近15 年来最成功的因子模型!他们之所以成功了,是因为他们了数据背后的固有规律。