点击封面即可购买
《拯救经济计量学:由概率论方法转向概率近似正确学习 》
ISBN 978-7-301-34977-9
秦朵 著
内容简介
经济计量学是建立在经典统计学框架内的学科,其数理分析的规范性、严谨性和可靠性毋庸置疑,但在模型的实践应用方面却一直成效欠佳。而近年来出现的人工智能、机器学习技术已被大量运用于经济计量研究,在实践应用方面的成效已明显超越经典统计学,并为系统解决经济计量学的问题提供了成熟的理论框架 。
本书以传统经济计量学的奠基之作——哈维尔莫的《经济计量学的概率论方法》的主要论点为出发点,对经济计量学的研究方法进行了批判性的分析,并通过案例展示了经济计量模型研究如何受益于机器学习。通过以上分析,本书揭示了经济计量学科在方法论上的缺陷,并指出机器学习是系统矫正该缺陷的途径。
本书适合从事经济计量学、应用经济学、经济思想史等领域研究的学者,以及硕士、博士研究生阅读。
作者简介
秦朵,伦敦大学亚非学院荣休教授。1981年毕业于北京第二外国语学院;1984年毕业于中国社会科学院;1986-1989年在英国牛津大学Nuffield学院攻读经济学博士;1992年进入伦敦玛丽女王大学经济系执教,2012年转到伦敦大学亚非学院。研究和教学领域为经济计量学史和方法论、应用经济计量学。
目 录
序言
第1章 现实经济的模型抽象
第2章 经济关系式的可学性
第3章 经济计量学中概率论的基本功能
第4章 假设检验的用处与经济假说的模型构述
第5章 估计方法的问题与潜能
第6 章 预测的认知问题
结束语
参考文献
主题词索引
序 言
本书质疑由哈维尔莫 (Haavelmo) 1944年专著《经济计量学的概率论方法》构建起来的经济计量学的方法论基础,呼吁并阐明了对该基础进行彻底革新并向机器学习方法论靠拢的必要性。经济计量学是以分析从开放世界被动观测到的数据为主的学科。机器学习的处境相当,不过其数据来源往往比经济计量学的数据来源要更加广泛且异质。虽然机器学习是比经济计量学更为年轻的学科,但当前它对于各个学科的渗透之快、之广是有目共睹的。对比两个学科不难发现,机器学习教科书中的数学内容要比经济计量学的数学内容浅显容易得多,但在实际应用功效方面却明显是后来居上,机器学习使得经济计量学的应用效果相形见绌。按照经济学的基本评判尺度,经济计量学一定存在效率低下问题。
近年来,经济计量应用研究中引入机器学习技术的案例与日俱增,英文文献中介绍和推荐机器学习的综述也层出不穷。遗憾的是,经济计量学界对机器学习的理论基础却存在一大盲点,即普遍把机器学习表述为数据分析的工具箱。“坐井观天”“管窥蠡测”“只见树木不见森林”这几个词恐怕是最能贴切形容这种情形的了。
在Breiman (2001) 对机器学习主旨的精辟综述中,他将机器学习与经典统计学方法论上的分歧概述为“两种文化”的分歧。经济计量学是坚实奠定在经典统计学框架中的学科。哈维尔莫专著对概率方法论的雄辩以及后来的美国考尔斯经济研究会(The Cowles Commission)专著系列第10部对经济计量学的严格正规表述(Koopmans ,1950)是公认的经济计量学科的奠基史源。这两部里程碑式的专著为日后经济计量学者大量拓展统计数学工具开辟了一片新天地。然而,自学科正式形成以来,经济计量学理论在应用建模方面却不断遇到各种难题。为了克服这些难题,名目繁多的计量学估计和检验工具不断因应而生。不过,尽管这些工具在数学方面的复杂性和精妙性大大提高,它们在实践中的成效却一直不尽如人意。这种科研效率欠佳的情形意味着,经济计量学在方法论上存在基础缺陷。其实,Judge et al.(1980)在其结论中早就把这些缺陷归咎于计量学过窄的关注点,即对“已知的抽样模型”的统计推断问题的集中关注。他们还指出:“针对有误模型做统计推断的理论框架尚待开发出来。我们若要为学习被动观测的经济数据的有限样本开发出更为有效的分析手段,就必须在将来的研究中正视并且解决这一问题。” (第778页)如今,机器学习已为系统解决这一问题提供了成熟的理论框架。
无须赘言,当今机器学习的成功离不开一个坚实的基础理论后盾。机器学习算法工具箱的后盾是严谨的、以概率近似正确(probably approximately correct,PAC)学习概念为核心的可学性(learnability)理论。PAC学习为如何设计算法系统以学习到尽可能最优的经验模型奠定了基础,并为学习过程制定了以无分布假定为主的方略。机器学习还与人工智能的发展相互促进,相得益彰。人工智能的突出成就,是建立了对人脑知识在充满不确定性的现实中的逻辑推理和决策过程的规范化表述体系,这为机器学习提供了清晰的模型表述基础。
PAC学习的视角和分析思路启发了我——经济计量学科效率欠佳的根源其实在于它早已过时的概率论基础。要拯救经济计量学,就需要对其方法论基础做一个全面彻底的反思和检修。这项研究工作必然会涉及经济学说史和科学方法论方面的诸多问题。不过,本书的主要目标读者还是使用经济计量学的经济学家。毕竟有培根的名言——“历史使人明智”。只有彻底摆脱经济计量学教科书框架的束缚,接受PAC学习理念,经济学家才可能充分发挥出他们综合利用理论与经验知识、有效分析现实经济问题的潜能。Sloman and Fernbach (2017,第 255页) 写道:“当学者面临一个与其先前预想截然不同的观点时,他们的反应过程往往呈三步:首先是不予考虑,然后是抵制拒绝,最后称该观点不过是显而易见的。” 但愿我此次的探索之旅能够使经济计量学界尽快踏入第三步,顿悟出大道至简的真谛。
为了从根基上阐明现行经济计量学研究模式的方法论问题,本书的结构效仿哈维尔莫原著的结构。在全书的六章中,每章都以哈维尔莫相应章中的主要论点为出发点,根据经济计量学的研究现状来分析其功过。分析的关注点是针对时序数据的宏观应用模型研究与针对横截面数据的微观应用模型研究中暴露出的共性问题。分析的焦点是这些问题的方法论根源:经典统计学的分析视角是不足以协助经济计量学实现连接经济理论与数据信息的建模目标的。同时,不少章节还列举了经济计量模型研究如何得益于机器学习的案例。简言之,本书揭示了经济计量学科现存的基础缺陷,并指出机器学习是目前系统矫正缺陷的唯一途径。
本书的主要论点大致如下:
● 模型构述的不确定性是经济计量研究最需要面对和处理的不确定因素。哈维尔莫倡导的概率论思路,即以将模型所涉变量设为一个联合概率分布空间的数学表达为出发点的思路,并不能有效地处理该因素。
● 哈维尔莫倡导的经济学内的分工是:经济学家担负先验演绎建模的任务,经济计量学家担负模型估计和检验的任务。实践证明,这一分工过于简单极端。实践中可用的计量模型只能通过先验逻辑演绎和后验归纳推理的交替使用过程学习而来。机器学习中的PAC学习理论为这种学习铺垫了一条系统路径。
● 根据机器学习的方法论,上述学习过程无须对所涉变量的统计分布做假定,概率的主要作用是协助建模学习所涉及的各种决策步骤。另外,人工智能中的逻辑命题表述法为模型构述基于常识性的经济学法则展示了一条更为准确、更易于连接数据信息的新路径。
● 一般来说,经验证实经济理论的研究任务明显超出了经典统计学假设检验的狭窄框架。这类任务的模型构述需要经过细致的模型设计和数据归纳学习过程才可能实现。
● 鉴于此,针对经验证实经济理论的任务,将注意力集中在对先验模型中给定的参数做统计最优估计之上,是经济计量学研究的严重策略性失误。内生有偏性陷阱便是这一失误最经典的缩影。
● 一旦学界公开认同了建模的不确定性,模型的预测亦即泛化性能(generalisability)便成为经济计量模型学习过程中一个必不可少的主要标准。衍生于经典统计学的经济计量学在现行框架内没有测试模型泛化性的系统方略,实为学科处于亟须拯救之窘境的主要原因。
在我的专业生涯中,本书是最艰巨的一项研究课题了。为了更好地完成任务和尽量明确分析思路,我采用了交替使用中文和英文的写作方式,写作过程长达三年半之久。但本项研究的酝酿期更长,可追溯到2012年我在伦敦大学亚非学院首次执教研究生的微观经济计量学课程之时。此前,我的教学与应用性研究课题都限于分析时序样本的宏观计量学的范围之内。在微观经济计量学课程的讲授摸索阶段,为了更明确清晰地向学生解释教科书中为何通用工具变量手段来处理遗漏变量有偏性及选择有偏性等问题,我的研究便转向专门考察工具变量估计的方法论形成史的课题。继而,我又对工具变量方法背后的内生有偏性这一经济计量学基础概念的实质做了追述式考察。与此同时,为了寻找既简洁易懂又可提高微观数据信息利用率的应用建模手段,我接触到机器学习的方法,这又促使我走上自修机器学习课程之旅。
在本书的写作过程中,我受益于不少友人的热情支持、鼎力帮助和宝贵建议。这里我要衷心致谢的有:焦兮彧、刘学林、卢珊、王庆超、宋丽娜、徐强、张维迎、邹丽峰、Ruben Lee、Sophie van Huellen和Chris Watkins,以及已故的Olav Bjerkholt。不过,我最为感激的是我妈妈朱哈娜。四年多前她虽已年迈多病,但当听到我想写书又心存顾虑时,马上热情鼓励并全心支持。她的赞许和兴奋之情我至今记忆犹新。如今在她辞世两年多后,书稿终于完成了。我这才恍悟,原来我对机器学习原理的好奇和对写书的执迷,是传承了她的敬业精神。在微机时代到来前的20世纪80年代初,她在山东一所普通中学的教书生涯接近尾端时,曾自发地去学习计算机编程语言,并且兴致勃勃地给中学生们开设了计算机编程选修课,还为他们编写了一本BASIC习题集。
鉴于本书议题的性质,我的写作难免会存在不足。文责自负,我仅希望本书可以起到抛砖引玉的作用。
秦朵
2023年于英国伦敦
点击封面即可购买