经济史NO.6| 历史视野下中国经济的长期变迁

由马光（搬运工）
17 4 月, 202020 4 月, 2020

历史视野下中国经济的长期变迁——近年中国经济史之计量研究综述

彭凯翔

内容提要：本文分四个方面综述了近年中国经济史之计量研究：第一，历史时期中国经济发展水平尤其是GDP的估计；第二，对发展模式的争论和相关检验；第三，关于市场制度及其效率的讨论与量化研究；第四，对国家能力、社会控制与外生冲击等问题的反思及其因果性检验。——这些研究深化了对“马尔萨斯陷阱”、“斯密增长”等经典命题的认识，也有助于进一步探索国家、市场、家族、文化等因素之间的复杂关系。

关键词：计量史学历史 GDP马尔萨斯陷阱斯密增长国家能力

一．引言

在卢卡斯（2003，第108一110页、第113页）看来，伴随着人均产出提高的现代经济增长是在 19世纪初以后才开始的。在此之前，世界各地区、各时期都处于类似的贫困之中；在此之后，这一现代经济增长模式的扩散决定了世界经济增长的基本格局。这种“马尔萨斯陷阱”式的描述现在看来过于简化——尤其是对19世纪以前的概括，但无论如何，人类经济发展史上最重要的而且尚未完全弄清的变化发生在两个世纪或更久以前，则很大程度上体现了经济学者和历史学者的共识。理解历史时期的这一转变，因此成为跨学科的智力挑战。而若把中国视为一个经济体的话，它不仅有史以来一直是世界主要经济体之一，且其基本制度的延续性（或许还有封闭性）至少在前现代是其他经济体难以匹敌的。这些使它成为研究现代转型之前经济形态之长期均衡的重要样本。不仅如此，它在历史上似乎有多次接近经济转型的契机，但又迄今未能完成转型，长时段下的研究因而兼具学术与现实意义。

同时，这一研究也面临着两方面的挑战。其一是资料或数据上的。现代意义上的社会经济统计是在19世纪与现代经济的发展齐头并进的，此前的传统治理者既难以发觉国民财富的趋势性变化，也不将其视为当然的调控对象，只是因赋税、社会控制等具体的需要而做局部的资料搜集工作。不过，中国自秦就形成了大一统的文官治理体系，不仅行政制度、政策法令等方面的变化历历可考，与行政、财政管理相关的由地方到国家的档案也颇丰富，其系统性在前现代各社会中是弥足珍贵的。不仅如此，与文官体系相应的是“士”成为一个重要的社会阶层，这一颇具规模且与其他阶层相交融的群体以各种体裁从不同角度记录了他们的时代与生活。种种蔚为大观的公私文献使传统中国无愧于文明之邦，也为今天的研究者提供了宝贵的遗产。或许，与另一量级相当的经济体——欧洲相比，中国的史料缺陷更主要地是来自现代化过程中的断裂及与此相应的历次运动，这使得簿籍、契据等、民间文书大量损毁。颇值庆幸的是，仍有一些地区的文书得到保存并在近数十年里不断涌现出来，将这些一手凭证和“官样文章”相对比，既能使我们更加贴近历史实态，也有助于我们更好地理解和利用官方档案。此外，在传统经济仍占主导的19世纪末20世纪初，现代统计观念却已舶来。虽然官方统计因时局不靖而难免力不从心，各种国人、外人的调查却层出不穷，在转逝之际为传统经济留下了一抹独特的剪影，可谓不幸之万幸。

其次，与资料相比，理论和方法上的挑战可以说更加棘手。事实上，当汤象龙等先贤在上世纪 30年代开始对清代经济史的定量研究时，立刻就发现了故宫档案的价值，抄录、整理出税收、粮价等三十类档案达数万件，还将地方档册、民间账簿等纳人了整理计划〈汤象龙，1987）。然而，这一整理和研究计划迄今尚未完成，其中的曲折又不能不归诸理论和方法。有别于传统史学，经济史关心的对象是变量，变量的特征及其关系之研究难以诉诸个别的考据，势需依赖社会科学的理论与计量研究的方法。然而，受某些阶段论的主导，中国经济史的研究长期纠缠于土地分配、雇佣规模、商品率等少数变量，试图以此界定社会经济发展的阶段，而每个阶段内的运行机制则直接套用理论。这既束缚了学者对变量间复杂的因果关系的探讨，也使得在资料建设上偏重单个变量的统计描述，而不注重基于样本观测值的数据库建设。改变这一情形的，首先是在上世纪80年代以后各种史学、社会学和经济学的理论涌人以及计算机运用的推广。市场整合、人口行为等易于量化的问题都受到关注,Rawski & Li（1992）就是集其成者。但是，由于缺乏分析更复杂因果关系的有效方法，简单的量化描述无助于理解的深化，其研究兴趣因而难以持久，这轮历史学界内的计量史风潮很快被引人社会学、人类学方法的研究盖过。这未尝不与国际经济史学界的潮流相暗合。计量经济史于半个世纪前发轫于美国学界，极大刺激了新经济史的发展，但其局限于新古典理论的视角，易于忽视制度、政府、观念等等在历史进程中无法排除的因素，于是受到历史学家甚至不少经济学家的抵触。不过，自上世纪90年代起，制度经济学、发展经济学与政治经济学等领域的进展为理解历史变迁提供了更多理论工具，而计量经济学方法的创新，又使得这些领域的许多重要命题能在经济史中得到因果性检验。经济史因此又成为一个活跃的、跨学科的领域。流风所及，中国经济史也受到经济学者的更多关注，计量史的低迷得以改变。

不仅如此，当代中国经济的持续增长使其有恢复历史地位的趋势，这为国际经济学界所瞩目，也引起了国内学者的反思。经济学者因此更加积极地介入经济史研究，改变了历史学者孤军奋战的局面。这种结合使近年来的中国经济史研究在应对前述两方面挑战上都取得了可观的成就，对不少重要的议题都进行了探讨。下文分四方面进行综述：第二节介绍对历史时期中国经济发展水平尤其是GDP的估计；其次，对发展水平的评价引起了发展模式之争，第三节对此进行澄清，并介绍一些相关的检验；再次，关于发展模式的讨论将传统经济的主要驱动力指向市场，那么其效率如何，第四节将评论这方面的定量研究；末次，近来的研究还涉及市场经济与国家能力、国家形态与外生冲击等因素之间的复杂关系，这在第五节介绍。最后是笔者的一点展望及建议。

二、经济发展的水平

对于现代经济学界而言，之所以能重燃对世界经济长期变迁的兴趣，很大程度上要归功于麦迪森对两千年来各国GDP的鸟瞰式估算。根据他的估算，中国在一百多年前一直是世界最大的经济体，最近的发展只是这一地位的恢复（Maddison，2007，p.4）。很自然地，他的研究自20年前引入国内后，就备受关注，而他对中国GDP的粗估也激发了经济学者与历史学者的一系列改进工作。麦迪森对20世纪前期GDP的估算至少有巫宝三、刘大钧、叶孔嘉等人核估过的20世纪30年代为基准，并有一定的统计数据为外推提供依据，但对19世纪以前GDP的估算则非常依赖于两个假设：一是Perkins在研究1368—1968年间农业生产时所假设的人均产出不变，二是Rozman关于城市人口比例唐至清初不变的假设（Maddison，2007，p· 31）。不满足于此，国内学者对各个时期的产出做了更多梳理，试图直接估计出总产值，再推算人均产值的变化情形。其中，管汉晖、李稻葵（2010）估计了明代GDP,并在Broadberry et al.（2014）中扩展到宋至清（980一1850年）GDP的估计；刘逖（2009）也对1600一1840年的GDP做了估算；李伯重（2010；Li & vanZanden，2012）对19世纪20年代华亭一娄县地区GDP的核算则全面展示了江南这一当时最富庶地区的经济形态。为了比较的方便，在图1中绘示了几种主要的估计结果。

由图1可见，各家的估计悬殊颇大。如果麦迪森1930年代的估计因有早期核算为依据，应在可接受范围的话，刘逖（2009）的估计则显得太低，需要假设19世纪末20世纪初有非常可观的增长才能与上世纪30年代的估计衔接。事实上，如果按原始单位“银两”计的话，刘逖估计的人均名义 GDP在1600年为4.5两，1840年为10．8两，与管汉晖、李稻葵（2010）、Broadberry et al.（2014）的估计相去不远，1600年的估值换算成1990美元甚至比管汉晖、李稻葵（2010）还要高。所以，差别的一个重要来源是货币单位换算。在方法上，他们都是利用购买力平价法：先计算1840年中国之银两与同期英国之英镑的购买力比，再由后者得到1840年银两对1990年美元的换算率，最后运用国内物价指数，将该换算率推及历年的银两。然而,Broadberry et al.（2014）虽前承管汉晖、李稻葵（2010），但根据中英两国商品篮子内的物价和度量衡重算了购买力平价，对19世纪40年代银两与英镑的平价估计都较此前为高，应更可靠。Li & van Zanden（2012）的样本是华亭和娄县，地处江南，不仅比全国的平均水平高，也与同期西欧的水平接近，但低于荷兰。该文还提出，若据Ma （2008）对20世纪初的研究，假设江南比全国平均水平高四五成的话，1820年代全国的平均GDP为 1990美元。这比麦迪森及Broadberry et al.（2014）的估计略高，但所差不多，可认为在误差范围内。

看来麦迪森对19世纪之后的估计尚可站得住脚，惟对此前的情形，麦迪森所依赖、Perkins所提出的假设受到了严重挑战。无论是刘逖（2009），还是Broadberry et al.〈2014），人均GDP都呈现出下降趋势。其中关键在于农业产出：人口不断增加，人均耕地趋于减少，而亩产量提高又很有限，最终人均产出势必下降。所以，观察各家估计的历期GDP序列，其变化最主要的即是受人口及人均耕地的驱动。这和赵冈（2001）的观点一致，而与Perkins关于农业生产的增长长期内应与人口增长一致的假设相悖。那么，目前的数据是否就可以推翻后者了呢？或许未必。Perkins(珀金斯， 1984）当年作此假设并非是不了解这些数据，而是鉴于耕地数据不可靠，亩产量的提高却有据可循。无论是要推翻还是改进其假设，均宜以更严密的耕地与亩产量数据为依据。何炳棣（1988）认为，历史上的耕地面积存在严重低估。有鉴于此，史志宏（2011）以1952年国家统计局公布的耕地面积对清代和近代数据做了调整，估计道光末的耕地达12亿多亩，比官载数据高出过半，比晚明增长80％多。即便如此，由于1952年的数据本身仍是低估的，该文称这只是保守估计。所以，人均耕地在清代以后的下降趋势究竟有多强，还值得进一步研究。

如果说耕地数据的问题已摆在了明处，亩产量的问题则不太明确。Perkins（珀金斯，1984，第 20页）曾根据地方志中的近九百份资料讨论不同时期各省亩产量的可能区间，但并未由此给出简单明了的平均亩产量。郭松义（1994，1995）亦作了类似的梳理，其所估南北各省的平均亩产量，与 Perkins给出的区间基本一致。惟郭文不分别时期，扯算清乾隆至光绪间的亩产，Perkins发现的亩产量上升自然也就消失了。相反，史志宏（2012）对近3000件亩产数据的分析表明，万历直至道光末年，亩产量是逐期上升的一尽管尚不足完全抵消人均耕地下降的影响。不过，也有表明清代尤其是清后期亩产量呈下降趋势的证据。如赵冈等（1995）基于租簿等的研究所表明之实收地租在清中期以后的下降，其解释便是地力衰竭，导致亩产下降，而租率通是50％(Perkins在估计亩产时也用到这点），实收地租就随之下降了。但亦如高王凌（2000）所批评的，经过太平天国运动的打击，主佃势力对比变化，实收地租下降即可能是这一点的反映，而非产量下降所致。与此同时，张丕远（1996，第419一421页）表明，清中后期地方官报告的收成分数也是下降的。则纵或亩产下降，亦可能是气候的阶段性变化所致。无论事实如何，在这些证据面前，李伯重（1994）所提出的综合 “天”、“地”、“人”因素的变化来分析亩产量都显得是必要的，而不是预先假设亩产量不变。如果能将史志宏（2012）所提到的可观的亩产数据库和其他变量放在一起分析，并结合民国对农家生产的微观调查，或许能更好地确定要素禀赋、气候、相对价格、作物和技术选择等因素对亩产量的影响，从而外推出各时期、各地区相对系统的亩产量。

与农业产出相比，其他部门的估计又是更加冒险和难以评估的。手工业、服务业等的产值，或者是按税额倒推，或者是据农业、人口等数据按比例推算，难以直接估算。尽管如此，还是存在一些可能的改进余地。例如，林刚（2010）对四36年棉纺、缫丝与面粉工业产量作出重新评估，修订了前人的结果，有助于我们更好地确定这一基准期的经济结构。又如，林荣琴（2010）由地方志统计了清代湖南各个时期的矿厂数，揭示出矿业17个阶段的波动。如果做进一步的挖掘，或许我们对其他地区、其他行业的认识也会更加具体而深人渖

到直接估算历史时期产值的困难，另一种思路是假设在没有技术进步、资本积累等现代增长的情形下，普通劳动者的工资与人均GDP存在稳定的比例关系，可用工资来反推GDP或至少为 GDP的估算结果提供一个参照（van Zanden,2010)。由于工资存在各种实际的数据，虽然有单位换

算的问题，但估算的成分较少，将其和同期的GDP估计参看是颇有必要的。如果逐渐积累的话，有不少微观的消费资料也值得重视。民国期间有不少深入的农户或城市工人消费调查，清代则有不少文人日记、日收支账等存留下来．，从中不仅可以窥见不同时期各个阶层的生活水平，还有助于校正GDP估计中对服务业等部门的设定。有了这些不同角度的资料，我们对经济水平及其变化的判断将会更加稳健。

三、经济发展的模式

前述讨论显示了人均GDP估计上的分歧，但即便不存在数据的分歧，如何解读，仍成问题。例如，假设我们接受Broadberry et al.（2014）关于中国人均GDP不断下降、明代被英格兰超过的估计，是否就能由此判断中国经济在衰退，以致落后于英格兰？由于这一趋势主要是人口增长带来的，农业等各方面的生产技术并未下降，做出肯定判断意味着将人口增长视为衰退，这显然不合理。正如斯密（1974，第78页）猜测的，人口繁殖所带来的要素报酬下降只是一国不断逼近其给定约束下之财富极限的体现而已。换言之，16世纪英格兰的人均GDP高于同期的中国，却低于11世纪的中国，或许仅表明中国更早、更顺利地开始了这一进程，而难以据此说明在16世纪这个时点上，英格兰就走上了另一条道路。更准确地说，如果我们以长期的均衡状态来评价经济体系的效率的话，应该关注的是其生产可能性边界，而非直接比较不同投入下的产出。

不妨以改自赵冈（2001）的图2来说明其中的关系。假设社会总生产对劳动力是边际递减的，其边际产量曲线与平均产量曲线分别如MR和AR所示，它们交于A点。则，由于边际产量递减，人口增长在越过A点后将引起人均产出下降。但是，很显然，一个处于A点附近、人均产出较高的社会和在A点右边的社会位于同样的生产曲线上，并不具有更高的生产效率。这时，倘若人口增长如斯密（1974）所述促进了市场分工或如Boserup（1981）所述带来了劳动密集型劳动力技术的改进和推广，边际产量曲线将形如MR、MR’、 MR”的外包络线，则边际报酬递减的长期趋势虽未改变，效率或全要素生产率仍是逐步提高的。这时，即使人口的进一步增加使平均产出降至A点以下，其所代表的效率也仍然比处于原来的AR上之A点的社会为高。

如果这一分析成立，不仅对人均GDP的解读应该谨慎，与此相关的、长期以来围绕劳动生产率估计展开的争论也存在误区。这方面的经典研究是黄宗智（1992）。该著以人口压力下伴随着劳

动生产率下降的家庭副业之发展来解释明清以后中国商品经济的发展，并将其归纳为不能带来人均产出提高的“内卷化”或“过密化”。然而，李伯重（Li，1998）仔细核算了精耕细作和棉桑种植等对清代江南农家生产的影响，认为这些Boserup式的发展提高了劳动生产率。彭慕兰（2003）对棉纺织业报酬的估算进一步支持了这一点。但黄宗智（2004）强调，无论如何，棉纺业各工序总计的平均日报酬率仍是下降的，这就意味着“内卷化”的模式仍然成立。李伯重（2010）在计算华亭一娄县的棉纺织劳动报酬、得到的劳均产值远低于农业工资时，亦引用了黄宗智的解释。然而，如上所述，劳动的边际报酬下降并不意味着生产效率的降低，后者对应的乃是同等劳动投入下的边际产出。以前述争论为例，有意义的是在给定的劳动力一资源比例下，有家庭副业相对没有家庭副业，那些闲工或妇幼劳动力的边际报酬能否有增长。倘若纺织业的平均报酬率虽比农业工资低，但比没有副业情况下的拾荒等农闲报酬率高，效率就仍是改进的。

显然，Kelly（1997）对此比较乐观，认为人口增加到一定阈值时，能通过网络效应大大促进市场分工和经济增长，宋代的繁荣即是例证。李伯重（2001）相对谨慎，因为市场分工毕竟受市场范围、资源条件等外生因素的制约，有其限度。但黄宗智（1992）还隐含了制度上的约束，特别是劳动力市场不完备，市场分工和专业化生产被家内分工所代替。这样，只有当劳动力非常富余、边际劳动报酬降至极低时，通过家内分工，边际产量曲线移至MR”，但对效率的改进作用已极其式微了。同样悲观的赵冈（2001）并未将问题归咎于劳动力市场本身，而是认为中国的诸子继承等分配政策更加平均，使得其人口增长会更加靠近平均产出与维生费相交的D点，但平均分配较弱的西欧，劳动力只能在市场上获得其边际报酬，人口增长的极限因此在B点，对应的稳态平均产出自然高于中国。也即，普遍存在于前现代经济的 “马尔萨斯陷阱”在中国的分配制度下将掘得尤其深。

目前的经验研究为这些发展模式之争提供了进一步的检验。Kung & Li（2011）利用1895一 1934年间满洲农户的调查数据发现，商业化促进了大豆贸易，卷入其中的移民也获得了经济状况的改善。这与Brandt & Sands（1990）的结论一致，而不太支持黄宗智（1992）对商业化的消极判断。但Chen & Kung（2012）利用方志等数据，研究1796一1910年间玉米引种的影响则发现它只是带来了人口增长，而城市化率和实际工资却随之下降了。这又意味着新作物带来的人口增长不仅未导致斯密增长，还在原有的边际产量递减上走得更远，则近代东北的情形难以推及更长期内的全国。同时，李楠（2013）对四省村级数据的研究认为1930年前后的农民离村与人地关系紧张有关，Li & Li（2013）更发现鼠疫这一灾难马尔萨斯式地改进了20世纪初东北农民的福利。当然，这些证据即使可以支持边际报酬递减，但由于斯密增长并不一定改变长期的边际报酬递减，更多是通过减缓递减速度乃至短期的上升改变这一过程，所以，如果要检验是否存在斯密增长、识别出发展模式“分流”的时点，恐怕还需要长期但更加高频的微观面板数据。

抛开边际报酬递减或速或缓的过程不论，最终决定稳态水平的仍是赵冈（2001）所论的人口增长模式。Lee & Wang（2011 ）发现了生育行为受经济条件影响的证据，从而试图论证传统中国也存在生育控制。李楠、甄茂生（2015）所述分家对生育的影响，亦可从类似角度理解。如图3．1所示，它们或许能说明人口增长不会接近D点，而是围绕相对内侧的E点波动，但E点的具体位置仍无从确定——其很可能如赵冈（2001）所述，仍在B点甚至C点的右侧。另外，Shiue（2013）依据从宋至清桐城的六种族谱数据估计了不同阶层的生育行为，结果表明精英并没有多生，而是倾向于优生优育。在卢卡斯（2003）等阐述的内生增长理论中，生育控制与人力资本的改进同时发生，正是走出“马尔萨斯陷阱”的关键用图3 . 2来表示即是，一方面人口控制在较低水平的E，另一方面边际产量曲线和平均产量曲线大幅提升到 MR’和AR’，。当然，Shiue（2013）只能说明存在这两方面的倾向，和Lee & Wang（2001）类似，无法说明其程度是否强到足够改变整个发展模式。为了做到这一点，我们需要将家庭级别的经济数据和人口数据匹配起来，分析它们的动态变化过程，这无疑进一步提高了对数据的要求。

尽管对发展模式的严格检验仍面临很多困难，不可否认的是，近二十年来将“斯密增长”引入学术争论已产生了巨大的影响，乃至有所谓“加州学派”的形成。其意义在于改变了将传统中国的经济变迁简单归结为边际递减的思维方式，而促使人们去探讨人口、市场经济、生产效率等因素之间的动态关系，其中尤为关键的又是对市场经济的强调。即使我们不能直接识别出生产可能性边界的外移，但如果市场制度的效率在不断改进，就可以为斯密增长提供强有力的间接证据。下面便来看看这方面的研究。

四、市场机制与效率

吴承明（1997）将现代化解读为向市场经济的转变，这标志着中国经济史学的主流从资本主义萌芽研究转向了对市场化的研究。不仅如此，清代系统的粮价数据更为定量检验市场制度的效率提供了资料。从上世纪80年代起，就有不少文献通过研究地区间粮价的相关性来考察国内市场的整合程度，并与欧洲进行比较。吴承明（1996）对此作了很好的综述。由于名义价格通常是非平稳的，此后的文献又通过协整分析做了进一步的检验。其中,Shiue & Keller（2007）表明，工业革命前夜，中国和欧洲的粮食市场整合程度是接近的，尤其是长三角的市场整合并不逊色于英格兰。颜色、刘丛（2011）用类似的方法考察了中国南方和北方的粮食市场整合程度，结论是南方的整合要强于北方。

值得注意的是，粮食之类大宗农产品的市场结构和套利成本比较简单，它的整合程度高并不代表整个市场制度都有效率。相比之下，要素配置的市场化及其整合更易受到各种制度约束。如，前述黄宗智（1992）就隐含劳动力市场不完备而商品市场有效的假设，于是，不能通过市场专业化组织起来的劳动力却能在家内进行商品化生产，利用商品市场来获得次要的改进。然而，彭凯翔（2013）对北京与周边工资的分析却表明，尽管存在行会等组织，劳动力的流动其实相当活跃，近距离的工资也趋于整合。这与方行（2004）对江南劳动力市场的论述亦相一致。看来，至少对成年男工，假设他们不能由市场来配置是很成问题的。但另一要素一一资本的市场化，需要更复杂的制度安排，以致将传统中国经济视为市场经济的赵冈（2006b）对此也颇有保留。的确，Chen et al.（2014）整理的19世纪初至20世纪初各地区商业借贷利率表明，它们水平不一，长期趋势亦不同。但是，非标准的借贷利率整合在现代经济体也很困难，目前研究欧美利率市场整合史所用基本为同业拆借行市，不能直接与上述数据相比。事实上，如果更改为标准化的土地信用，彭凯翔等（2009）通过福建、浙江等地的土地抵押利率和价格显示，土地市场和借贷市场存在跨地区、跨部门的联动，从而为龙登高等（2010）对各种地权安排的解释提供了佐证。

在反映市场间的整合关系上，除了价格指标，还有数量指标。吴承明（2001）对明清国内市场的商品流通总额和若干商路的商品量都进行了估计，是这方面的经典研究。Cheung（2008）又对米谷流通的数量和方向作了更细致的探讨。但流通量通常缺乏直接的数据，变通的方法是借流通税来考察流通量。例如，倪玉平（2010）基于清代各关榷税额的变化，对道光年间市场紧缩的“道光萧条说”提出了异议；石莹（2015）对清代汉口竹木通过税的研究则表明竹木流通量趋于上升，晚清增加尤剧。同时，许檀（1997）对明清集市数量的考证与估计，也为市场不断扩展的趋势提供了证据。至于由此形成的市场空间形态，王哲（2013）利用19世纪末海关的子口税源-汇数据，结合 GIS数据，展示出深人腹地的分层结构。

市场整合的证据很大程度上修正了将传统经济视为封建或小农经济的传统观点，李伯重（1999）更认为19世纪已形成全国市场。然而，在市场背后还需要有一系列的制度性支持。吴承明（1997）之所以对市场经济的提法持保留态度，很重要原因就是认为市场受到经济或超经济的干预，在制度上是扭曲的。不过，马若孟（1999）从民国时期的卜凯调查和“旧惯”调查资料中读出的结论是，农民在一个竞争而非垄断的市场环境下进行决策。这与彭凯翔等（2009）对传统借贷市场的研究相一致。当然，即便市场是竞争性的，仍需要产权界定、契约执行等制度安排来保证其效率。这方面的经验研究颇为困难。与Acemoglu et al.（2001）类似的思路是从西方的影响中提取外生的制度变迁。其中，Ma（2008）通过讨论租界内更有效的法律与产权制度来解释1933年长三角的人均GDP为何比全国平均高55％，方颖、赵扬（2011）则认为1919年基督教小学入学数通过产权制度的途径促进了当代的经济增长。但对西方影响的渠道也可以有不同的解读，未必能由此导出对传统中国经济制度的批判。例如，Jia（2014a）也发现通商口岸的长期经济表现更好，但可能是通过人口增长来实现的，而Chen et al.（2014）等对基督教影响的研究则强调人力资本等渠道的影响， Banerjee et al,（2009）又论及铁路等物化资本的作用。

除了市场制度本身，货币对传统市场发展与经济运行亦有重要作用。据刘光临（Liu，2005）对从唐到清的货币（含铜钱和银）存量估计，唐代人均持有货币仅折0.31一0.61吊，宋代增至1. 53 吊，明初推行宝钞，人均货币退回唐代水平，明后期才有所恢复，直到18世纪的清代，回升至 1.25—1.33吊，但仍低于宋代的峰值。该文还显示，明初急剧收缩的货币几乎导致了向自然经济的倒退，这证明了货币对降低市场交易成本的重要作用以及货币深化与市场化间的关系。影响市场经济运行的不仅有货币量，还有货币制度。就明清而言，官方控制铜钱的铸造，但并不控制银两的铸造，对民间代用货币的发行与使用也不太干涉。到了民国，在1934年法币改革以前，货币及代用货币的发行就更加多元了。对此，传统的观点或定性为封建经济的体现，或评价为币制紊乱，均强调其对市场经济的消极作用。然而，官方的铸币为何不能挤出民间货币，通过竞争统一币制呢？彭凯翔（2010）对清代北京市面之“京钱”的研究表明，民间发行者间的竞争能大致维持钱票和“京钱”价值的稳定，恰恰是官方铸币的机会主义加剧了货币市场的紊乱。Denzer-Speck(2009)、刘愿、岳翔宇（2014）对近代发行制度与通货膨胀之间关系的研究也表明，竞争发行下，对声誉的追求抑制了滥发的冲动，因此，物价相比官方垄断发行的时期，反而更为稳定諢

此外，如李伯重（2001）所论，市场经济的发展还受市场范围的限制。中国虽为长期统一的大国，但国内市场亦有其限度，国际贸易的作用不可忽视。Acemoglu et al.(2005）曾指出这种作用，认为大西洋贸易加强了西欧商人的力量，推动制度变迁，最终带来了欧洲的兴起。至于传统中国对国际市场的参与，以往的观点强调“闭关自守”，这已为李伯重（2012）驳正。不过，管汉晖（2007b）表明，鸦片战争以后，贸易按照比较优势的预测大幅增长，这或许又意味着此前的国内经济仍然是相对封闭的，故有潜力尚未发挥出来。所以，即便中国在基于国内市场的斯密增长上并不逊色于其他经济体，其在国际贸易和分工上的发展状况则值得进一步探讨。

五、国家能力、社会控制及外生冲击

在三十年以前关于资本主义萌芽的讨论里，国家通常被认为是代表封建势力的强制机构，通过强征暴敛和闭关自守抑制了新的经济形态的发展。而在放弃机械的阶段论，转向市场经济的研究后，国家的作用则一度受到忽视。但是市场经济的发展需要有法制、产权保护等为制度基础，也有赖于交通、治安、国防等公共产品或准公共产品的有效供应——特别是在自由贸易缺乏保障的近代与早期现代的国际经济环境下。国家在这些方面的能力因而重新受到了关注。例如，O’Brien & Hunt（1999）以一种重商主义的方式论述了英国内战和“光荣革命”后，税收增加、海外霸权争夺与市场扩张间的正反馈关系，爱泼斯坦（2011）则在更一般的制度含义上将英国的成功转型归结为更加强有力的国家。对于“大分流”前夕的中国，至少从财政收人上来看是很难具有这种能力的。王业键（2008）曾揭示了清代田赋因通货膨胀而不断下降的趋势，Brandt et al.（2014）进一步强调了中国的低税与国家能力的有限：人均税负（按朝廷正式征收的税赋衡量）从宋代的0.8石米直降至清乾隆年间的0.12石米——换成银计，不到西欧国家的一成，为最发达的英荷等国的三十分之一！

对于这一现象，Ma（2011）的解释是由于缺乏信息或监督的困难，统治者就像是收取定额租的地主一样采取了“原额主义”式的低税；同时，由于人民也不相信不受任何制约的统治者，统治者难以像宪政国家那样增税来提供公共服务。该文其实假设了财政收支两方面都存在严重的委托一代理问题,Sng & Moriguchi（2013）对中日的比较研究则强调财政收人而非支出中的信息不对称。即由于国家规模较大，中央难以监督地方官的滥征，只能减少自己在整个征敛中的比例，以免地方官过度攫取。无论是出于收还是支的低效，上述文章都不排除各种非正式的征收和官员的贪腐，而是强调政府能有效动用的正式资源之有限。对此，He（2013）提出了视角不太一样的观点。他比较了光荣革命前后之英国、明治维新时期之日本以及晚清中国的财政变迁，结论是晚清中国未能顺利转变为现代财政国家并非是财政动员能力不足所致，而是有认知、历史偶然性等复杂的因素在起作用。由于目前的财政数据并不完备，中央的正式收支数据虽较系统，但非正式收支地方财政以及财政外公共事务收支等方面的数据都很缺乏，要检验各种假说还比较困难。尽管如此，以各种间接的方式检验公共产品的提供效率仍是值得尝试的。例如，Chen（2014）关于灾荒越频繁的时期越容易实现统一的结论，就表明了大一统国家在赈济上的效率。

当然，影响国家兴衰的因素有很多，传统国家的首要功能也是在各种冲击下维持政权对社会的控制，而未必是推动经济发展。近年有不少文献研究外生冲击对国家形态或社会控制的影响，它们虽然未必与经济直接相关，但将计量经济学的前沿方法引入了传统历史学的研究，既使我们对重大的历史变迁有更好的理解，也体现了经济学方法的价值。一个讨论热烈的议题是美洲作物传人中国的影响。Chen & Kung（2012）对玉米引种与人口增长之间关系的检验延续了传统的讨论，Jia （2014b）则将此与农民起义联系在一起，认为耐旱作物番薯的引人大大削弱了旱灾对农民起义的影响。利用同一时期的省级数据，陈永伟等（2014）再次检验了在Jia（2014b）中并不显著的玉米的影响。他们的结论是玉米的引种早期能削弱灾荒和农民起义间的关系，但到了清中后期，这一效应就逆转了，由此印证了文献中玉米种植导致水土流失，长期内反而恶化生态关系的论点。气候灾害不仅导致农民起义，Bai & Kung（2014）发现这也会显著增加游牧民族的南侵，陈强（2014）又表明，在王朝后期，该效应会更强。这些检验与历史学的传统观点是一致的，使其得到了定量的支持。不过，社会秩序不仅体现在起义或战争上，也应该考虑日常冲突的程度。中世纪以后欧洲文明进程的一个重要体现是命案率的下降，陈志武等（2013）用清代刑科题本估算的命案率显示，它的下降恰恰发生在用起义或战争衡量走下坡路的嘉庆以后。这又提示我们应该更全面地考虑对社会控制乃至国民福利的评价。

在传统社会，制度或政策往往是由社会控制或社会治理的需要衍生出来的，但它们可能又对经济发展起到原本意图之外的作用。例如，陈志武等（2014）表明，清代官方对高利贷的道义干预可能引发“道德风险”，增加借贷双方的冲突，使贫民更难获得贷款。至于宗教或意识形态，更是可能具有意想不到的长期效应。其中,Chen et al.（2014）发现清末华北灾荒越严重的地区，基督教发展越快。这些都和预期一致，即宗教组织具有慈善等协调社会关系的功能。但是，不仅如此，他们还发现，通过教育、医疗等渠道，基督教的传播也带来了长期的经济增长。无论进一步的检验结果会如何，这些研究都说明，在讨论传统社会的发展时，需要更多地将经济和政治、文化等各方面的因素结合起来，进行跨学科的研究。

六、展望与建议

如引言所述，对历史时期经济的研究面临两方面的挑战：一为资料，一为理论与方法。本文综述的文献既有偏重前者，也有偏重后者的，但令人欣慰的是，更多研究都将两方面结合在了一起。当然，对这些文献的讨论也说明，这两方面都仍有进一步改进的必要。比如，在关于人均GDP或劳动生产率的争论中，倘若能对背后的增长模式有更清晰的理论认识，就能少走弯路，集中于更有意义的检验。又如，在用面板数据分析检验通商、基督教等因素对近代发展的影响时，仅考虑它们对某些地区的促进可能是不够的，因为从全国层面来看，它们可能对国家能力带来冲击或者对其他地区的衰落有影响。为了更好地理解整个历史进程，我们就需要如Acemoglu（2010）在评论近年发展经济学的经验研究时所提醒的，更多地注意一般均衡和政治经济因素。

至于资料方面，可以说，经济学者一时将历史学者数十年积累起来的资料翻了个遍，结果发现还很不够，而历史学者因此也对计量史学的资料要求有了更深的体会。应该承认，我们才刚刚接续上汤象龙等先贤在八十年前的规划，值得做和能够做的工作都很多。可喜的是，从目前的文献来看，正在形成亩产量、粮食收成、人口、贸易、财政、土地交易、借贷、宗教文化、司法、社会流动等方面的数据库，它们和已经公开的粮价、灾害、战争、地理信息等数据库结合在一起，将能革命性地推进我们对长期经济变迁的理解。如何把这些数据库匹配起来，形成一个学术共享的机制，或许是首先可以思考的。其次，关于长期变迁的争论表明，分歧的关键在于对个体生产、生育等行为的理解，这凸显了积累微观资料的必要性。要直接获得理想的面板数据来完整地估计出个体的行为函数固然很困难，但实际上只要能有相对系统的微观数据帮助我们校准个体在这些行为中的某些结构参数，宏观上的讨论可能就大不一样了。令人庆幸的是，民国时期卜凯主持的土地利用调查、日人在东北和华北的农户调查、跨不同时期的“无（锡）保（定）”调查以及上世纪50年代土改时的调查，这几大调查的微观数据都大致保存着，将是可以持续发掘的宝库。此外，眼下契约、日记、账簿、族谱等各种资料的整理出版方兴未艾，提供了大量明清以后家庭、商店等微观组织的资料，也都具有不可低估的研究价值。在更扎实的资料和理论基础上，我们不仅能更准确地刻画中国经济的长期变迁过程，也能检验发展经济学、政治经济学、制度经济学乃至人口、货币经济学等众多领域的假说。同时，在跨学科的视野里，经济史的研究有助于更好地理解国家、市场、家族、文化等因素间的关系及其在历史中的积淀，从而理解当代中国经济发展的源泉和当代社会结构转型所面临的历史约束。