陈志武：量化历史研究的过去与未来

由马光（搬运工）
22 7 月, 2017

本文源自2016年第4期《清史研究》，作者陈志武，耶鲁大学金融经济学教授、香港大学冯氏基金讲席教授、北京大学经济学院特聘教授

量化历史研究的过去与未来

☑ 一、引言

☑ 二、量化历史研究方法

☑ 三、历史研究能够量化吗？

☑ 四、量化历史研究不只是“用数据说话”

☑ 五、量化史学带来新认知

☑ 六、结束语

【摘要】近六十年来量化历史研究拓展并加深了我们对历史的认知，使历史研究向科学靠近。不管哪个领域，科学研究的基本流程应该保持一致：首先，提出问题和假说；第二，根据提出的问题和假说去找数据，或者通过设计实验产生数据；第三，做统计分析、检验假说的真伪，包括选择合适的统计分析方法识别因果关系、做因果推断，避免把虚假的相关性看成因果关系；第四，根据分析检验的结果做出解释，如果是证伪了原假说，那原假说为什么错了？如果验证了当初的假说，又是为什么？这里挖掘清楚“因”导致“果”的实际传导机制甚为重要；第五步就是写报告文章。传统历史研究在第二至第四步上做的不够完整。所以，量化方法不是要取代传统历史研究，而是对后者的补充。本文通过一些现有成果说明，量化史学不只是“用数据说话”，而是通过统计分析，既可令人信服地证明或证伪现有假说，也可以从历史现象中发现全新的认知。
一、引言
2013年，笔者与清华大学龙登高、伦敦经济学院马德斌、香港科技大学龚启圣等教授一起举办了第一届量化历史讲习班。之后，我们每年办一届。与四年前相比，报名人数越来越多，国内学界对量化历史研究的认知和兴趣已有了很大的变化。虽然参与过讲习班和量化历史年会的同仁还未必都能用量化方法研究历史话题，但至少都了解到了量化方法的优势和不足，也不乏对量化史学的质疑。
按照经济史学者诺斯的追溯（Douglas North，1977），用量化方法研究经济史问题大致起源于1957年，当时几位学者尝试研究美国黑奴历史的经济逻辑。随后，量化方法也用到了其它历史研究领域，包括诺斯对欧洲政治制度史（North Thomas，1973）、西波拉对西方的教育史与宗教史的研究（Cipolla，1969）。到1960-70年代，量化史学变得流行，这股风潮后来有所消退。但是，1990年代中期后，新一轮量化历史研究热潮再度崛起，引人注目。就以国际五大量化历史数据库为例（Integrated Public Microdata Series, BALSA Population Database, Historical Sample of the Netherlands, Scandinavian Economic Demographic Database, Utah Population Database），2006—2010 年间，新发表的学术论文中运用这些数据库的就达2360余篇（梁晨、董浩、李中清，2015）。催生新一轮量化历史研究的经典作品主要来自经济学领域。而且，在如何利用大数据论证历史假说方面，经济史学者做了许多方法论上的创新，改变了以往社会学家、人口学家只注重历史数据描述性分析、相关性分析的传统，将历史研究进一步往科学化的方向推进。期间，三组不同团队起了关键作用：在哈佛和芝加哥大学的La Porta, Lopez-de-Silanes, Shleifer, Vishny（惯称“LLSV”）（La Porta, Lopez-de-Silanes, Shleifer, Vishny，1998,1997），哈佛和麻省理工学院的Acemoglu, Johnson, Robinson（Acemoglu, Johnson, Robinson，2001），以及继诺斯与托马斯《西方世界的兴起：新经济史》和德弗利斯的《工业革命与勤劳革命》（De Vries，1994）等著作之后，于2000年出版《大分流》的彭慕兰（Pomeranz，2000），虽然该著作本身在量化方法方面停留在简单描述性数据层面，没有做更深层的计量分析，但它引发了众多学者对“工业革命为什么发生在西方而非中国或伊斯兰国家”的研究兴趣，大量学术著作因此产生，而且这些著作几乎没有例外地都基于某种程度的量化方法。
今天，计算机和互联网已相当普及，不仅许多历史资料的数据库化变得可能，而且使这些历史数据库的跨地区、跨国共享成为可能。在互联网上有数不清的各国历史资料库可以免费得到，用起来方便，成本也低。这是以前的历史学者做梦也想不到的。
当然，众多量化历史数据库只是研究的基础，关键要看研究方法与分析框架是否跟得上。许多同仁说：量化史学不是曾经时兴一段，但后来势头下降了吗？这次为什么会不同呢？我们必须看到，1980年代之前电脑没有普及，更没有互联网，那时整理历史大数据很难，做统计回归分析并检验假说也很难。但是，现在没有这些问题了。今天“大数据”是个时髦话题，可是，很多人没有看到历史资料是真正的大数据。比如，仅清代刑科题本档案就有近60万本，平均每本大约30页手稿，加在一起就是1800万页资料。更不用说其它明清及民国期间留下的奏折、公文、实录、文书、契约、方志等史料，加在一起至少有数亿页。如果举一极端例子，正如哈佛大学包弼德(Peter Bol)所说，仅2013年那一年，世界上的网站数量超过5亿、共480亿网页，相当于6720亿GB的信息量，是所有美国图书馆藏书总和的50万倍！将来研究今天世界史或中国史的学者会如何作为呢？
首先要看到，采用细读个案的传统历史方法，不仅会让我们偏重树木而忽视森林，而且，在历史资料规模超过一定水平时，这种方法很难行得通。海量历史资料带来两个现象：一是近代史比远古史更难研究，因为明清资料太多而古代资料很少。传统方法强调细读一手史料，远古资料少，使其相对可行，近代史海量资料反倒使其不好研究，只有靠引入新的研究方法才能改变这种奇怪局面；另一现象是由于传统方法强调个案细节、不强调大样本，但历史上的社会现象又错综复杂，研究者很多时候都能根据需要挑选到“合意”的历史案例。所以，在不同学者根据需要去找合意个案的习惯下，得出的结论当然各异。于是，就有了“历史被任意打扮”的嫌疑。我们需要改变这些现象，这就要靠大样本量化方法。
中国历史资料丰富，这是中华文明的优势。但是，要发挥这种优势、增加我们自己乃至全人类对我们过去的认知，就必须改进研究方法。量化历史方法既受益于现代互联网技术，也受益于现代社会科学分析范式的进步，是历史研究领域的与时俱进。
接下来，本文分别回答以下几个常见疑问：第一，量化历史方法跟传统历史方法是什么关系？第二，历史能够量化吗？第三，1990年代末期以来的量化历史研究方法跟之前的量化方法区别在哪里？最后，量化史学除了证明或证伪传统史学提出的假说外，能带给我们对历史的新认知吗？
二、量化历史研究方法
量化历史方法不是要取代传统历史研究方法，而是对后者的一种补充，是把科学研究方法的全过程带入历史领域。整理考证史料、注重文献是历史学研究的传统，量化史学同样注重对历史文献的考证、确认，这一点没有区别。如果原始史料整理出了问题，不管采用什么研究方法，由此推出的结论都难言可信。两者差别在于量化方法会强调在史料的基础上尽可能寻找其中的数据，或者即使没有明显的数据也可以努力去量化。
不管是自然科学还是社会科学领域，科学研究方法的基本流程是一样的（King、Keohane、Verba，1994）。其中，第一步是提出问题和假说；第二步是根据提出的研究问题和假说去找数据，或者通过设计实验产生数据；第三步是做统计分析、检验假说的真伪，包括选择合适的统计分析方法识别因果关系、做因果推断，避免把虚假的相关性看成因果关系；第四，根据分析检验的结果做出解释，如果是证伪了原假说，那原假说为什么错了？如果验证了当初的假说，又是为什么？这里挖掘清楚“因”导致“果”的实际传导机制甚为重要。为给出令人信服的解释，既可通过统计方法认证逻辑传导机制，也可通过简单数学模型验证传导机制的逻辑一致性；第五步就是写报告或者文章，把科学过程研究出的结果报告出来。
传统的历史研究范式基本停留在上述科学方法的第一和第二步，也就是要么先提出问题或假说，觉得“历史应该是这样”，然后去找历史个案或少数几个案例，只要假说与这些个案相符，就认为假说对历史的解释是成立的。或者，先通过对历史个案的透彻研究，学者得出关于历史现象中因果关系的假说或猜想，认为历史中就是这样由这个“因”导致那个“果”的，然后研究就到此结束。——但是，从上面讲到的科学研究流程看，这显然只是研究过程中的一步或两步，不是全部过程。史料整理是建立历史数据库的基础，在没有经过大样本检验之前，这些假说和猜想还仅仅是假说，不一定真的成立。
量化研究是在传统研究方法的基础上，把科学方法中的第二步（收集大样本数据）做好、做完，并且把第三、第四步也做完。只有这样得到的对历史现象背后的“历史规律”，才让人能接受，才能避免“以偏概全”。所以，量化历史方法是对传统方法的补充，而不是取代。量化历史研究也不只是简单的“用数据说话”。数据是量化研究的基础，但这只是其中一个环节，同样重要的是要根据历史大数据对我们感兴趣的猜想进行统计检验，看这个猜想是否能得到大样本的支持，而这一点是传统历史方法难以做到的。过去，胡适也讲过“大胆假设，小心求证”，只不过当时他所讲的求证，还只是一般的寻求证据（主要是文献方面的），并不是统计学分析与大样本检验。比如说，到底是什么导致清朝灭亡？一种假说（仅仅为假说）是：因为晚清立宪改革所致，并据此得出结论说“不能进行宪政改革，因为宪政改革导致国家灭亡”（King、Keohane、Verba，2012，2004）。根据清朝的个案经历得出这样的结论，就好比“阿炳二胡拉得好，是因为他是瞎子，所以任何人要拉好二胡，必须先把眼睛搞瞎”，这显然有问题，是以点带面。我们必须先收集中国与其他国家的宪政改革历史样本，进行系统统计检验，排除个案的特殊因素，让样本中的共同因素——宪政改革——突出出来，凸显“历史规律”的内涵，只有这样才能知道这个假说到底能否站住脚。
三、历史研究能够量化吗？
在历届量化历史讲习班和年会及其它交流中，一个经常听到的问题是：历史能够量化吗？初看，这问得有道理，因为许多历史现象和因素确实难以量化，即使是今天，有许多事物，包括情感等因素都难以量化。但是，难以量化不等于都不能量化，尤其不等于要放弃想象力、放弃创新的努力。只要努力创新，很多因素还是能够量化的，尽管有时候并不一定那么完美。
以香港科技大学龚启圣和山东大学马驰骋最近的一份研究为例，他们的核心问题是如何测度儒家文化的影响并评估其实际贡献（Kung、Ma，2014）。我们都说儒家文化过去两千多年对中国社会贡献巨大，是中华文化的基础。但如何证明儒家文化的积极作用？其发挥作用的方式或者说机理到底是什么呢？儒家文化的成本很高，尤以对个人自由与权利的压制为突出，其核心原则是以君与臣、父与子、夫与妻的“三纲”为基本出发点，把每个人从出生到死都固定在一个根据辈份、年龄、性别决定的名分等级秩序之中，并基于“父为子纲”的原则推演出“孝道”规则，要求子女对父母无条件服从、听话；基于“夫为妻纲”推演出“在家从父，出嫁从夫，夫死从子”的“三从四德”妇道规则。再在这些原则上辅以“父母在，不远游”、“父母之命、媒妁之言”的“包办婚姻”等“仁义理智信”细则。虽然各社会都会倡导“仁义理智信”，但其仁、其义、其理、其智、其信的内涵既有共同普适性，又有每个文化特定的基本原则下所要求的独特内容。比如，按照儒家的“礼”，在清代，如果父亲打死儿子，未必会上刑，但在西方文化体系里，“礼”的范畴就不会这么容忍，这就会上刑。那么，基于儒家名分等级秩序所实现的资源分配结构、收入分配体系，要求个人特别是女性牺牲这么多、代价这么大，带来的贡献是什么？贡献有多少？学术领域鲜有对这些问题的量化答案，原因当然是文化很难量化。
龚启圣、马驰骋尝试用间接代理指标来量化“儒家文化影响的强弱”，亦即，用各县文庙或孔庙数量测度儒家文化的影响强弱：孔庙越多，儒家在当地的影响就越强。此外，自汉代开始政府实施旌表节烈妇女的制度，但直到宋代以前，妇女守节、殉节的现象有但并不普遍，再嫁、改嫁行为也还经常发生。宋代理学家程颐、朱熹按照“存天理，灭人欲”、“饿死事极小，失节事极大”的思路，强调寡妇再嫁就是失节。朱元璋1368 年创立明朝后，即颁布诏书：“民间寡妇，三十以前夫亡守志，五十以后不改节者，旌表门闾，免除本家差役。”（郭松义，2001）1723 年清廷规定将旌表标准缩短至守节十五年，其后又分别于1824 和1871年进一步缩至十年和六年。正因为守节是儒家“养子防老”体系的价值延伸，一个县的列女数量也大致能反映当地人对儒家文化看重、遵守的程度。就这样，他们找到了量化儒家文化的两个代理变量。
龚启圣、马驰骋研究的目标是清代1644-1910年间山东107个县的农民暴动情况，看儒家文化是否会显著降低各地遭遇灾荒冲击时农民暴动的冲动。通过检索《清实录》等资料，他们发现，清期间山东南部各县农民暴动最频、次数最多，其次是青岛周边山东东北角的这些县；而孔庙数量的分布则倒过来：中部各县孔庙数量最多，以南部和北部县为最少。在排除各种其它因素的影响之后（包括每个县的收入水平、起初发达程度、教育水平、社会流动性等），受儒家文化影响越深的县（即孔庙数量或列女数量越多），即使遭遇灾荒冲击（通过粮价高低测度灾荒严重度），其在清代农民暴动的频率也更低，尤其以南部县域孔庙少、暴动频，而中部县域则反之。而之所以有这样显著的结果，机理在于：儒家文化影响深的地区，家族宗族网络越强，在面对灾荒冲击时宗族内部互通互助的程度就越高，亦即隐性互相保险的程度就越强；这就减少灾荒迫使农民走投无路、求助于暴力的必要性。在缺乏保险市场等金融产品的社会里，儒家文化就是这样促使社会稳定、减少暴力冲突的。
或许我们可以对他们的量化研究提出质疑或者提出改进建议，但是，他们的创意价值显而易见，不仅增加了我们对清朝历史的理解，而且给我们提供了研究儒家文化以及其它文化的新方法，深化对文化影响社会、影响生活的机理的认知，不再泛泛而谈。
另一个用量化方法研究文化史的范例是针对韦伯《新教伦理与资本主义精神》中学说的研究。在1905年出版的这部经典著作中，韦伯基于个案定性论述了资本主义之所以发生在西方，是因为16世纪“新教改革”。但是，他的学说在当时没有得到量化检验，只是解释资本主义为什么发生在西方的众多学说之一。
那么，如何检验韦伯的新教伦理命题呢？由于今天没有哪个国家是纯粹的新教国家，所以，只能大致上按新教徒是否占比最高把基督教社会分为“新教”和“天主教”两组，同时在量化研究中尽量以新教徒占人口之比为反映新教文化的代理变量。这样，英国及其前殖民地美国、加拿大，荷兰、丹麦、瑞典、挪威和新教改革发源地德国等，这些以新教为主的国家构成 “新教”国家组，其中美国、英国、加拿大、澳大利亚、瑞士受加尔文宗影响尤深。相比之下，欧洲南部国家及地区，如意大利、西班牙、葡萄牙、法国南部，还有各拉美国家、菲律宾等西班牙与葡萄牙的前殖民地，都以天主教为主，这些国家构成“天主教”国家组（亦即，拒绝16世纪新教改革的社会）。
到20世纪，这两组国家的差别显而易见：新教国家的人均收入最高、金融市场最发达、民主法治最完善。天主教国家虽然总体上也富有，但在许多方面落后于新教国家，尤其是西班牙，直到1975年才走出长达几世纪的混乱（La Porta, Lopez-de-Silanes, Shleifer, Vishny，1998，1997；Acemoglu, Johnson, Robinson，2005；Woodberry，2012）！佩雷菲特在《信任社会》中，从多个维度比较16世纪以来新教国家与天主教国家的差异表现。在20世纪里每百万人口得诺贝尔奖人数（佩雷菲特，2005）、20世纪人口密度与城市化（佩雷菲特，2005）、政府清廉指数以及综合竞争力（佩雷菲特，2005）这些指标上，新教国家都排在前面。
为什么20世纪新教国家表现那么突出，超越天主教国家那么多呢？历史学者结合定性和定量分析对其做了深入阐释。16世纪新教改革前，天主教主导并规范欧洲社会的方方面面，连笑都受管制，追求利润的商业行为和金融就更受罗马教廷的规制了（佩雷菲特，2005）。在哲学层面，对人际间的互助与社会关系，天主教跟儒家的主张基本相同，就是以“义”而不是以货币化的市场交易规范人与人之间的互通互助，这就导致天主教对商业和金融的排斥，反对任何以利润为目的的商业。在孔子看来，“君子义以为上”(《论语·阳货》) ，“君子义以为质”(《论语·卫灵公》)，即君子立身行事应以道义为本，道义价值重于物质利益。在天主教里，教会法第142条明确规定，“严禁神职人员自己或替别人从事批发交易或经商，不论这是为自己还是为第三这谋利。”这道禁令虽然不是针对一般教徒，但对于教徒的要求也基本类似，认为一个人不可能同时既做商人又是好基督徒，“经商的人几乎不能，甚至从来也不能令上帝满意”（佩雷菲特，2005），死后会被打入地狱的！天主教对商业的敌视，受亚里士多德的影响很大，他在《政治学》中论述道，“以鞋为例：同样是使用这双鞋，有的用来穿在脚上，有的则用来交易。那位把鞋交给正在需要穿鞋的人，以换取他的金钱或食物，固然也是在使用‘鞋之所以为鞋’。以有余换不足，‘交易’原来是自然地发展起来的。”但如果交易的目的不是满足自然需要而是为了赢利，则交易是不自然的，因此要受到禁止。
既然对待一般商业利润的态度如此，对待“用钱赚钱”金融交易的敌意就更不奇怪。在《圣经·申命记》第23章中，第20段说“借给你兄弟银钱、食物，或任何能生利之物，你不可取利。” 第21段说“ 对外方人你可取利，对你兄弟却不可取利，好使上主你的天主在你要去占领的地上，祝福你进行的一切事业。”正因为教会理念中天下人都该兄弟姐妹，所以，相互无偿帮助才体现“义”和“礼”，而假如在他们面对困难、需要帮助之时你还收取利息，这绝对不是上帝容许的；如果你取利，在死时你会被打入地狱，而不是进天堂！如果教义不松动有关商业利润、出借获利的金科玉律，经济尤其金融市场是难以突飞猛进发展的，资本主义自然受到教义的阻止。
虽然基督教教义如此排斥商业和金融，但是，到了16世纪，人们的现实生活已经离不开商业甚至金融，尽管这些活动只能在教会禁令的阴影下进行。这个背景加上罗马教廷的腐败为16世纪的新教改革奠定了基础，其中有三位牧师发挥了关键作用，他们的论述构成了韦伯谈到的“新教伦理”的核心。首先是日内瓦教堂的加尔文，他整个重写了基督教的商业伦理。在1560年《基督教原理》第三卷第14章中，加尔文说到：“那些富有的人，现在心有慰籍的人，喝得酩酊大醉的人，开怀大笑的人，睡在象牙床榻上的人，财富应有尽有的人，他们的宴会有竖琴、诗琴、铃鼓伴奏，还有玉液琼浆，这些人为何要遭诅咒呢？诚然，象牙、黄金和财富皆为上帝的美丽造物，允许、甚至是专供人享用的。开怀欢笑，一醉方休，购物置产，奏乐助兴，畅饮美酒，在任何地方都不遭禁。这是确实的。但是，一个大富豪，尚若沉湎于寻欢作乐，醉心于及时享乐，并无休止地追求新的享乐，那么他离健康、正当使用上帝的恩赐就相去甚远了。”（佩雷菲特，2005）加尔文的口号是：让上帝的所有恩赐都产生效益，包括个人的天赋（即人力资本）。加尔文也为有息放贷正名，因为在他看来，既然把房子租出去可以收房租，把土地租出去可以收地租，为什么把钱租出去不能收息呢？
另外两位是伊拉斯谟和马丁·路德，这两位神学大师联合起来对罗马教皇发动攻势。1516年2月，伊拉斯谟倡导结束教会对《圣经》阐释权的垄断，并挑战道：“为何把属于所有人的共同信念局限在少数几人身上？将教义交给神学家或僧侣等少数人掌握是不合逻辑的。”“那些想禁止无知者阅读译成通俗文本《圣经》的人，我与他们的意见强烈地不同……我期望所有的女子都能阅读《圣经》。”（佩雷菲特，2005）马丁.路德跟伊拉斯谟一样，认为教皇过度腐败，并通过他的多部著作告诫人们不要听信罗马教廷，尤其不要相信教皇是上帝在人世间的代言人，呼吁所有人自己去阅读《圣经》并直接跟上帝对话，而不是经过教会这些中间人！
因此，历史学者看到新教伦理跟传统天主教的主要分岔在于两方面：一是新教允许甚至鼓励信徒发挥才华去经商，追求利润，包括从事金融放贷事业；二是鼓励信徒接受教育，让自己有能力读《圣经》并与上帝对话。根据这两点，量化历史学者得到的假说是：在16世纪之后，新教国家的识字率和一般教育水平开始超前于天主教国家，在人力资本方面取得优势，由此在之后几个世纪里在人均收入、社会综合发展等各方面超越天主教国家。
这样，研究的焦点就集中比较在新教与天主教国家之间人力资本，即识字率的差异上。但问题是识字率、教育普遍性这些历史数据如何获得呢？历史学者查到欧洲各社会婚书档案，看个体在婚书上是正式签名，还是只画了个“十”字或干脆声明“不会签字”（Emmanuel Todd，1990），这跟中国人以前不读书识字的人画押签字一样。如果一个人能签名，就认为他能读书；否则，就认为他是文盲。图1根据每个国家超过50%的男子（以20—30岁年龄段为样本）脱离文盲为时间标志，标记西欧各国。可以看到，新教为主的瑞典、丹麦、荷兰、德国以及英国一些地方在1700年以前就达到半数男性脱盲，而英国北部、法国北部、比利时、奥地利则是18世纪完成半数男性脱盲，而意大利、西班牙、法国南部这些天主教社会则要等到19世纪甚至20世纪了！

图1 欧洲不同地区哪个时期实现了年轻人扫盲过半？

（图片来源：佩雷菲特《信任社会》，第72页）

以瑞典为例，那里的路德宗（新教派之一）在17世纪发动了多次扫盲运动，到1700年超过80%的青年能读书写字（佩雷菲特，2005）。而另一个极端是意大利，意大利是文艺复兴的发源地和中心，于14、15世纪翻译、印刷了大量古希腊著作。在新教改革运动之前的1480年，意大利比任何其它地区都拥有更多活字印刷机，引领着欧洲文化发展。可是，意大利社会在16世纪的新教改革中坚决站在天主教保守派一边，不鼓励人们自己去阅读《圣经》，对教育不热衷。要到19世纪末期、20世纪上半叶，意大利才实现半数年轻男人扫盲的目标（佩雷菲特，2005）！在800—1600年间，西方科学发现与科技发明中有25%到40%是意大利人做出的，而1726年后，他们的贡献下降到3%左右（佩雷菲特，2005）。可见，在新教改革后，选择守住天主教对意大利带来的代价很大，倒退严重。
图2引用佩雷菲特《信任社会》统计表3中的数据，表明到1850年为止，文盲人口占比跟新教徒占比之间是严格负相关的，也就是说，由于新教教义反对教会的垄断，主张教徒自己读《圣经》，新教社会对教育的重视就显得很自然。到1890年，以小学教师占人口比例算，总体上仍然是新教国家排在前面，天主教国家落后（佩雷菲特，2005）。

图2 1850年欧洲文盲率与新教徒人口比的关系

（数据：佩雷菲特《信任社会》统计表3）

所以，针对分别受新教文化和天主教文化影响的两类国家做的量化对比研究，发现主要因为两个体系对教育的态度和政策决然不同，导致这些国家在16世纪后发展路径的大分流（Cipolla，1969）。也就是说，韦伯命题得到了教育历史数据的支持（Becker、Woessmann，2009）。在一份基于欧洲的量化历史著作中，Van Zanden、Buringh, Bosker对比西班牙、意大利等天主教国家跟英国、荷兰这些新教国家的议会制度发展史（Van Zanden、Buringh、Bosker，2012），发现：虽然议会于12世纪首先出现在西班牙，并随后从欧洲南部往其它城邦扩散，但从16世纪开始出现严重分化，根据议会每年实际开会次数和对国王的权力制衡程度评估，到18世纪末期，西班牙等天主教国家的议会已基本不发挥太多作用，而英国、荷兰等国家的议会对王权构成实质性制约。议会权力的差别导致了新教国家和天主教国家之后的发展差异。Woodberry用跨越五大洲的样本，更系统地对新教、天主教在不同国家的传播史所带来的人力资本与发展史影响做量化研究，并以此解读各国今天的民主民生差别（Woodberry，2012，2011）。
实际上，白营和龚启圣在他们2015年发表的论文中（Bai、Kung，2015），研究了基督教在中国传播两个世纪后带来的影响，样本为1175个县。他们发现：到1920年为止新教徒越多的县，其城镇化率和总体发达程度越高；相对而言，天主教徒的数量多少对一个县的发展的影响并不显著。而之所以新教的影响很显著，也主要是因为他们在当地办学校、开医院，既育人治病又传播知识，影响当地的人力资本发展，这些影响持续到了今天。这些研究加深了我们对基督教在中国的发展史的理解。
当然，我们可以例举更多文化史量化研究的著作，但基本结论是一样的：有许多表面看上去不能量化的研究课题，其实只要我们发挥想象力，还是可以找到代理变量，或者通过创造性研究设计把不容易量化的研究变得可以量化。其中，经常跟踪研究文献、了解其他同仁的研究动态，也可以拓展自己的视野，增加研究想象力。
四、量化历史研究不只是“用数据说话”
1950年代以及之后的几十年里，如果历史学者能用数据说话，那可能就算很前沿的量化历史研究了。诺斯、麦迪森、西波拉等历史学家，以及中国史学界的吴承明、何炳棣、赵冈、郭松义、李伯重等史学家，都是这方面的开拓者，包括估算GDP、收入、识字率、经济规模、耕地面积、城市化率、家庭数据等等。他们通过收集资料、量化各种指标，然后计算相关系数或者通过画图展示相关性，并把相关性看成因果关系，得出结论。相对于早期的定性研究而言，他们做的已经是非常量化的研究。当然，我们知道相关性不等于因果关系，他们做的主要是描述性的，完全的量化研究必须做更多，需要对因果关系进行统计检测。
也正因为以上原因，许多历史学者就说“量化史学只是把历史学家已经知道的结论用数据说一遍”！但这是一个比较普遍的误解。统计检验的价值之一是让我们在针对同一历史现象的多种假说中排除一些假说、支持一个或几个其他假说，而如果没有量化检验的方法就很难做到这一点。比如，最近南京师范大学地理学教授吴庆龙领导的考古学家和地质学家团队在《科学》（Science）杂志发表一篇文章（Wu et al，2016），称已经找到发生过一场大规模洪水并由此导致夏朝诞生的证据，说这可能就是一些中国史书中提到的那场大洪水。之所以大洪水会发生，是因为地震引起山体滑坡，形成了横跨黄河的巨型天然堤坝，使从青藏高原流过来的黄河水无法穿过积石峡，这样，在6至9个月时间里，河水都汇聚在坝体后边新形成堰塞湖。接着，坝体在湖水漫过坝顶之际迅速溃决，这是过去一万年来规模最大的洪水之一。溃坝洪水可能向下游奔涌了2000公里之远，冲毁了黄河的天然河岸，令许多地方被淹，甚至导致了黄河改道，使接下来的治水挑战史无前例，催生夏朝的形成。
我们况且不管吴庆龙教授团队的结论能否最终得到更多证据的充分证明，他们的研究之所以引起轰动，就是因为到目前为止还没有考古证据证明夏朝的存在，同时关于其存在过的假说很多。那么，如果有任何考古证据排除其中一些假说并同时支持另外一些假说，其学术贡献就很大。许多历史事件的解释也面对同样的挑战：假说或学说很多，但难以找到公认的方法和证据排除一些、保留另一些。
比如，关于传统中国社会的高利贷，解释就很多，既有剥削论，也有道义经济论、市场供需关系论等等。那么，到底哪一种假说更接近真实呢？以前，许多历史学者通过个案做了解释或佐证，但，不管清代、明代还是其它朝代，借贷交易全国每天有千千万万起，交易关系和交易结局千差万别，佐证学者自己观点的例子应该都能找到。所以，各种学说都有提出，都难以被否定。但是，哪种假说最能反映其中的主要规律呢？陈志武、林展和彭凯翔利用清代1732—1895年间刑科题本中近5千命案记录（陈志武、林展、彭凯翔，2015），对民间借贷双方的关系进行了定量分析。他们发现，在借贷纠纷引发的命案中，一旦借贷利率高于零，被打死方为贷方的概率为60%，而且利率越高，被打死的是贷方的可能性也随之增加，这说明一旦发生债务违约，贷方面对包括生命风险在内的违约成本是不对称地更高。这一发现与传统“高利贷剥削”论和放贷者“超经济强制”论的推断相反，但道义经济论可能最接近历史真实，因为在他们的借贷命案大样本中，如果借贷是无息，被打死的一方更可能是借方，但借贷利率越高，被打死的一方越可能是贷方。而之所以是这样，一个重要原因还是在于哪一方有“道义制高点”、“哪一方理亏”。这些基于量化研究的结论，一方面说明历史现象远比简单假说要复杂，另一方面说明高利贷的成因之一是民间借贷背后包含了不小的生命风险，这些高生命风险迫使借贷利率必须高，否则没有人愿意把钱放贷出去，这符合我们今天熟悉的市场逻辑。如果忽视契约执行时可能的暴力冲突所要求的风险溢价，人们可能难以完整解释民间借贷的高额利率。
在本节结束之前，我们用一篇经典著作说明为什么量化史学不只是简单的用数据说话。还是回到欧洲何以崛起的话题，Acemoglu、Johnson、Robinson于2005年发表的《欧洲的崛起：大西洋贸易、制度变迁与经济增长》（Acemoglu、Johnson、Robinson，2005），在经济学界和史学界产生了轰动，也大大强化了笔者对经济史话题的兴趣。关于欧洲的崛起或说西方的兴起，有许多不同学说，韦伯将其归结于新教改革，诺斯和托马斯在《西方世界的兴起：新经济史》将其归结于16世纪之前就已经在西欧开始的产权制度发展，Mokyr将其归结到西方学术自由和学术共同体的出现与深化发展（Mokyr，2016），等等。单纯从相关性指标看，这些因素的变迁在时间上大致都与西方的崛起相重叠，高度相符。那么，到底哪个学说更站得住脚呢？
Acemoglu、Johnson、Robinson从大西洋贸易的角度提出新的假说并对其进行系统量化验证。首先，他们发现并不是所有欧洲国家和城市都在同时同步崛起，欧洲从1500年到1850年的兴起主要是因大西洋贸易国家（英国、荷兰、法国、葡萄牙、西班牙）而起，跟没有参与大西洋贸易的欧洲国家或地区关系不大。以城市化率为发展的衡量指标，那么，1300年时，大西洋贸易国的城市化率为8%，低于其它西欧国家的10%平均城市化率），到1500年为10.1%（也低于其它西欧的11.4%平均水平），但到1850年升到24.5%（远高于其它西欧的17%平均值）。如果以人均GDP衡量，对比基本一样：从1500到1820年间，大西洋贸易国人均GDP翻了两倍，而西欧其它国家则只累计增长30%！这些数据说明，在16世纪后期大西洋贸易开启之前（以与美洲、亚洲和非洲的贸易为主），大西洋国家并不领先于欧洲其它国家，但之后却大为不同，出现腾飞。所以，16世纪之后的增长特点显然不同于之前，跟诺斯和托马斯讲的“16世纪之后的增长只是延续了之前的增长结构”相矛盾。
第二，同一时期，大西洋海港城市的增长远高于欧洲内陆城市的增长，而地中海海港城市的增长跟欧洲内陆城市并无明显区别。
当然，仅仅上面这些结果还不能完全告诉我们这种大分流背后的形成机制。尤其是他们注意到，O’Brien 等历史学者估算到来自大西洋贸易的利润实在太小，即使把黑奴以及从美洲运回的金银财宝包括其中，总的利润也太小，其本身远远不足以给欧洲带来大幅经济增长（O’Brien，1982）。鉴于这一点，Acemoglu、Johnson、Robinson提出新的学说，认为大西洋贸易带来的直接利润只是一个方面，对长久发展更为重要的是这些利润培植了一批新富商人群体，这些新富会推动制约王权、保护私有产权的制度变革，使进一步的经济增长有了更好的制度保障，有恒产才有恒心！
那么，大西洋贸易模式以及16世纪之前各国的制度就很重要。这三位作者接着把英国、荷兰跟西班牙、葡萄牙、法国进行对比。西班牙、葡萄牙从15世纪末一开始海洋贸易探险，就是完全由王室垄断，只有王室和利益相关者才能参与大西洋贸易，利润由他们独享，难以培植新的商人群体，也就不容易产生限制王权、保护私有产权体系的变革。相比之下，在16世纪之前，英国、荷兰的王权就不是那么绝对，其议会对王权多少有些制约，王权不能轻易侵犯私有产权或禁止私人参与大西洋贸易，这样，在英国、荷兰，大西洋贸易更能培植王室圈子之外的新富商人群体，由他们自发产生限制王权、保护私有产权的压力，促成体制变革。
为了验证这一假说，三位作者把各欧洲国家在1500、1600、1700和1800年的制度进行量化打分，一国制度中每增加一项对王室权力的限制（比如，只有议会通过才能加税，大西洋贸易权由议会而不是国王控制）就加一分。结果，他们发现，一方面，参与大西洋贸易的国家在16世纪后对王权的限制显著增多，而且越往后增加越多，另一方面，在考虑到新教和天主教国家的差别后，大西洋贸易继续是非常显著的影响。也就是说，新教和大西洋贸易都对16世纪后的西欧产生显著影响，但彼此又不相同。
从Van Zanden、Buringh、Bosker的研究中也能看到新教的影响（Van Zanden、Buringh、Bosker，2012），图3摘自其研究，其中展示了南欧、西北欧和东欧各国议会在不同时期发挥的作用。图中活动指数越高，表明对王权的限制越多。可以看到，西班牙、葡萄牙、意大利、法国等南欧诸国的议会在15世纪后作用越来越小。大西洋贸易反而使西班牙、葡萄牙、法国变得更加集权，意大利则没有直接参与大西洋贸易。英国、荷兰的经历则和南欧各国恰好相反。

图3 12到18世纪欧洲议会活动指数

（以议会每年开会的次数、议案数量为准）

Acemoglu、Johnson、Robinson 进一步通过加入“16世纪之前对王权的限制指数”跟“大西洋贸易量”交互项的回归证明：欧洲崛起的主要驱动力是大西洋贸易和16世纪之前的制度条件。欧洲崛起的主力是那些16世纪初就不那么集权的、濒临大西洋并参与大西洋贸易的海洋国家。其中原因在于这些国家通过参与大西洋贸易培植了一大批新富商人，他们推动建立了有利于长期发展的产权保护制度，加强了对王权的制约。相比之下，新教改革发挥了一些作用（韦伯学说），但不如贸易与初始制度条件的交互作用那么显著。另外，他们的结果否定了历史学家Kennedy等的学说（Kennedy，1987），他们认为战争迫使国家要变得强大，以增加竞争力。可是，当把一国近年战争频率放进历史回归分析中时，这个解释变量的系数是负值但不显著。
因此，量化历史方法不仅仅是“用数据说话”，而是提供一个系统研究手段，让我们能同时把多个假说放在同一个统计回归分析里，看哪个解释变量、哪个假说最后能胜出。相比之下，如果只是基于定性讨论，这些不同假说可能听起来都有道理，无法否定哪一个，使历史认知难以进步。
五、量化史学带来新认知
有一个流行的说法，“量化历史研究只能对已有的假说做认证，但出不了新东西”，从前述Acemoglu、Johnson、Robinson的研究中，我们已经看到这类质疑站不住脚。笔者用自己近几年的一些合作研究说明这一点。
在学界甚至社会中，对中华文明的悠久历史论著很多，也有大量中西文化对比的论著，但是这些论著基本停留在对中西文化经典的对比、定性讨论上，没有落实到具体的量化指标上。各文明的经典之所以为经典，是因为它们汇集了人类真善美的理想愿景，反应了各版本的“仁义理智信”，所以，如果只是停留在基于价值观的定性判断上，的确难以有令人信服的比较结论。于是，就有了文化多元论的说法，“不同文化各有各的好”。但是，一个文化体系的优劣、一个社会文明还是不文明，最好是依据量化业绩指标来评估。而在这一方面，经济史文献做的比较多，从斯密到马克思、韦伯、诺斯、以及包括Acemoglu、Johnson、Robinson在内的新一批经济史与社会史学者，都以经济表现尤其以生产率的量化指标对文化体系做评估比较，于是，哪个文明体系下的人均收入、城市化水平最高或增长最快，那么，那个文明体系就最优。
可是，除了物质收入、货币化收入之外，人类关注的还有“安全感”、“幸福感”这些未必跟物质收入100%相关的发展维度。比如，社会是充满野蛮暴力、缺乏安全感，还是平和、安定？这些维度可以落实到文明化的具体数据指标上，比如每年每十万人口中有多少死于凶杀等暴力，一个“更文明”的社会应该是命案率更低的社会，“文明化”应该是一个命案率、暴力率不断降低的历程，而文字上“文明了”并非等于事实上的文明化。关于暴力史的研究，到目前基本都集中于欧洲社会，比如Gurr、Eisner、Elias等等（Gurr，1981；Elias，2000；Eisner，2003），他们发现，自1200年以来，欧洲社会的命案率大约下降了60到100倍，文明化进程显而易见，普通欧洲人的安全感显著提升！
但是，关于中国的普通暴力史、命案率史，就我们所知，这还是一个空白，没有系统的研究。基于此，陈志武、彭凯翔和朱礼军做了尝试（Chen、Peng、Zhu，2016），利用清代命案要案档案中的黄册统计和题本数据等资料，建立并研究了1661—1898年间清代的命案率历史。他们发现，从康熙朝到嘉庆朝末年,中国命案率（不包括战争死亡）一直呈上升趋势，1820年后开始下降。可是，即使在普通人命案率达到高峰的1820年左右，每年十万人中只有1.6个死于一般暴力，而西欧同时期每年每十万人有4到8个死于一般暴力。也就是说，虽然欧洲自中世纪中期开始命案率一直在下降、文明化进程在进行，但是，到17至19世纪，其暴力死亡率还是远高于同期的清朝中国，到19世纪末才接近中国。在这个意义上定义的“文明化”程度，西欧社会落后于中国，后者比欧洲社会更显得“温情脉脉”。
虽然在比较中国和西欧普通人、普通社会的命案率时有以上发现，但是，在更高制度建设层面，结论又大为不同。陈志武和林展对中国自秦朝以来658位皇帝是如何死的进行了系统研究（陈志武、林展，2016），发现38%左右的皇帝死于非命，其中71%是死于亲戚或宫廷大臣之手。历代皇帝的平均统治时间为12.5年。在中国朝代历史中，每年皇帝死于非命的概率大约是十万之三千一百左右，比普通人死于非命的概率高一千多倍。按照剑桥大学对现代战场的定义，每年死亡概率超过十万分之五百的地方就是“战场”（battlefield），那么，中国历代皇宫里死于非命的概率是现代战场标准的六倍！
根据Eisner对600至1800年间欧洲1513个国王的死亡经历研究（Eisner，2011），22%的欧洲国王死于非命，是中国皇帝死于非命比例的一半多一点；每年国王死于非命的概率大约为十万分之一千，是中国历朝皇帝面对的暴力死亡率的三分之一。比较积极的一面是，中国和欧洲的君主所面对的暴力死亡率，从一千多年前开始都在逐步下降，说明中西制度文明都在进步。
同样有意思的是，当陈志武和林展把900至1500年间中国、伊斯兰国家和西欧国家的君主平均统治时间做比较（以一百年内的平均统治时间为准），那么，他们发现，西方国王的平均统治时间在900年时大约为15年，之后一直稳步上升，到1500年左右达到23年；而伊斯兰国家的君主平均统治时间，在此期间则从当初的18年一直下降，到1500年时降到11年左右（Blaydes、Chaney，2013）；相对而言，中国皇帝平均统治时间既不像西欧国王那样一直稳步上升，也不像伊斯兰君主那样一直稳步下降，而是从隋唐以来，一直在上下波动，没有达到一个稳定均衡状态。
按照Blaydes、Chaney所论述的，君主死于非命的概率、君主平均统治时间反映了一个国家的上层制度建设的状态。权力制衡、权力交接的制度架构越完善，君主权力越小，那么，君主死于非命的概率会越低（因为在那种情况下，杀死皇帝带来的好处越少，而代价可能越高），其执政时间也会越长，政局越稳定。在这个意义上，陈志武、林展的研究表明，在上层制度建设方面，西方很早走上改良的发展轨道，而中国皇权体制却一直在摇摆中停止不前。
这些量化研究结果表明，或许由于在儒家文化之下，祭拜祖先带来的好处是普通乡村里“谁是权威”完全由三纲五常名分等级秩序决定，没有含糊性，这使得乡村社会秩序很是稳定，暴力、命案率就不会太高，并且可能很早就低于同期欧洲的普通暴力水平，这是中华文明好的一面。但是，在国家治理层面，儒家建立的“真命天子”的权威并非不可以挑战，使君主的权威性很模糊、充满不确定性，所以，君主的生命安全和统治时间远不如同期的西欧。
从这些量化研究看，西方和中国的文明化历程很不同。儒家文化早于欧洲解决了社会底层的治理秩序问题，基于中华文明的命案率低于同期欧洲，这个局面一直维持到19世纪末、20世纪初，但儒家没有解决好国家治理问题，在君主传承等制度文化建设方面，欧洲更早地发展起来，使权力的分享与交接秩序更早地文明化，致使西欧君主的暴力死亡率很早就远低于中国皇帝。制度文明秩序降低了君主面对的凶恶风险。由此，我们看到，量化历史研究不只是帮助证明、证伪历史学者过去提出的假说，而且也会带来对历史的全新认识，引出新的研究话题与视角。
六、结束语
未来十年、二十年会是国内量化历史研究的黄金期。原因在于两方面，一是对量化方法的了解、接受和应用会越来越多，特别是许多年轻学者会加入这个行列。二是中国史料很多，但绝大多数史料以前没有被数据库化。随着更多历史数据库的建立并且可以低成本地获得这些数据库，许多相对容易做的量化史学研究一下子就变得可行，所以，从这个意义讲，越早进入这个领域，就越容易出一些很有新意的成果，也越容易发表，十几、二十年后情况就会不同。
公认、统一的历史数据库对量化历史研究来说非常关键，是基础建设工作。就以金融经济学为例，1960年由芝加哥大学建立的“CRSP证券价格数据库”（Center for Research in Security Prices）对之后世界金融学术研究起到了革命性的贡献，1960年代是金融学研究正式开始从经济学剥离出来的起点，而如果没有CRSP证券数据库，实证金融学的突飞猛进可能要大打折扣！原因在于，有了公认、统一并且学者都很熟悉的数据库之后，各路学者就不用花时间去争论数据来源是否可靠了，而是把精力和争论都集中在所研究的问题上。金融学的经历对量化史学有很高的借鉴价值。
没有充分、完整、公认可信的史料（包括能量化和不能量化的史料），研究当然无法做。所以，过去十几年我们团队一直致力于建立基础数据库，希望更多同仁也能共同努力，挖掘出更多历史数据库资源。这也需要各家历史档案馆、博物馆、文物馆给予帮助，如果他们把更多史料开放并电子化，那会是对历史研究、对中国社会功德无量的事情。特别是对于年轻学者而言，由于他们经费和时间都有限，更多历史档案的电子化以及成本壁垒的降低都是非常关键的，这些会决定国内学术事业是否能顺利发展。在这些方面，技术条件都已经成熟，只是历史档案是否能开放、是否有经费的问题。
量化历史研究的发展也需要各家学术期刊的支持，需要他们开放更多空间让这类论文发表，激励更多学者热情加入。同时，这也对历史系教学课程提出新的要求，就是历史学生都应该学习数理统计课，而不是像现在很少或没机会跟统计学沾边，这个局面要改变。
最后，我们也应该看到，虽然量化史学强调使用现代社会科学尤其经济学的分析范式、重视大样本与统计方法，但是，量化历史研究不只是找到一组历史数据并对其进行回归分析，然后就完成研究了，而是也要认真考究史料、摸清史料的历史背景与社会制度环境。只有这样才能更贴切把握所研究的因果关系链条和传导机制，增加研究成果的价值。

标签:清史研究耶鲁大学量化历史陈志武香港大学

陈志武：量化历史研究的过去与未来

发表回复 取消回复

发表回复取消回复