首页 > 名家鸿论 > 用数据分析的方法来研究历史
2016
08-27

用数据分析的方法来研究历史

2016-07-24 计量经济学服务中心

用数据分析的方法来研究历史 - 海交史 - 1

点击上面蓝色字【计量经济学服务中心】置顶我们,记得先关注哦

↓ ↓

量化历史是什么?

   量化历史是一系列利用数据分析的方法来研究历史的技艺的总称。有时候,经济史学家也把量化历史称作cliometrics。二十世纪五十年代到六十年代,研究社会史、政治史和经济史的学者呼唤“社科历史学”的新发展,这个名称也得到了广泛的关注。所谓“社科历史学”,即是在研究历史问题时使用社会科学中使用的方法。这些学者同时呼唤社会科学的研究者们谨慎地处理关于当下的问题,注意这些问题的历史背景和源起。无论是对于历史的还是当下的问题,这些学者的共识是,有必要使用新的方法和资料来进行研究。量化历史的研究在他们的努力下取得很多进步。

   经典的史学研究依赖于对于文本资料、档案的研究,把历史用叙事的方法加以呈现。历史学家关心特定的现象或是事件,这些可能是王朝、帝国的兴衰,也可能是个人生活的点滴。量化历史研究的目的和经典史学十分相似,但是会把许多事件和现象提炼而来的历史的模型(pattern)作为研究对象。这样一个出发点使得研究分析中所处理的问题大大不同。举例来说,经典的历史分析会把一次总统选举当成是一次事件,但是量化历史学家却把每一次总统选举都看成是所有总统选举所组成的数据集合中的一个元素,他们的研究兴趣在于找出一些规律来总结这个集合,或者是这个集合中的某个元素。一个家庭的生活史可以被看作是一个国家、一个地区、一个社会阶层,或是一个民族的生活史的一个元素。在过去那些被记录下来的文档里,每一个个案都是微不足道的,但是把个案整合、组织起来放入一个电子化的数据库中时,研究者就可以加以分析,得出数据上显著的结果。因此,人口统计、投票信息、关键档案(例如出生、死亡、婚姻)、或是商业契约、货物运输档案、奴隶贸易的卷宗,甚至是犯罪记录,这些都有助于历史学家找寻过去的社会、政治和经济活动的规律,找出历史的深层结构。

   对于历史学家而言,量化历史研究需要一系列新的技艺。其中最重要的莫过于在他们的研究中整合入数据的集合或是矩阵。Floud把一个数据集定义为“历史学家所能掌握的全部史料数据中,与研究问题相关性最强的一个数据集合”。一种现象的无数个实例——比如说,所有的美国总统选举——组成了数据集的案例。围绕这些案例收集的信息碎片——比如候选人选票竞选、选举年份、投票总数——就成为该数据集的变量,亦即是其中任何一个具体案例的变量。历史学家将数据置于表格中,排布在行与列的矩阵里,行通常代表案例,列通常代表变量。因此,创建一个量化数据集要求历史学家谨慎地编码,将待考察对象的信息收集整理,把数据呈现在表格形式中。史学家们应当准备好把统计分析技术应用在数据集上,以解决研究中遇到的问题。

   简言之,要有效利用量化材料和统计学技术来做史学分析,学者们需要综合掌握快速发展的社会科学技巧,包括样本的选择、统计数据分析、从数据到其背后史料的深入挖掘。由这项工作产生了史学界量化方法的新型训练,学术期刊和教科书的全新创作,以及支撑此类研究的数据库的诞生。

早期的努力

   早在二十世纪五十年代,史学家们就已经开始使用量化材料,特别是在经济史和社会史领域。法国的年鉴学派在二战前期就已为我们指明了道路。美国的快速增长及扩张也促使美国的历史学者们使用量化材料来进行美国经济、人口和大众民主的研究。比如,Frederick Jackson Turner于1893年发表的经典论文《边疆在美国历史上的意义》(The Significance of the Frontier in American History)就很大程度上依赖于1890年人口普查数据和对它的解读。

用数据分析的方法来研究历史 - 海交史 - 2

用数据分析的方法来研究历史 - 海交史 - 3

   但我们现在所说的“数据分析”的真正实现,还需要经历二十世纪上半叶社会科学和统计科学的长足发展、五十年代计算机器和数值记录在大学中的流行、六十年代计算机雏形的出现。一个典型的例子是五十年代末六十年代初开展的一项研究,这项研究被后来者当作榜样和经典。1959年,Merle Curti及其同事在威斯康星大学出版了《美国社会的塑造:基于一个边疆小镇的人口调查》(The Making of an American Community: A Case Study of Democracy in a Frontier County),深入十九世纪中期威斯康星州Trempeleau县的历史,重新审视了Turner的论文。他们查阅了当时的报纸、日记、私人信件和县志,同时,他们从1850年至1880年间的联邦人口调查记录中推导出的雇佣模式,并用它来分析手头的史料。

   与此类似,二十世纪五十年代的新兴经济史学家们也在一些经济史的核心问题上对传统范式提出了挑战。其中一个争论的焦点是美国内战是否“有必要”。当时有一批史学家认为鉴于奴隶制利润率很低,它自身是会逐渐瓦解的,因此内战就显得“没有必要”。然而,经济史学家们运用经济理论和数据分析了美国南方的农业产量,认为如果一直使用奴隶,南方农业到二十世纪就会扭亏为盈。传统观点认为铁路系统在美国工业发展中占据中心地位,Fogel采用经济学理论和反事实推论法,通过严谨的数据分析论证到运河也可以作为成功的交通系统来支撑十九世纪美国的工业发展。

   “新政治史家”诸如Lee Benson、Allan Bogue、Richard P. McCormick以及其他对历史感兴趣的政治学家诸如Warren Miller和Walter Dean Burnham将政治学家分析现行选举结果和选民调查的新兴技术用于历史问题,为美国政治史研究引入了全新的视角。他们设定党派制度的变量参数,发展关键选举理论,提出选举政治的潜在结构可以借由分析投票率和选举结果的历史数据得到预测。在1964年的英格兰,一批人口统计学家和历史学者建立了剑桥人口与社会结构研究小组(the Cambridge Group for the History of Population and Social Structure),开始了一项长达四十年的回溯性研究计划,收集并整理不列颠400年的家族史。

   量化历史开启的全新可能性适应了历史学自身学科建设中的其他趋势,尤其是社会史的增长和Jesse Lemisch所说的“自下而上的历史革命”——亦即是说,关注普通人平凡生活的历史研究,用以管窥当时一般生活的面貌,补充那些对于重要人物和事件的叙述。出于对研究技术发展的关注,美国历史学会(the American Historical Association)在二十世纪六十年代中期意识到了“历史中的量化”会促使新型分析技术和新型研究机构的诞生,于是为此专门设立了“定量资料协会”(Quantitative Data Committee)。在1965年的密歇根大学、1967年的康纳尔大学、1973年的哈佛大学先后开设暑期讲习班,为历史学者们讲解量化方法。1968年起,密歇根大学的国际政治科学研究联盟开始在其“定量方法培训班”中提供一门量化历史分析课程,为期四周。这门课程每年夏天都有,一直持续到现在。从1971年到1982年,Richard Jensen在芝加哥的纽伯瑞图书馆(the Newberry Library in Chicago)牵头为历史学者们提供了定量方法的夏季培训计划。到了八十年代早期,全美40%的历史系在研究生培养计划中加入量化历史的相关训练。

   量化历史在体系上的基础建设也可以追溯到二十世纪六十年代。新的期刊、教科书、编纂文集也为量化历史的成长提供过助力。《Historical Methods Newsletter》于1967年开始发行,并于1978年更名为《Historical Methods》;《Journal of Interdisciplinary History》首刊于1970年。美国社会科学史学会(The Social  Science History Association)成立于1974年,第一本会刊《Social Science History》出版于1976年。这个学会后来成为一片园地,在这里聚集了大量的主动借鉴社会学科理论及研究方法的历史学者,和许多从事史料工作的社会科学家。跨学科的交锋持续不断,滋养了身受社会科学训练的研究者,来自经济学、人口学、社会学、人类学、地理学、政治科学等领域的学者们陆续在量化历史领域中发表出许多有创见的作品。

   有关量化历史的教科书出现在七十年代早期,其中许多佳作一直再版到如今。无数人编辑书卷,向专家和学生们介绍这一新领域、新方法。后来有了研究者们创建的数据库。在美国,政治学家们最初于1962年创建了校际政治研究联盟(the  Interuniversity Consortium for Political Research),1975年更名为校际社会科学研究联盟(the Inter-university Consortium for Political and Social Research),该联盟是制作和保存历史数据辑录方面的开拓者。七十年代初,美国国家档案和记录管理局针对联邦政府手中初始状态即为电子数据的部分发起了一个电子记录保存计划。英国数据档案中心在1967年也在英国发起了类似的项目。

   如此到了八十年代,史学家们将量化历史与更宏观的历史研究相融合的制度性、结构性努力已经基本完成。这一基础性建设催生了后续的研究作品,也遭到这些作品的挑战。在很多方面,量化历史都是一项仍在进行中的工程。尽管如此,我们可以定位出量化历史研究已经和将要面临的问题:已经挖掘出的数据集有哪些主要类型、数据集的主要特征是什么、该领域内最常用的研究方法又是哪些。

创建历史数据集中的问题和困难

   量化历史在处理宏大问题、长时段变化规律等方面有独到之处。研究者们收集大量数据和可量化的资料,将它们编入图表矩阵用以进行数据分析。第一代研究者关注家族和社会结构、经济增长和变化趋势、选举中的行为和选民参与、代际间社会流动和生活水平变化的历史。晚近一些的研究有了明显的扩散:犯罪史学家们检索法庭与报纸记录,以此得出过去时代犯罪与暴力的长期发展模式;家族史的研究者观察继承与代际财富迁移的规律。新兴的“人体测量史”(‘anthropometric’ history)打开的局面更为广阔——用过去人的身高、体重、身材和疾病来研究人们的生活与福利水平,尝试去估量和比较许多个世纪乃至千年的生活水平。

   这些研究得以可能,取决于量化历史的数据集在不断增长。同其他社会科学类似,量化历史研究需要“可以机械增加的”(也就是大家所谓的“电子的”)数据用于分析。虽然也有个别例子是组织人工来完成大规模的数据分析,比如十九世纪的人口动态登记即人口普查,但现代意义上的社会科学数据需要的是机械制表装置、记数分类器等其他机械计算器。第一个代表就是Herman Hollerith发明的打孔制表机,帮助美国完成了1890年的人口普查,社会科学和统计科学亦从中受益。到了四十年代,社会科学家们已经为服务于机器制表和分析的数据收集工作制定出标准化流程。约定俗成的惯例包括固定格式的数据矩阵、按照名称、顺序、区间、比率来分类的变量、经过设计的问卷、适于打孔计数分析的调查表、像Likert scale一样的编码系统等等。量化历史学家承袭了这些技巧,将流程引入历史研究领域。他们旋即发现,要充分挖掘量化历史的潜力,首先需要克服一些方法上和操作上的困难。

   他们遇到的第一个问题是,历史研究必须依赖于已存在的资料,依赖于前人的记录与保存。而在1890年之前,人类历史的绝大多数资料,都不适合用机器分析。有价值的史料通常是文本性的,需要整理、编译,转化为可机读的或电子的表格。即使是二十世纪收集的,在社会科学惯例发展起来之后记录下的数据,也常会出现机读资料未得到保存的情况。比如美国人口普查办公室(the United States Census Bureau)保存了十八世纪以来历次人口普查的原始问卷,但1890至1960年间数据制表用的打孔卡片却没有留下。这些卡片在普查结果发布之后就被销毁了。想要分析人口普查中的微观数据的历史学家们,就不得不制作(或者说再次制作)适于机器分析的资料。

   进行量化研究的历史学者们还需要处理数据化分析面临的史料困难。所有研究历史的人都会遇到数据缺失或者资料封存、破损、不完整、被毁坏等问题。对于想要把档案记录制作成数据矩阵,用于统计分析的量化历史工作者们,数据的质量尤其重要。数据矩阵要求案例和变量具备概念化、操作性定义、可以为其中某个特定项赋值,统计分析的目标就是估量数据的规模、核心趋势和每个具体特征的离散程度。如果某一年或者某些年的记录丢失了怎么办?如果某个公司的财报记录是不得查阅的怎么办?如何确定某个郡的档案馆中保存的遗嘱记录是不是完整的?研究者们想要建立数据集,就必须达到基本的案例描述、变量定义、分类、编码的要求。针对这些问题,整个量化历史研究领域涌现出许多解决方案,《Historical Methods》这本期刊就是一个提出方案、讨论方案的很好的平台。

   另一个相关的问题是,创建数据集需要把文本资料中的信息提炼出来。历史档案经常以文字记载的方式保存,其中包含着提炼出数据集的可能性,但需要大量的工作将资料概念化以用于数据操作。史学研究者们利用起过去的发票、遗嘱、教堂记录、社会福利组织的案卷等等,从现存文献中挖掘他们需要的案例和变量。

   历史学家们致力于解决这些操作问题,拣选资料、创设编码,建立数据集。不论是分析已有的数据——比如一国在某些年份的进出口单据,还是根据现存文献制作表格,他们都需要定义分析的单位、找出变量的特点,用一定的编码系统将数据集中的信息合理组织起来。接下来几个案例会很好地说明量化历史学家们的工作。(以下具体案例略)

对于量化历史的批评

   对于量化历史的批评声音一直不绝于耳,有些是质疑某些研究者的作品,有些则直接质疑量化历史整个研究领域的意义。在60年代早期,Carl Bridenbaugh在他向美国历史学家协会致辞时,曾经直接指责量化历史这一研究方法,声称这是“堕落的女神”(bitch goddess)。在60年代和70年代,量化方法快速发展之际,“传统”的历史学家总是质疑新方法,认为该项研究不是内容繁复,就是结论经不起推敲,或者根本无关宏旨。批评量化历史的学者尤其反感量化历史学所谓“科学”的种种说法,无法接受量化历史学者对于传统史学研究理论和概念上的挑战。

   80年代,有些量化历史学的先行者放弃了他们先前的热情,声称量化方法并没有实现他们的研究目标。在这些人中最重要的是Lee Benson和Lawrence Stone,他们都曾对量化方法充满热情,但后来又改变了自己的看法。质疑量化历史的人们更加确信他们的批评是正确的,尤其是当时还处在后现代主义等影响之下,历史研究出现了“文化转向”。尽管在理论争论中处于下风,量化历史的信徒们仍继续坚持,从研究时尚的舞台上跌落下来,反而使得坚守这一领域的人们做出了更加扎实的工作。

   经过二十多年的争论,传统和量化两方没有谁真正“赢得”了这场辩论。到了九十年代,争论的热度下降,双方进入了一种有些紧张的对峙状态。双方都承认对手的一些具体观点,但是在该领域的工作是否有价值的问题上,依然存在着根本性分歧。在教学和研究领域,量化方法没能够成为历史学专业研究生的必修课程之一,这和社会科学领域的情况是截然不同的。另一方面,量化似乎成了一种“专业特长”,就像是在阅读历史资料时需要掌握的另外一种语言,在许多研究生的专业课中可供选择。总之,量化并没有作为一种所有历史学研究者都必须掌握的方法论被学院接受。九十年代形成的这样一种对于量化方法的定位,也进一步影响了量化历史学家后来的工作。

   历史,作为一个研究领域,保持了自身作为“人文学科”的基础定位,因此和社会科学家的工作更加相似的量化历史研究,似乎成为了一种对历史的背叛。由于在技能训练这一环节的缺失,当量化历史学者的作品呈现给他们历史学界的同行时,他们无法期待这些专业读者能够欣赏,甚至是完全理解他们工作中技术方法的精妙之处,这和社会科学的情况是截然不同的。历史学家,作为一种职业,依然坚持历史写作必须可读、优雅。因此,当量化历史学家为更大的受众而写作时,他们必须避免那些专业名词——举例来说,他们必须尽量避免列举其模型中的各种变量的名称——同时必须保证他们清晰地解释自己的观点。

   对于量化历史的批评提醒了这一领域的研究者去注意统计学方法在研究历史进程中的局限性。研究历史进程的许多统计新方法都在不断发展中,尚未成熟,需要更多的实证性工作来验证这些方法的可靠性。只有更多的实证研究的支持,这些新的统计方法才能在非量化的历史学家,还有其他社会科学家面前具备更强说服力。仅有如此,更多的人才能意识到把统计学方法作为一种基本研究理路的必要性。我们将进一步说明,许多迹象都表明,这个领域仍有很大的潜力,曙光才刚刚开始展现。

量化研究的未来

   量化历史研究自身的进步和目前的信息革命使我们有理由期待这一领域的未来。同之前很多年的情况相比,我们好像处在一个最有希望的时间点上。回望过去半个世纪以来量化历史领域的发展,总体而言,研究在不断进步,尽管并不总是一帆风顺。最令人期待的发展是信息革命对于历史学研究的影响。最初,当量化历史这个领域刚开始迅速发展时,大部分的传统历史学家都和他们十九世纪的前辈们一样,用钢笔、铅笔、打字机和索引卡帮助他们写作。文献研究有赖于图书馆的大量目录卡片,或是阅读大量已经编目的文章、书籍和合集。“数据管理”指的是设定一个纸质的编目系统,而不是建立一个电子化的表格或是数据库。秘书们用打印机把书稿重新录入,尽管在七十年代有些大型的研究机构购置了排版设备,这些机器都是给普通雇员,而不是给教师和学生使用的。八十年代以来,这种情况已经大大改变了。台式电脑迅速普及,对于大多数的历史学家而言,文字处理软件把他们带入了电子化的未来。到了九十年代,电子邮件取代了以往的手写信件。1995年之后,互联网上的信息大量涌现,起初是二手资料的查找和检索,后来是一手资料的相互利用,都可以通过电子化的方式来完成。总而言之,非量化历史研究者的整体科技环境和他们做量化的同伴越来越接近了。最新技术的进一步发展使得多媒体资料——视觉的和口述的、视频和音频——能够被每一个历史学家所利用。最容易看出这些技术手段影响的领域是历史地理学的快速发展:历史地理信息系统(historical GIS)一直以来是非常昂贵的系统,把历史地图加入一个地区的地图系统的工作一直进展缓慢。从六十年代到七十年代的一系列数字化工程为这个系统奠定了基础,包括先把地图转换成数据,再发展新的理论和计算机软件对这些数据进行分析和研究。目前,这一项投资巨大的工程才刚刚开始。

   从更广的视角观察,这些技术变化带来了一系列汇聚起来可被称之为“技术驱动”的历史研究。传统的历史学家和人文学者也利用电子化的数据库开展他们的工作,他们学习使用新的计算机程序处理日渐增长的数据,使用新的工具展现他们的研究成果。对于量化历史学者而言,他们必须掌握在纸质文档和印刷品里挖掘数据的技能。总体而言,历史学家们都更在意影像、音频和视频资料,并且不仅仅是作为呈现结果的一种辅助手段,而是分析的核心依据。

   Richard Steckel最近提出了一个叫做“大社科历史”的计划,希望增加量化历史分析的能力,同时促进量化方法在传统史学研究项目中的使用。Andrew Abbott也认为这样的工作是可行的。就像第一代的量化历史学者一样,做到这些事情需要协同的努力:我们需要懂得如何用技术手段管理快速扩张的大数据,发展新的技术处理和分析这些纷繁的历史档案,最后,发展出合适的理论框架和方法以呈现研究的结果。

用数据分析的方法来研究历史 - 海交史 - 4

【注】撰文:Margo Anderson  翻译:方曌 王凡帆。本文节选翻译自Margo Anderson, “Quantitative History,” The Sage Handbook of Social Science Methodology, edited by William Outhwaite and Stephen Turner (London: Sage Publications, 2007), 246-63.

热门图文TOP5

1、量化历史研究告诉我们什么?人类历史中其实只发生了一件事?

2、计量经济学模型对数据的依赖性

3、颐和园经济计量学讲习班:中国计量经济学家的扫盲班

4、我国数量经济学发展昨天、今天和明天

5、林黛玉论计量经济学,我是林妹妹,我为自己带盐

用数据分析的方法来研究历史 - 海交史 - 5

如果您对我们的内容感兴趣,请关注公众号“计量经济学服务中心”,或扫描下方二维码

用数据分析的方法来研究历史 - 海交史 - 6

学术问题,快到碗里来

论文指导、软件操作、学术技能、数据分析等,一起见证学术力量

学术小组QQ群:219246913(500人大群)

最后编辑:
作者:马光
勿忘初心!

留下一个回复

你的email不会被公开。