王涛 || 大语言模型时代历史书写的路径与局限

由马光（搬运工）
25 3 月, 2025

作者簡介：王濤，南京大學歷史學院教授、博士生導師，數字史學研究中心主任

[提要] 歷史學之所以能夠保持不斷的活力，就在於其開放性。當下社會的發展狀況，對歷史學科帶來的最大衝擊無疑是大語言模型為基礎的人工智能技術的進步，典型的代表就是ChatGPT的橫空出世。作為自然語言處理技術的集大成者，大語言模型會對歷史書寫帶來直接衝擊。大語言模型與歷史書寫具有適配性，為歷史書寫帶來的消極影響也極為顯著。作為專業歷史學家，在自己的工作流程中引入大語言模型仍然需要懷抱謙虛謹慎的態度，既不視其為洪水猛獸，也不能以為它能夠取代史學家的獨立思考。在挑戰與機遇並存的情況下，歷史學將與大語言模型共生共榮。

[關鍵詞] 人工智能 ChatGPT 歷史書寫歷史與記憶

[原文出處] 《澳門理工學報（人文社會科學版）》2023年第4期“總編視角”欄目

The Path and Limitations of Historical Writing in the Era of Large Language Models / Wang Tao

Abstract: The continuous vitality of the discipline of history lies in its openness. The most significant impact on historical studies in today’s society undoubtedly comes from mature artificial intelligence technology based on large language models, with ChatGPT being a prominent representative. As the culmination of natural language processing technology, and large language models directly challenge the practice of historical writing. Their adaptability to historical writing brings about significant negative effects. As professional historians, introducing large language models into our workflow requires a humble and cautious attitude. We should neither underestimate their power, nor believe that they can replace the independent thinking of historians. In the face of both challenges and opportunities, history and large language models will coexist and thrive together.

Keywords: Artificial intelligence; ChatGPT; historical writing; history and memory

Journal of Macao Polytechnic University (Humanities & Social Sciences Edition), Vol. 26, No. 4 (Serial No. 92), 2023, pp. 113-122

Published By: Macao Polytechnic University

歷史學是一門古老的學科，但也是生命力極其頑強的學科。從人類學會交流和記錄信息以來，我們就一直對保存和了解過去有濃厚的興趣。已知最早的歷史著作來自古代美索不達米亞，以年代記、王表（King List）的形態出現，可以追溯到5000多年前。古埃及人通過象形文字記錄過去。古希臘和古羅馬湧現了多產的歷史學家，如希羅多德、修昔底德和塔西佗。古代中國和古代伊斯蘭世界，都有經典的歷史著作傳世。人類社會從司馬遷的時代至今，技術、社會和政治已經發生了天翻地覆的變化，但是歷史書寫的實踐悠遠流長，歷史學始終是一門重要的學科。歷史為我們作為一個物種和文明的發展提供了必要的背景，還塑造着文化、傳統和民族的特性。即使記錄和傳播歷史知識的手段不斷演變，從口口相傳到銘刻、到紙張，再到數字技術，歷史被證明在教育年輕一代了解人性和過去社會的成敗得失方面至關重要。

歷史學之所以能夠保持不斷的活力，就在於歷史學的開放性。歷史學家的實踐能夠主動適應其他領域的範式轉變，吸收來自考古學、人類學、生物學和社會學等領域的知識。歷史學科的核心理所當然要致力於發現和整理事實，並對人類經歷創造有說服力和連貫性的敘述，但是新技術將使歷史學家能夠深入了解以前不為人知的歷史時期。因此，雖然會面臨着來自技術發展的各種挑戰，歷史學家在未來社會仍然將佔據一席之地。就當下社會的發展狀況而言，對歷史學科帶來的最大衝擊無疑是大語言模型（Large Language Model, LLM）為基礎的人工智能技術的進步，典型的代表就是ChatGPT橫空出世。在挑戰與機遇並存的情況下，歷史學將與大語言模型共生共榮。

一、大語言模型與歷史書寫的適配

本文涉及許多數據科學的專業概念，其本質是為了協助人們分析數據。在人工智能領域，專家們創造了機器學習（Machine Learning）的方法，使計算機能夠從數據中發現模式和規律，並利用它們來完成預測、分類和聚類等任務。深度學習（Deep Learning）是機器學習的一種特定方法，通過構建和訓練深層神經網絡來學習和識別數據的模式。人工智能的最終目標是試圖用算法來模擬和實現人類智能，其中語言智能是一個重要指標。在數據科學的範疇中，文獻也被視為一種數據，因此可以使用機器學習來處理人類的自然語言。大語言模型是一種基於深度學習的人工智能模型，通過學習大量文本數據來獲得語言的語義、語法和模式，從而掌握理解和生成自然語言的能力。

當然，大語言模型也有自己的發展軌跡。早在1980年代，就有學者提出了統計語言模型的概念，並在計算機中得到實現。彼時由於受到技術條件的限制，語言模型規模小，功能也很簡陋。1990年代發展出神經語言模型（Neural Language Model），它利用神經網絡提取語言數據中的特徵與規律，學習語言模型中語義的關聯性，用以預測文本中單詞或句子的概率，讓模型能夠根據上下文生成連貫的語言表達。隨着計算資源的提高和數據集規模的增長，語言模型的訓練集和參數得到提升，達到了百萬甚至上億的規模。2010年之後，在GPU運算性能提升和互聯網數據積累的加持下，大語言模型的規模和性能不斷攀升，從最初的數十萬詞量發展到現在的上萬億詞量，參數規模也達到了1,000億的巨量級。這使得大語言模型成為人工智能甚至是整個信息技術發展的最前沿，其典型代表正是OpenAI在2020年發布的GPT-3（Generative Pre-trained Transformer 3），達到了人工智能語言模型最高的性能標準與泛化能力。2023年升級版的GPT-4有了更多參數，更優化的算法，讓內容生產具備了更好的準確度。

大語言模型與歷史書寫之間有着密切的關係。從本質上看，歷史書寫就是歷史學家運用自然語言講故事的活動，正如美國史學家林·亨特（Lynn Hunt）提到的那樣，所有歷史都或多或少以故事的形式組成，利用自然語言構建和敘述歷史事件的連續性和因果性。大語言模型通過學習大量的歷史文本和資料，掌握了歷史事件的背景、細節和相關人物，能夠還原歷史事件的敘述，生成具有歷史風格的文本。大語言模型化身為“歷史故事創建者”的物質前提在於，它擁有千億級的參數規模，獲得了一定程度的思維鏈，能夠對文獻資料進行有效編排，達到了柯林伍德所強調的歷史邏輯的狀態，從而有效完成歷史記錄和重建的任務，而非對人類書寫的簡單模仿。某種意義上說，大語言模型與歷史書寫之間這種天然的親緣性，會對歷史書寫帶來直接衝擊。

從積極的角度看，以大語言模型為代表的人工智能技術，能夠為歷史研究帶來高效率、智能化的體驗。大語言模型可以快速處理海量歷史文本，自動抽取關鍵信息和主題，使歷史學家擺脫繁瑣的史料整理工作，專注於歷史解讀和分析。數字化時代歷史學家面臨的挑戰在於，無法對海量的文獻進行有效閱讀，從歷史記錄的寶藏中迅速提取有效信息。而在機器學習技術的處理下，海量文獻之間的聯繫能夠得到迅速定位，甚至糾正歷史記錄之間存在的衝突。因此，人工智能可以成為歷史學家強大的“文書助理”，致力於生成格式化文本，輕鬆地將大量歷史文本轉化為連貫的敘述，讓歷史書寫的效率大幅提高。大語言模型能夠自動總結和提取歷史文本的關鍵信息，生成歷史事件的時間線、人物關係網、地理區域交互等，這可以輔助歷史研究者快速理解歷史信息。

其次，大語言模型能夠為歷史研究帶來新的可能性。在各種針對性算法的協助下，大語言模型能夠發現不同歷史文本之間的關聯，在傳統的議題中產生新的歷史知識或發現新的研究方向。馬克斯·普朗克科學史研究所的瓦勒里亞尼（Matteo Valleriani）教授，將1472~1650年間出版的359本天文學教材製作成了一個結構化的數據庫，然後利用機器學習對這些近代早期文本中的插圖、文字進行模式識別：基於算法的解讀讓研究人員發現了一個趨勢，當歐洲在宗教改革後沿着不同宗派路線分裂的時候，科學知識卻呈現出凝聚的動向。在新教城市例如維滕貝格（Wittenberg）等地印刷了大量科學書籍，由於改革派學者的工作，這些城市變成了學術創新中心。瓦勒里亞尼指出，宗教改革的歷史是一個得到充分研究的主題，但以人工智能為媒介的視角仍然能讓研究人員看到一些新東西，這是使用傳統研究方法很難獲取的內容。由此可見，人工智能有利於歷史學家更全面深入地理解歷史，開拓新的研究視角。大語言模型基於統計學的算法，能夠轉化為不落窠臼的聯想能力，彌補人類學者的思維定勢，成為歷史學家的“知識發現伙伴”。

更加有趣的是，大語言模型可以自動生成真實且詳盡的歷史故事和描述，還能通過圖像識別和聲音分析等技術，搭建虛擬歷史空間，或重現歷史事件，使人沉浸在歷史場景中，獲得更豐富的歷史體驗。卡爾頓學院（Carleton College）的研究團隊試圖基於空間分析對社會貧困問題展開討論，但是用傳統方式來進行相關研究存在障礙，因為很多18世紀的建築已經殘缺不全。於是，研究者將虛擬仿真技術介入重要的社會史議題，基於照片、建築設計藍圖復原了歷史建築的空間。在數字重建技術的協助下，研究者認為，虛擬模型和傳統的檔案研究可以共同塑造一種新的方法來研究舊濟貧法的歷史。這種沉浸式體驗有助於人們建立起對歷史的直觀認知和情感體會，兌現“同情之理解”的呼籲。

最後，如果歷史研究依然要將對真實性的追求作為終極目標之一的話，人工智能技術無疑能夠為這個“高貴的夢”提供助力。2021年以來，國內幾位學者圍繞數字史學的限度展開過深入討論。有學者強調歷史研究中“人性”的價值，有學者從“求是”的角度，提出了數字工具在方法論上的有效性。正是看到了數字工具在歷史研究領域無限的可能性，有學者提出需要充分利用數字人文的“數智證據”功能，建構“多重證據參照系統”來服務於歷史研究。在作為工具的大語言模型的協助下，歷史學家能夠利用人工智能技術自動分析和比較大量歷史文本，發現不同來源之間的差異、矛盾與補充，這有助於歷史學家評估不同歷史來源的可信度，還原更加真實的歷史事實。所以，歷史的真相雖然會被各種因素裹挾，但是在善於利用技術工具的前提下，歷史學家仍然有機會撥開迷霧，發現真相。美國歷史學家亨特曾經提到，在托馬斯·傑斐遜與女奴是否有過孩子的懸案中，學者最終借助DNA技術一錘定音。歷史研究極為倚重的文獻材料，往往會由於年代久遠出現殘缺，或者用死文字書寫，識讀起來有很高的難度，現在也能夠借助機器學習技術，幫助研究者更好研讀材料。最典型的例子就是谷歌人工智能實驗室的科學家與牛津大學歷史學家合作，利用人工智能技術發現古代銘文中大量的隱藏模式，識讀出殘缺的希臘銘文，讓歷史學家獲得了高質量的歷史文獻。陝西師範大學的團隊，也用深度學習算法對西夏文進行數字化整理，達到了很好的效果。

隨着人工智能的機器學習算法和技術不斷發展，其在歷史事件的自動化處理和推理方面的能力將逐漸增強；同時，我們依靠大規模的歷史數據和文獻的基礎設施，人工智能從史料中尋找規律和發現趨勢的功能將得到進一步優化，從而協助歷史學家使用更加系統和科學的方式來發現歷史事實。對於歷史學者個體而言，這也是一個絕佳的提升個人能力的機會。大語言模型能夠為歷史研究提供一站式的解決方案，只要使用得當，學者可以跨領域完成多項任務。因此很多大語言模型的擁躉們將它比擬為由一個人組建的軍團：歷史學家在大語言模型的加持下，能將自己瞬間幻化為多面手，各種技能，例如多語種翻譯、文獻綜述、數據分析、編程、畫圖等信手拈來，極大地改善歷史書寫的效率。

二、大語言模型的負面承諾

不過，人工智能技術為歷史書寫帶來的消極影響同樣顯著。ChatGPT為代表的應用在本質上是一種生成式人工智能（AIGC）產品。它們最擅長的就是高效率地生產文本。但是，我們換一個角度看待這種功能的話，就會發現ChatGPT們會引發文字生態的泛濫。因為在算力的加持下，製造文本將會成為極其簡單的事情，幾行“提示”（Prompt）就能夠搞定萬字長文，在未來將會有大量沒有營養價值的內容充斥在網絡上，歷史書寫可能會成為一個毫無成就感的事情。當大部分人津津樂道人工智能帶來文本內容生成的便捷時，我們從相反的維度看到的是另一種臨界點的降臨：基於人類的用戶生產內容（User Generated Content, UGC）的時代終結了，2022年人類社會進入了混合生產內容（Hybrid Generated Content, HGC）的元年。據稱，自ChatGPT發布短短半年，人類用戶用它生產的文字數量，已經遠遠超越了有史以來所有文字記錄的總和。這是一個相當驚人的數字，在可預見的未來，互聯網世界的內容生態中，將出現三個後果：

首先，大量虛假內容混跡其中，在某種程度上加大了人們獲取真實信息的難度。由於大語言模型可以生成高度逼真、定制化的文本，別有用心的人可以利用GPT在網絡上創造大量虛假內容，包括假新聞、假評論等。這些虛假內容往往難以辨別，並且很容易誤導人們的判斷和決策。曾經轟動一時的杜撰維基百科詞條的事件，已經提醒我們在線知識獲取的風險。在AIGC時代，偽造知識的代價更低，效率更高，規模更大，對用戶的困擾也會更直接。我們本意是為了獲取有效信息去進行搜索，如果在線信息存在魚龍混雜的局面，那無疑為增加梳理信息的成本。甚至可能出現更嚴重的後果：AIGC生成真假難辨的內容侵入到人類知識庫，將會對人類精神文化產品的完整性帶來巨大威脅，形成“信息污染”。因此，我們需要採取一些有效的措施來保護人們不受虛假信息的影響，比如加強媒體監管，提高人們的媒體素養，或者利用先進的技術手段對文本進行自動辨別和過濾，甚至立法禁止使用AIGC技術偽造人類等。只有這樣，我們才能確保獲取真實可靠的信息，而不是被虛假信息所混淆。

我們可以預見在不久的將來，隨着大語言模型的不斷發展，在內容的豐富度和功能的完善度上不斷優化，用戶對它的依賴將進一步提升，甚至會出現大語言模型就代表知識邊界的錯覺。這種狀況在數字人文時代，由於文獻的數字化程度高度泛化，人們會出現“沒有數字化，就不存在”的偏狹認知。這種幻覺在大語言模型時代將會延續。如果我們把所有希望都寄託在大語言模型，把它視為權威甚至唯一的信息來源，將會犯下大語言模型就代表全世界的錯誤。“模型之外無新知”或許會取代“沒有數字化，就不存在”，但是這種替代無非是五十步與一百步的差別而已。

其次，AIGC將進一步鞏固英語作為優勢語言的地位，全球南方問題在網絡時代面臨的“數字鴻溝”不僅不會被彌合，反而可能持續擴大。在網絡時代，英語作為全球通用語言的地位已經非常重要，但是這並不意味着其他語言的貢獻可以被抹殺。正是由於各種語言的存在，才造就出互聯網生態的文化多樣性。如果非英語的語言模型得不到重視和支持，數字鴻溝可能會持續擴大，導致全球南方地區在數字化進程中的落後和邊緣化進程，在大語言模型時代進一步惡化。因此，我們需要採取措施，促進多語言的發展和使用，以確保大語言模型的包容性和可持續性。

最後，在ChatGPT的加持下，歷史書寫變得廉價，讓“好”文字愈加珍貴了。人類歷史學家的閱讀習慣、書寫習慣會受到大語言模型的語言風格的影響，讓“優美的”、“有營養的”文字反而成為稀缺的資源。由算法高效生成的歷史文本，其實是基於概率的隨機內容，即便不是“胡說八道”，或者“扯淡”，也不過是正確的廢話，人類精神文明的成果空間將蛻變為由海量“常人閒語”填補的平庸表達，既無驚喜可言，也缺乏價值意義。這正是海德格爾在反思技術帶來人的異化狀態時擔憂的局面：大語言模型成為技術錨定的集大成者，由此刨除了歷史書寫本應該具備的生活意義，不僅讓書寫內容蛻變為看上去淵博的平庸知識，書寫者也異化為“無沉思性的千篇一律的持存物”。

此外，大語言模型似乎對歷史書寫承諾了一個美好的前景，但對於個體歷史學家而言結局可能是災難性的。歷史書寫當然是文字工作，雖然被一些人怠慢為不需要特殊才能，只要記憶力好就行，但是普通人要成長為合格的歷史學者，書寫優秀的歷史作品，仍然需要經歷系統化的學習以及長期的修養形成，才能具備歷史學家的三個基本條件：深厚的學養、純熟的技藝和嚴謹的規範。這些才能到獲得都是漫長積累的過程。然而，語言模型在文本生成方面的高超技巧，極大降低了歷史書寫的難度，讓處於歷史專業學習起步階段的年輕人會心生疑惑，刻苦打基礎是否是一件得不償失的事情。當一位歷史學專業本科生借助ChatGPT就能完成一篇高分的作業時，再讓他退回到傳統的路徑，應該會出現由奢入儉難的抵觸。

坦率地講，筆者經過短短半年的使用經歷，已經開始擔心自己會成為ChatGPT的重度依賴者。由於它過於方便，又沒有太高使用門檻，在很多場景之下，比如寫工作總結，研究狀況綜述，與外國同行郵件溝通學術事宜，學術論文（多語種）觀點總結與內容摘要等，任務完成的效果都差強人意，已經讓筆者對語言模型下意識產生了依賴。這很有可能會像溫水煮青蛙那樣，消磨歷史學者的專業素養，比如外語溝通的能力，語言表達的能力等。大語言模型時代，各種基於模型的應用，都以智能化為噱頭，以多模態的內容生成為亮點。現在還有很多知識付費平台（如“知識星球”）、學術培訓機構（以公眾號“學術志”為代表）等，敏鋭地發現了ChatGPT背後的商機，適時推出了一系列旨在提升AI學術能力的會員群和課程。這些服務主要以輔助論文寫作和撰寫課題申報書為賣點，迅速贏得了廣大學習者的歡迎和認可。但是類似這種以打造研究者人工智能素養為口號的商業行為，會讓學習者産生一種錯覺，以為靈活使用大語言模型，就能輕鬆完成原創的學術研究，寫出高質量的學術論文，從而輕視扎實的學科知識、獨立的思考能力以及嚴謹的學術規範之於學術研究的重要價值。這對於處於學習階段的歷史專業學生的成長將會帶來致命影響，因為畢竟有一些歷史書寫的專業技能需要花費足夠多的時間和精力才能換取。

三、局限：以歷史與記憶為例

人工智能所引發的歷史書寫問題遠不止於此。我們用歷史與記憶為例，來說明大語言模型在歷史書寫層面存在的局限性。在本質上，歷史書寫是一種保存歷史記憶的方式。在希臘神話中，歷史女神克萊奧（Clio），是記憶女神摩涅莫辛涅（Mnemosyne）的女兒，由此可見記憶與歷史之間密切的關聯。記憶的重要性不必諱言，人類社會如果失去了記憶的能力，“就會被困鎖在無限狹小的當下，沒有言語也沒有思想”。這也是記憶研究與猶太人大屠殺的苦難史密切相關的原因，如果大規模罪行的受害人不能留下樣貌和名字，如果無人知曉他們在人生的最後時刻所處的時間、地點以及死亡的方式，那麽他們就是在真相的光亮之外，就是被遺棄在遺忘之中。留下的這個世界是不完整的；它的整體性被打破，它的真實性也大打折扣。在傳統的路徑中，記憶的保存與維護會面臨很多現實的問題，比如準確性、持續性等，記憶會發生錯誤，存在扭曲，沒有“固定不變的”記憶。辨析記憶的真偽，是一項極為基礎性的工作。

表面上看，大語言模型似乎對歷史與記憶是友好的。大語言模型的過人之處在於，它通過算法以及存儲硬件的配合，完成對人類所有知識的佔有，並能夠實現靈活調用。我們在前面提到，大語言模型能夠幫助我們發現文獻中的錯誤。人們基於生物屬性形成的記憶，難免會出現錯誤，而引入大語言模型來對口述史材料進行勘誤，是一個效率極高的事情。這樣一來，記憶偏差的問題就能得到解決，從而讓真實的記憶得到保留，大語言模型參與到“保存有關過去真相”的過程，成就神聖的道德義務。

同時，在前人工智能時代，記憶是跟權力因素聯繫在一起的，在位者決定誰、什麽事情被記錄。在古典羅馬，曾經大規模出現針對叛國者“除名毀憶”的行為，目的就是消除被罪者的記憶，作為一種懲罰措施，讓他們在“靈魂和精神層面上被共同體遺忘、拋棄和詛咒”。但是，數字技術成為記憶載體之後，刪除變成了成本極為高昂的事情，因為在海量的數據中定位到要刪除的內容，其耗費的精力還不如購買新的存儲空間來得直接。特別是在區塊鏈技術的支持下，記憶去中心化，讓權威機構難以通過簡單的行政命令對記憶進行刪除。

然而，舊的問題被動得到解決，同時也產生出新的問題。這些新的問題反過來讓大語言模型時代的歷史書寫不得不直面全新的質疑，甚至促使歷史學家去反思歷史與記憶的本質。

首先，大語言模型讓人類社會失去了遺忘的能力。

與遺忘做鬥爭，曾經是作為人類群體需要直面的挑戰。從古至今，許多人發明了“記憶術”，就是為了對抗遺忘。記憶本質上具有生物性的機理，它有生物學的極限，因此，人們雖然不得不對抗遺忘，但其實在很多時候，遺忘是歷史記憶的一部分。德國社會學家盧曼多次強調，社會記憶非常重要的一個維度是製造遺忘，因為如果沒有遺忘，社會系統就會因為信息過載而發生崩潰。在大語言模型時代，在數字技術的參與下，幫助我們更加高效地記錄和管理信息，有機會人類打破記憶的生物學極限，讓遺忘不再發生，從而避免信息的遺漏。數字記憶還可以幫助人類更好地利用已有的信息，進行更深入的分析和研究。例如，幫助研究人員更好地理解歷史事件和人物，從而推動歷史研究的發展。

但是，正如俄羅斯諺語暗示的那樣，“誰記得一切，誰就感到沉重”，記憶太多也會成為一種負擔。尼采也有類似的表述，認為如果沒有遺忘力，將會喪失感知幸福的能力，因為任何真正意義上的生活都絕不可能沒有遺忘。傳統時代的記憶是選擇性的，有選擇性記憶，也選擇性失憶；然而在大語言模型的助推下，從理論上講，所有人類的社會發展歷程都可以被記錄下來，變成了不斷增加的重負。本來，選擇記憶/失憶的過程有一套標準來進行篩選，現在所謂的“歷史演化”被全盤記錄，像枷鎖一樣跟着人們，反而令人無所適從。在真實的歷史語境中，我們要迴避一個什麽都不會忘記的記憶的幽靈。人工智能技術就是“記憶幽靈”，“博聞強識的福內斯”。因此，遺忘並非在所有情況下都是記憶的敵人。傳統歷史就是要在保持記憶與遺忘之間尋找一個公平的尺度，而這個尺度往往是跟記憶倫理密切相連。用以色列學者瑪格利特（Avishai Margalit）的話來說，記憶的倫理需要包含“忘記的倫理和記住的倫理兩個方面”。從這個意義上看，大語言模型缺乏這種倫理尺度，從而讓社會在缺乏非歷史感覺的狀態下成為毒藥。

同時，當大語言模型構建起來之後，記憶的調用可能會出現集中的趨勢。我們前面提到人工智能將引發“數字鴻溝”擴大，其實也在加劇知識生產的中心化。人工智能的門檻，讓大語言模型的構建成為少數頭部公司，精英群體的事情，而即便在大語言模型的架構中有存儲記憶的無限可能性，也存在選擇性存儲、選擇性調用的問題。這樣，本來“記憶”的出現是對強勢力量的反叛，現在反而強化了支配性地位的精英對劣勢語言的壓制。按照安克斯密特的說法，後現代史學的一個重要指標是對“過去的私化”，記憶之所以成為歷史研究的關注點，就在於它具有高度個體特徵，因為每個人都有關於過去的記憶，即便涉及到的是同一個歷史事件，但“回憶必然且唯一是我自己的”，正如英國詩人威廉·華茲華斯所言，“每個人都是自己的記憶”，從而將公共事件轉換為獨具特性的個體經驗，讓“每個人都是自己的歷史學家”。然而，在大語言模型的衝擊下，這種個性化記憶在基於統計學的算法中會被抹殺掉，將私人記憶轉向“大眾化”。記憶倫理展現了極大的不公平性。

其次，大語言模型讓記憶失去了歷時性的發展空間。

記憶的複雜性在於，它可能會受到各方因素的影響，從內容、意義等方面發生改變，具備顯著的歷時性特徵。阿斯曼總結過引發記憶變化的若干要素，包括時間流逝，政權更迭，社會條件，代際變遷，媒體影響等，最終指出，記憶不僅容易受到變化的影響，它本身就是一個強大的變化因素。而大語言模型構建起來的歷史記憶，只是一種單一維度、單一模式的記憶，無法體現出這種變化的趨勢。

我們前面提到在歷史研究領域出現“記憶轉向”（memory turn），很重要的一個推手是史學家如何面對猶太人大屠殺的問題。一方面，這個歷史事件如果被人們遺忘將在倫理上引發歷史正義的缺失；另一方面，對大屠殺事件的記憶會存在代際之間的差異性。德國歷史學家呂森認為，在德國人戰後反思大屠殺的過程中，如果以1968和1989年為時間節點，可以把戰後德國人劃分為三個代際陣營：參加第二次世界大戰及戰後重建的一代、戰後第一代，以及戰後第二代，由此提出了“三代人”的理論。在引入“命運的因果性”（Kausalität des Schicksals）的分析框架後，呂森對大屠殺這個歷史創傷的記憶進行了高度概括，區分出了第一代人的沉默，第二代人的道德批判以及第三代人的歷史化處理。代際間的記憶轉換中，既存在繼承性，又存在批判性，背後的鏈接元素是前輩與後輩之間的歷史意識，從而造就了幾代人之間的“鏈條”關係。在大語言模型構建起來的記憶框架中，這種具有明顯代際特徵的“鏈條”並不存在，脫離“鏈條”的狀況反而變成常態。

最後，大語言模型將喪失從單純的記憶昇華為歷史文化的可能性。

記憶不是單純記錄下所有的過往，而是需要昇華為一種跨越事件本身的文化內涵，才具有持久的意義。勒內·卡辛（René Cassin）是來自法國的法學家，1948年《世界人權宣言》（Universal Declaration of Human Rights）的主要起草人。在納粹德國期間，他失去了26名家庭成員，全部慘死在奧斯維辛。後來他談到1948年通過的宣言，認為那是一個與古老靈魂分享的日子。他說，“我們這一代人……那些沒有忘記1789年或1848年，並經歷了1914~18年、1940~44年和1948年的人”，他們的使命才會終將完成。只有當主權國家被置於更高的法律之下時，“受害者的呼聲”才能最終被聽到。由此可見，記憶不是說被保留下來就完成了任務，不能停留在“溝通記憶”（communicative memory）的層面，而需要經歷一次文化記憶的再造過程，才能演化為宏大的文化關懷，超越低層次的集體記憶。大語言模型顯然缺乏這種再造的能力，因此縱使它有強悍的算力護體，也只是擅長將記憶“集合”起來，也不能衍生出普世性的視野。

需要補充的是，存儲技術角度的“記憶”與內容理解角度的“記住”是兩個不同的概念。大語言模型扮演“知識發現伙伴”角色的過程中，是否能夠“記住”與用戶交流的內容其實是衡量大語言模型是否優秀的重要指標。以ChatGPT為代表的AIGC，需要在與人類用戶的對話中推進文本的生成。對話能否持續進行，立足於語言模型能否記住和理解與用戶的交流內容，由此才能夠通過交互帶來思想火花的碰撞。所以，BingGPT的對話次數由最初的6次，擴充到20次，顯示了這個語言模型的迭代優化。如果語言模型不能記住交流的要點，也就是缺乏理解能力的話，就不是一個值得信賴的“知識發現伙伴”。然而，嚴格來說，目前的大型語言模型，如GPT-3.5，其實並沒有真正的理解能力。它們並不能記住過去的對話內容，也不能存儲或檢索個人數據。因為這些模型在訓練時並未接觸到任何特定用戶的數據，也沒有能力在與用戶的交互中記住或學習新的信息。這些模型的工作方式是基於其在訓練時接觸到的大量文本數據生成預測。它們並不理解這些文本的含義，一旦關掉與語言模型的對話框，內容就會瞬間清零，相當於語言模型又退回到原始起跑線。它們只是學習了如何在給定的上下文中選擇最可能的下一個詞或短語。因此，人工智能專家指出，儘管大型語言模型能夠生成連貫、有趣和有洞察力的歷史文本，但它們並不具備真正的記憶能力。這是當前大型語言模型的一個重要限制，也是未來研究的一個重要方向。

小結

大語言模型時代的歷史書寫將會呈現多重的面相。生成式人工智能在讓歷史寫作變得越來越簡單，讓文字價值變得越來越廉價的同時，卻能夠讓歷史書寫的實驗性質彰顯出來。從史學理論的維度出發，史學界已經出現了百花齊放的局面，出於對歷史不同維度的強調，會有不同的書寫風格：有傳統的實證主義，或者顛覆性的年鑒學派，也有經歷了後現代轉型的新文化史等。為了讓歷史專業的學生對基於不同史學流派的歷史書寫有感性的認知，傳統的做法是將不同學派的研究成果彙編起來。由曼徹斯特大學出版社出版的《歷史大厦》（The Houses of History）沿用的就是這一路徑。作為一本具有教科書性質的史學理論作品，其特色就在於會在每種史學流派的介紹之後，用一個具體的研究論文來說明基於特定史學框架的研究對象、路徑、方法與問題意識。這種方式會面臨版權、代表性等問題。如果大語言模型足夠智能，訓練數據集中有足夠多不同史學派別的樣本，那麽它就完全能夠勝任一個史學全才的角色，根據不同的要求，生成不同文字風格、敘述手法以及論證思路的歷史敘述，通過定制化的大語言模型進行大規模的歷史寫作實驗，這種嘗試在真正的歷史學家身上是永遠無法得到展現的。筆者在ChatGPT平台進行了嘗試，比如輸入“用年鑒學派的理論架構分析魏瑪共和國的歷史定位”或者“模仿戴維斯的風格評論俾斯麥在德意志帝國統一進程中的作用”等不同的提示後，系統能夠快速高效地生成不同類型的文字，學生們確實可以看出基於不同史學理論對同樣的歷史事件或者歷史人物的差異化編排。在這個意義上，大語言模型將讓歷史寫作具有可重複性、可驗證性，成為史學理論的思想實驗平台，不僅超越了史學家的腦力極限，還能夠極大拓展歷史書寫的邊界。

但是，作為專業歷史學家，在自己的工作流程中引入大語言模型仍然需要懷抱謙虛謹慎的態度，既不視其為洪水猛獸，也不能以為它能夠取代史學家的獨立思考。大語言模型作為一個工具，它可以提供一些靈感和參考，但無法完全代替使用者自己的研究實踐。學術研究需要深入挖掘文獻、分析史料、提出獨到的觀點和結論，這些都是大語言模型目前無法做到的。兩者並不存在你死我亡的矛盾對立，不過，如何去平衡大語言模型的通用性與歷史研究的個體性之間的張力，在充分利用GPT的同時仍然保持自我探索的初心，仍然是一個需要我們不斷去試錯和調整的話題。

[責任編輯劉澤生]

點擊左下角“閱讀原文”可下載PDF版全文

王涛 || 大语言模型时代历史书写的路径与局限

发表回复 取消回复

发表回复取消回复