OCR

系列笔谈之四：智能时代古籍OCR技术

由马光（搬运工）
3 3 月, 2025

北京大学数字人文研究中心 “古籍智能”系列专题北京大学数字人文研究中心王军（北京大学信息管理系）：OCR技术是古籍数字化技术的核心和基础 OCR技术是古籍数字化技术的核心和基础，现代汉语常用汉字约七八千字，而古籍中所包含的文字最高达8万。由于文字量庞大，异体字众多，字形多变，版式多样，而且年代久远，页面模糊，再加上缺乏充足的训练数据，这使得古籍OCR比一般的OCR任务更具有挑战性。近年来，深度… 阅读更多 »系列笔谈之四：智能时代古籍OCR技术

OCR数据处理工具对比Marker、MinerU、Docling、Markitdown、Llamaparse

由马光（搬运工）
27 2 月, 2025

这几天在给公司产品的 AI 助手选择知识库的数据处理工具，重新看了一遍 Marker、MinerU、Docling、Markitdown、Llamaparse 这五个工具，结合几个 Deep Search 产品做了一些对比给用户接入做参考，也分享出来，大家有其他更优的工具推荐，欢迎回复给我，先感谢了！ Marker 技术架构基于 PyMuPDF 和 Tesseract OCR，支持… 阅读更多 »OCR数据处理工具对比Marker、MinerU、Docling、Markitdown、Llamaparse

最强开源OCR！印刷体古籍文字识别超越著名商业软件ABBYY

由马光（搬运工）
23 6 月, 20237 7 月, 2023

52CV君曾经向大家推介过开源OCR文字识别软件Calamari，其使用了目前最先进的OCR技术，非常值得参考。通过查看“我爱计算机视觉”网站（www.52cv.net）后台数据，52CV君发现，在来自搜索引擎的自然流量中，该文开源OCR文字识别软件Calamari是网站上所有单项技术博文里被阅读次数最多的（虽然当时写的文章并不详细），可见该软件的确很受欢迎。近日，该软件的作者即来自德国维尔茨… 阅读更多 »最强开源OCR！印刷体古籍文字识别超越著名商业软件ABBYY