系列笔谈之四:智能时代古籍OCR技术
北京大学数字人文研究中心 “古籍智能”系列专题 北京大学数字人文研究中心 王军(北京大学信息管理系):OCR技术是古籍数字化技术的核心和基础 OCR技术是古籍数字化技术的核心和基础,现代汉语常用汉字约七八千字,而古籍中所包含的文字最高达8万。由于文字量庞大,异体字众多,字形多变,版式多样,而且年代久远,页面模糊,再加上缺乏充足的训练数据,这使得古籍OCR比一般的OCR任务更具有挑战性。近年来,深度… 阅读更多 »系列笔谈之四:智能时代古籍OCR技术
北京大学数字人文研究中心 “古籍智能”系列专题 北京大学数字人文研究中心 王军(北京大学信息管理系):OCR技术是古籍数字化技术的核心和基础 OCR技术是古籍数字化技术的核心和基础,现代汉语常用汉字约七八千字,而古籍中所包含的文字最高达8万。由于文字量庞大,异体字众多,字形多变,版式多样,而且年代久远,页面模糊,再加上缺乏充足的训练数据,这使得古籍OCR比一般的OCR任务更具有挑战性。近年来,深度… 阅读更多 »系列笔谈之四:智能时代古籍OCR技术
这几天在给公司产品的 AI 助手选择知识库的数据处理工具,重新看了一遍 Marker、MinerU、Docling、Markitdown、Llamaparse 这五个工具,结合几个 Deep Search 产品做了一些对比给用户接入做参考,也分享出来,大家有其他更优的工具推荐,欢迎回复给我,先感谢了! Marker 技术架构 基于 PyMuPDF 和 Tesseract OCR,支持… 阅读更多 »OCR数据处理工具对比Marker、MinerU、Docling、Markitdown、Llamaparse
52CV君曾经向大家推介过开源OCR文字识别软件Calamari,其使用了目前最先进的OCR技术,非常值得参考。 通过查看“我爱计算机视觉”网站(www.52cv.net)后台数据,52CV君发现,在来自搜索引擎的自然流量中,该文开源OCR文字识别软件Calamari是网站上所有单项技术博文里被阅读次数最多的(虽然当时写的文章并不详细),可见该软件的确很受欢迎。 近日,该软件的作者即来自德国维尔茨… 阅读更多 »最强开源OCR!印刷体古籍文字识别超越著名商业软件ABBYY