一个高质量PDF内容提取工具:PDF-Extract-Kit
PDF-Extract-Kit通过集成多个模型实现了PDF高质量提取,适用于学术论文、教科书、研究报告和财务报表等多种文档类型,在扫描模糊或有水印的情况下也能保持高鲁棒性
1、布局检测采用LayoutLMv3模型进行区域检测,包括图像、表格、标题、文本等
2、公式检测上采用YOLOv8,包含行内公式和行间公式
3、公式识别上采用UniMERNet识别
4、光学字符识别使用PaddleOCR进行文本识别
对于公式识别,UniMERNet可以媲美商业软件; OCR上使用PaddleOCR,对中英文OCR效果不错,之前分享过
github:https://t.co/fIYWdOg0lc
#PDF提取
点击图片查看原图