pdf2htmlEX 是一个值得推荐的 PDF 转 HTML 工具,但是它背后并不是用的 Chrome Headless。
我去扒了下这个项目的历史,https://t.co/i2i9xnNsaA,作者因朋友抱怨没有一个在线 PDF viewer,于是他就撸了一个将 PDF 转成 HTML 的“玩具”,时间是 2013 年,也有十年历史了。
pdf2htmlEX 背后使用的是 poppler 这个渲染库,而 poppler 背后使用的是 xpdf-3.0,它是一个免费的 PDF 查看器和工具包,包括文本提取器、图像转换器、HTML 转换器等。Chrome 自家也撸了一个 PDF 渲染引擎,叫做 pdfium,项目地址在这里:https://t.co/UqnEZOH8cZ
项目在 2018 年就被作者归档了,为了可以让社区更好地贡献代码,新开了一个 repo 延续,在这个 repo 中,作者对打包过程做了封装,并且锁定了两个重要依赖的版本(poppler 和 Fontforge)。
我在 Mac 下一直没有成功安装,看到有人提了一个兼容的 PR,状态还是 work in progress:https://t.co/VrgNylBIfJ,都五年了,应该是没有下文了😂