site stats
在做 RAG 的时候,对 PDF 文件的预处理是一个难题,主要难点在于 PDF 如果包含大量的图表、表格、饼图,或者布局很复杂,那么在做检索的时候可能效果不会太好,如果无法很好的检索,最终也会影响生成的结果。作者提出的方案则是另辟蹊径,绕过 OCR,借助多模态,将 PDF 的每一页截图后,直接对图片做
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多