在做 RAG 的时候，对 PDF 文件的预处理是一个难题，主要难点在于 PDF 如果包含大量的图表、表格、饼图，或者布局很复杂，那么在做检索的时候可能效果不会太好，如果无法很好的检索，最终也会影响生成的结果。作者提出的方案则是另辟蹊径，绕过 OCR，借助多模态，将 PDF 的每一页截图后，直接对图片做

发布时间: 2024-07-17 12:50:11

1分

数据加载中

关注推特

收听电报

2

1

0

在做 RAG 的时候，对 PDF 文件的预处理是一个难题，主要难点在于 PDF 如果包含大量的图表、表格、饼图，或者布局很复杂，那么在做检索的时候可能效果不会太好，如果无法很好的检索，最终也会影响生成的结果。
作者提出的方案则是另辟蹊径，绕过 OCR，借助多模态，将 PDF 的每一页截图后，直接对图片做
IT技术
( twitter.com )

4个月前由宝玉提交

在做 RAG 的时候，对 PDF 文件的预处理是一个难题，主要难点在于 PDF 如果包含大量的图表、表格、饼图，或者布局很复杂，那么在做检索的时候可能效果不会太好，如果无法很好的检索，最终也会影响生成的结果。

作者提出的方案则是另辟蹊径，绕过 OCR，借助多模态，将 PDF 的每一页截图后，直接对图片做 Embedding，这样借助多模态，后续用文字检索时，基于向量检索也能检索出图片中的内容。

但这样做也有缺点，就是是以页为单位做 Embedding，对于跨页的数据，可能检索起来效果要差一些。另外还跟所用到的多模态的大语言模型能力有很大关系，如果模型本身对图片识别能力较弱，也会影响检索的效果。

我不觉得这种方案能代替传统基于文字的 RAG 方案，但是作为一个针对图表、表格优化的补充辅助方案还是不错的。

如果你想了解这个方案的更多详情，可以参考这篇文章：《使用视觉语言模型进行 PDF 检索》
https://t.co/XZYMe0iLFB

点击图片查看原图

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

这就是AI存在的意义，一个初学编程的人，可以依靠AI辅助，实现自己想要的功能。
这个开源Python脚本作者BrandonSC在日常工作中发现有很多没有好好命名的PDF文件，如“附件（1）.pdf”，于是他写了个小脚本，能够根据PDF内容自动重命名PDF文件，如把“附件（1）.pdf”命名为“2023年用户访谈总结.pdf”。…
时政
( twitter.com)

8个月前 • 哥飞 • -- 点击 0 评论

2

2

1

1

超长上下文 LLM 与 RAG 技术，在文档问答场景下谁更强？我动手做了一个对比实验
结论：大模型长上下文对 RAG 技术就是降维打击。不期望大模型都达到 200K、2M 这种级别的上下文长度，但至少应该达到 32K、64K 的长度且保证模型质量不下降。长上下文可以极大的简化 RAG…
时政
( twitter.com)

7个月前 • heycc • -- 点击 0 评论

3

2

1

1

论文推荐：模块化RAG（
可以理解为是对 RAG 最新的综述，基本覆盖了所有的 RAG 技术。
作者尝试用数学或者伪代码定义 RAG flow 倒是挺有意思。
小感想：RAG 等技术天然有缺陷，不要死磕，雕花雕不好就再等等，做之前想想 ROI。
时政
( arxiv.org)

2个月前 • 九原客 • -- 点击 0 评论

4

2

1

1

#工程师学习发现一篇 PDF 原理解析的文章，PDF Explained 的非官方中文翻译版，假如你对这种文件格式感兴趣，可以通过它聊入门了解。
🤖
IT技术
( zxyle.github.io)

10个月前 • Tw93 • -- 点击 0 评论

5

2

1

1

Google NotebookLM 开放访问了，不用排队了，但是最好是美国IP...
测了下之前提出的很多功能似乎都没实现，主要是一个类似和文档聊天的东西》
- 易于使用的检索增强生成（RAG）界面，可以上传多个来源
-支持上传PDF 、调用Google Drive 文件、复制文本内容进行对话
- AI回答的内容可随时保存为笔记…
IT技术
( twitter.com)

11个月前 • 小互 • -- 点击 • 下载视频 0 评论

00:01:53

6

2

1

1

怎样生成前后端通用的布局完美的 PDF 文件？

很多人都在问简单简历下载的 PDF 文件为什么效果那么好？

如果你使用的 React 技术栈，使用 React PDF 肯定是没错的：

可以直接使用各种 css 属性，同时完美实现渲染/下载等功能。

甚至还可以配合…
IT技术
( twitter.com)

1年前 • Viking • -- 点击 0 评论

7

2

1

1

非常非常值得一看的来自 LangChain 团队的 RAG 视频：当 LLM 的上下文足够长了就不需要 RAG 了吗？
—— RAG在长上下文大语言模型(LLM)中的应用探讨…
IT技术
( twitter.com)

7个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:21:08

8

2

1

1

Chat-With-MLX：在Mac上轻松运行各种开源模型并以RAG的方式聊天
是利用苹果MLX框架实现的一个高效、多语言支持进行检索增强生成（RAG）的聊天界面。
可以轻松自动集成任何HuggingFace和MLX兼容的开源模型。支持通过URL与Doc(x)、PDF、txt文件和YouTube视频进行聊天交互。
主要功能：…
IT技术
( twitter.com)

9个月前 • 小互 • -- 点击 • 下载视频 0 评论

00:00:17

9

2

1

1

做了一个 Coze bot，自动的从 arXiv 查找最新的 RAG 相关的 paper，并推荐 Top 10。从此跟进论文变轻松了😗
Coze bot 链接
#coze #RAG #arXiv
时政
( www.coze.com)

6个月前 • heycc • -- 点击 0 评论

0.11352 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特