推荐阅读:文本分割的五个层次
我们知道,做 RAG 的时候,文本分块分割相当关键,如何合理的分割文本看似简单,实则细节很多,怎么把相关的信息尽可能保留在一起很重要。
Greg Kamradt 最近有个视频,详细讲解了文本分割的细节,并且他还整理了一个 Jupyter Notebook,配有代码示例和配图,很是浅显易懂。他把文本分割分成五个层次:
第 1 层:字符分割 - 对数据进行简单的静态字符划分。
第 2 层:递归字符文本分割 - 基于分隔符列表的递归式分块。
第 3 层:文档特定分割 - 针对不同类型文档(如 PDF、Python、Markdown)的特定分块方法。
第 4 层:语义分割 - 基于嵌入式路径的分块方法。
第 5 层:智能体式分割 - 使用类似智能体的系统来分割文本的实验性方法,适用于你认为 Token 成本接近免费的情况。
具体建议您阅读原文或者看视频!
视频:https://t.co/HC4v7lG1FC
Notebook:https://t.co/6rwWYm8Rd6
译文:https://t.co/CDLd2qJWbK