什么是「段落相关性评分」?
段落相关性评分(Paragraph Relevance Score)是RAG系统在检索阶段对每个候选段落进行的量化评估,以确定该段落是否进入比较终上下文窗口。
段落相关性评分的作用位置:
RAG检索流程:
用户查询
↓
向量检索(初步召回100-1000个候选段落)
↓
段落相关性评分(对每个候选段落打分)
↓
阈值筛选(保留高分段落,通常5-20个)
↓
重排序(对保留段落进行精细排序)
↓
选择Top-K段落注入上下文
↓
LLM基于选中段落生成回答
段落相关性评分的技术构成
评分维度1:语义相似度(权重比较高,约50-60%)
使用Embedding向量计算余弦相似度:
计算方式:
段落Embedding向量 · 查询Embedding向量
─────────────────────────────────────
|段落向量| × |查询向量|
= 余弦相似度(范围:-1到1,越接近1越相似)
语义相似度在段落相关性评分中所占的权重比较大,直接决定了该段是否能够进入初步召回阶段。
评分维度2:关键词覆盖度(权重约15-20%)
尽管AI引擎主要依靠语义检索,关键词覆盖仍然有一定作用:
- 查询中关键词(核心实体、专业术语)在段落里出现的次数
- BM25等传统的关键词相关性算法评分
- 混合检索系统(Hybrid Retrieval)把语义相似度和关键词覆盖度加权融合
GEO含义: 内容中出现的关键词(目标话题的专业术语)应该在段落里自然地体现出来,不能依靠语义匹配来完成。
评分维度3:段落质量信号(权重约15-20%)
独立于查询的段落质量评估:
- 段落的信息密度(有效语义信息量)
- 段落语言质量(流畅度、语法正确性)
- 段落结构化程度(是否有明确的主题句)
- 来源的权威性(所属文档/网站的评分)
评分维度4:上下文一致性(权重约10-15%)
重排序阶段需要考虑的其他维度:
- 段落之间是否可以与其他选中的段落形成信息互补(而不是重复)
- 段落中的信息是否可以用来形成一个连贯完整的答案
- 段落的立场或者观点是否和其他来源的一致(不能引用明显矛盾的内容)
段落相关性评分的「重排序」阶段
在初步召回之后,高级RAG系统会用到专门的重排序模型(Reranker)来对候选段落进行精细评分:
重排序模型的特点:
- 不依靠向量相似度,而是把「查询+段落」作为输入,输出相关性分数
- 计算成本高,但是精度远远高于向量检索
- 只对初步召回的Top-N(一般为20-100个)候选段落进行
典型重排序模型:
- Cohere Rerank
- BGE Reranker
- 各个AI引擎内部的重排序模型
重排序阶段对内容的评估更加细致,可以发现向量检索遗漏掉的语言细节,在比较终引用来源的选择上起着关键作用。
提升段落相关性评分的优化策略
策略1:段落主题句的「查询语言」对齐
段落首句(主题句)的表达方式要接近目标查询自然语言:
目标查询:「段落相关性评分是如何计算的」
低对齐(与查询语言差异大):
「在现代检索增强生成系统的技术架构中,对检索单元进行评估的机制……」
高对齐(与查询语言接近):
「段落相关性评分的计算基于四个维度:语义相似度、关键词覆盖、
段落质量信号和上下文一致性。」
策略2:核心关键词的自然密度维持
在段落中自然地保持核心关键词的出现:
- 每个段落中至少要出现1-2个核心话题的关键实体词
- 防止关键词堆砌(影响语言质量评分)
- 用同义词、近义词替换关键词变体
策略3:段落信息密度的优化
提高段落质量信号中信息密度维度:
- 每个段落100-250字,包含两个到四个独立的语义信息点
- 段落首句为高密度的核心信息
- 少用低密度的铺垫、过渡表达
策略4:来源权威性的系统建设
段落相关性评分中,“来源权威性”的权重,要求从整体上建立来源的权威:
- 在目标话题上建立高质量的内容体系
- 创建一个完整的作者实体信息
- 权威外部引用的积累
段落相关性评分的可观测验证
用下面的方法来观察段落相关性评分的改进情况:
方法一:直接在Perplexity中搜索目标查询,看看
- 自己的内容是否出现在引用来源里
- 被引用的是哪一段(那一段的内容)
- 竞争来源的段落特征(对比分析)
方法二:引用段落追踪
一直关注被AI所用到的详细段落,找出高引用片段中相同之处,并对低引用部分进行加强。
总结
段落相关性评分包含四个维度:
1. 语义相似度(50%-60%):Embedding向量的余弦距离
2. 关键词覆盖度(15-20%):核心术语在段落中出现的次数
3. 段落质量信号(15-20%):信息密度、语言水平、结构化程度、来源权威性
4. 上下文一致性(10-15%):与其他选中段落的信息互补性
提高段落相关性评分的四个方法:主题句和查询语言一致、核心关键词自然密度保持、段落信息量优化调整以及来源权威性的系统建设。理解段落相关的评分机制,使GEO优化从文章层面精细到段落层面,显著提升内容在AI检索中的竞争力。