标签:RAG

用Ollama本地部署Rerank模型:给RAG检索结果做二次精排

#用Ollama本地部署Rerank模型:给RAG检索结果做二次精排

大多数RAG管线第一层用向量相似度做粗筛,速度快但常把“字面接近、语义偏题”的段落推到前面。Rerank(重排序)借助CrossEncoder对查询和候选段落做细粒度相关性判断,是粗筛之后、生成之前的第二道关卡。Ollama从0.4.10起正式支持Reranking模型,可拉取Qwen3-Reranker等专用模型,在本地实现企业级精排能力。本文介绍安装步骤、模型拉取、API调用,以及如何将Rerank嵌入现有RAG pipeline,让检索结果更精准。

阿牛 0
AI
git checkout