标签：RAG

#用Ollama本地部署Rerank模型：给RAG检索结果做二次精排

大多数RAG管线第一层用向量相似度做粗筛，速度快但常把“字面接近、语义偏题”的段落推到前面。Rerank（重排序）借助CrossEncoder对查询和候选段落做细粒度相关性判断，是粗筛之后、生成之前的第二道关卡。Ollama从0.4.10起正式支持Reranking模型，可拉取Qwen3-Reranker等专用模型，在本地实现企业级精排能力。本文介绍安装步骤、模型拉取、API调用，以及如何将Rerank嵌入现有RAG pipeline，让检索结果更精准。

阿牛 2026-05-28 267

git checkout