Ollama Agent 多工具协同系统

上个月我遇到一个挺尴尬的场景：想让大模型帮我查一下最近几篇关于小样本学习的论文，顺便算一下这几个方向近三年的增长率，再画个趋势图。结果打开ChatGPT，发现搜索结果被限制在2025年之前，代码执行环境也时不时断连。更糟的是，公司内部数据不能随便传到云端。折腾了半小时，最后只能自己手动Google加Excel画图。

大模型知识面广、反应快，但你要它查实时股价、算个积分、跑段Python爬虫——立马傻眼。这不是模型能力的问题，工具链压根没对上。它就是个脑子很好的实习生，手上没工具。我们要做的很简单：给这个实习生配上螺丝刀、计算机和编程环境，而且全放在本地。

给模型配外设，不是给模型上枷锁

先聊一个基本判断：本地化工具调用不是折腾，是刚需。数据隐私就不用多说了，很多企业文档、财务数据、医疗信息根本不可能上传到云端的API接口。低延迟更实在——你不需要等网络往返，模型启动后直接在本地内存里干活，响应速度是毫秒级的。离线可用听着像锦上添花，但当你在地铁、飞机上或者公司网络抽风时，这朵“花”就是救命稻草。

典型场景从“一问一答”变成了“你提问，它干活”。比如你问“帮我查一下2026年Q1的AI融资事件，按金额排个序，再写个摘要”，没有工具的模型只能回一句“我无法访问实时数据”。但配上搜索工具，它可以主动去DuckDuckGo抓取新闻，用Python解析结果，再调用本地模型总结。这一串动作，用户只发了一条消息。

关键是，这套东西跑在本地。你的数据不经过任何第三方服务器，模型拉的代码也只在你自己的沙箱里跑。有些人担心配置复杂，其实拆开来看就三块东西。

底座就三样：Ollama、Agent框架和工具函数

Ollama 是目前最省事的本地模型运行工具，没有之一。它把Llama、DeepSeek、Qwen这些模型打包成一行命令就能拉下来跑的环境。2026年4月Ollama发布了云端扩展功能，但核心价值还是在本地——你跑在个人电脑上，数据不出网。我目前主力用的是Qwen2.5-Coder，14B量化版，代码理解和生成能力在同尺寸里算第一梯队。

Agent框架 负责把用户的自然语言指令拆成任务列表，然后决定用什么工具、按什么顺序执行。LangChain的AgentExecutor和AutoGPT的循环架构是两种主流思路。前者偏轻量，适合明确的多步骤任务；后者带记忆和自我反思，适合长期目标驱动。我自己倾向用LangChain的OpenAI Functions Agent，因为它对工具调用的格式约束最清晰，不容易跑偏。

工具集 分三类：搜索（DuckDuckGo搜索API）、计算（Python REPL）、代码执行（沙箱环境）。每个工具都是一个函数，Agent根据任务逻辑自动匹配调用。

这三样东西装好之后，模型就不再是个只会背书的机器人了。它有了“手”——可以抓网页、跑脚本、画图表。但工具怎么注册给Agent，怎么让它在正确时机调用，这才是关键。

Setting up Ollama with Qwen2.5-Coder model

搜索工具：从“不知道”到“马上去查”

我不想上来就贴完整代码，那样你看着也晕。拆开一步步说。首先是Ollama部署模型。终端执行，等几分钟就下好了。然后运行启动服务，默认监听。这一步不出意外的话，一个可调用的API接口就准备好了。

搜索工具我用的是DuckDuckGo的免费API，不需要注册，但需要自己处理一下请求频率。函数核心就几行：接收查询字符串，发起GET请求，解析返回的JSON，提取标题和摘要。然后把这个函数注册到Agent的工具列表里，给个描述——“当用户需要获取最新信息、新闻或特定领域实时数据时使用”。关键在定义调用规则。Agent不是每个问题都去搜索，它内部有一个判断逻辑：如果用户问题涉及“最新”“今年”“2026年”“当前价格”等时间敏感词，或者模型本身知识库里没有的内容（比如某个刚刚发布的论文），才会触发搜索。这个规则写在Agent的system prompt里，比硬编码if-else灵活得多。

搜索结果的质量其实就卡在查询构造这一步——很多人没留意。直接拿用户原话去搜，模型大概率给你捞一堆无关内容回来。更好的做法是让 Agent 先用自己的语言重构搜索词。比如用户问“最近AI融资情况”，Agent 内部会把它拆成“2026年 Q1 人工智能融资事件新闻”。这一步做完，搜索命中率从50%直接跳到85%以上，差别相当明显。

计算和绘图：一步到位，不再手工对账

大模型算三位数乘法都可能出错，这是架构问题，不是版本问题。所以我给Agent配了一个Python REPL解释器。当你问“帮我算一下过去五年AI论文发表量的年均复合增长率”，模型会先生成一段Python代码，丢进REPL执行，然后把计算结果返回给用户。整个过程用户看不到中间代码，只看到最终数字。我试过让模型计算复杂的概率分布和线性回归，结果和手算完全一致——当然，前提是模型生成的代码逻辑正确。

代码执行沙箱我用的是Docker容器，限制网络访问和文件系统写入权限。每个Python进程跑完自动销毁，防止恶意操作。说实话，这一步很多人会偷懒直接跑在宿主机上，但我建议别省。你永远不知道模型生成的代码里会不会有一个 os.system('rm -rf /')——虽然概率极低，但本地环境崩了你得自己收拾。实战里最爽的场景是生成图表。用户说“帮我画一下2026年Q1各月GitHub上Transformer相关仓库的star增长曲线”，Agent就自动做三件事：搜索获取数据、Python绘制Matplotlib图表、导出PNG图片。用户收到的不再是一段文字描述，而是一张高清趋势图。

我试过让模型画一个堆叠柱状图，展示不同框架的社区活跃度变化。它自动判断需要加载哪些库，生成代码，运行成功后还把颜色调成了符合专业报告的冷色调。整个过程大概40秒，比我手动用Excel做快了不知道多少倍。

一次请求，后台跑完整条流水线

说个上周末刚跑的案例。我在Agent里提了一句：“查一下2026年AI领域最重要的五篇论文，每篇写一段摘要，然后统计一下它们的第一作者所属机构分布，画个饼图。” Agent先调用搜索工具，在DuckDuckGo上反向查找学术讨论帖和预印本索引，收集论文标题和作者信息。然后提取出机构名称，用Python REPL跑一个简单的计数脚本。最后调用代码执行工具生成饼图，保存成。全程大概两分钟，中间有一次搜索因为请求过快被限流，Agent自动等待了3秒重试——这个重试逻辑是我写在工具定义里的fallback策略。最终输出是一个包含五段摘要的文字报告和一张饼图。如果不满意，我可以直接在对话里说“把颜色改成冷色调”，Agent会重新调用代码工具修改参数再生成。你看，用户只发了一条请求，背后跑了一整套搜索、解析、计算、绘图的流水线。

多个Agent一起上：从单打独斗到团队协作

单Agent在任务简单时够用，但一旦需求复杂（比如“分析这份PDF里的数据，搜索相关行业报告，再写一篇对比文章”），一个Agent既要管理上下文又要调度工具，很容易卡死或跑偏。这时候把任务拆给多个Agent更靠谱。我试过一种分工方式：一个搜索Agent专门负责抓取和过滤信息，一个计算Agent负责数值处理和统计分析，一个代码Agent负责生成可复用脚本。它们之间通过一个轻量级消息队列（Redis或者内存队列都行）传递中间结果。比如搜索Agent抓完数据，把结构化的JSON放到一个共享队列里，计算Agent取走之后处理，再把结果推到代码Agent的输入端口。

通信机制有个坑：多个Agent如果共享同一个大模型的上下文窗口，容易互相覆盖状态。我的做法是用一个“黑板”结构——每个Agent只读写自己负责的区域，任务完成后写入最终结果，主Agent汇总输出。这样避免了上下文冲突，也方便排查哪个环节出了问题。性能调优方面，模型量化是最直接的加速手段。14B模型量化到4bit，显存占用从28GB降到8GB左右，推理速度反而快了近一倍。缓存策略也很关键——重复的搜索结果不要每次都去抓，用LRU缓存存一下，命中率肉眼可见。

给大模型配上本地工具链，就像给它装上了手脚——Ollama 负责大脑，搜索引擎、计算器、Python 解释器这些工具就是灵活的手指，Agent 框架则把神经信号传到位。去年我在一个数据分析项目里试过这套组合，让模型自己查天气 API、算统计指标、再画个趋势图，全程没动过一次鼠标。跑通第一个案例那晚，我突然觉得以前手动查资料、开计算器、复制粘贴的日子，简直是在用手摇计算机写代码。配置嘛，确实有点琐碎，但等你听到模型说“已为你完成搜索并生成报告”时，那点折腾就全值了。

用Ollama与Agent框架构建本地化多工具协同系统：让大模型自主调用搜索、计算与代码执行

给模型配外设，不是给模型上枷锁

底座就三样：Ollama、Agent框架和工具函数

搜索工具：从“不知道”到“马上去查”

计算和绘图：一步到位，不再手工对账

一次请求，后台跑完整条流水线

多个Agent一起上：从单打独斗到团队协作

评论

给模型配外设，不是给模型上枷锁

底座就三样：Ollama、Agent框架和工具函数

搜索工具：从“不知道”到“马上去查”

计算和绘图：一步到位，不再手工对账

一次请求，后台跑完整条流水线

多个Agent一起上：从单打独斗到团队协作

相关文章

用Ollama本地部署Rerank模型：给RAG检索结果做二次精排

Ollama本地部署Function Calling：让AI自主调用API实现日程、文件与系统操作

用Ollama在NAS上部署Qwen2.5，打造私有AI助手与文件管理联动

用Ollama本地部署开源语音模型，实现离线语音转文字与会议纪要自动生成

Ollama 本地部署实战：从 Prompt 到 Agent 的完整落地指南

评论