Ollama本地部署大模型 - www.guozipai.com

先看看你手头的家伙，再决定跑什么模型

上个月帮一个做金融数据分析的朋友搭本地大模型。他丢过来一句话，我到现在还记得：“数据出网一次，合规就得写三页说明。” 这话说得真不夸张。医疗、金融、法律这些行业，敏感数据哪怕只经过一次云端API，心里都不踏实。本地部署大模型，说白了就是把AI的“脑子”放在自己口袋里，数据不出门，离线也能跑。而且算一笔长期账：如果团队每天要调几百次API，一个月下来账单比请人喝咖啡还贵。自己用Ollama拉个模型下来，电费加显卡折旧，成本直接砍半。

但光有模型还不够。团队里三个人写Prompt，能写出三种完全不同的风格。A写的指令AI秒懂，B写的总是答非所问，C干脆把Prompt写成小作文。这时候一个统一的Prompt模板库就派上用场了——把写Prompt的套路沉淀下来，新人上手快，老人输出稳，协作效率蹭蹭涨。说白了，模板库搭好了，比换一个好模型还管用。

Selecting open source model for hardware

模型选型：别追大的，追对的

Ollama官网目前列了几十种模型，从400M参数的小模型到几百B的大怪兽都有。怎么选？我自己的经验是：先看你的硬件，再看你的任务。

如果你手头只是普通笔记本，没有独立显卡，或者只有8GB内存，别硬上大模型。Phi-4（微软的轻量级模型）或者Gemma 3（Google出品）就很合适。Phi-4只有14B参数，但推理速度飞快，写个邮件、改个文案完全够用。我试过在MacBook Air上跑Phi-4，对话基本没延迟。

团队有台24GB显存的显卡？那Mistral或者Llama 3.3（70B版本）是多数场景的甜点。它们能处理更复杂的指令，上下文理解也更强。我们团队目前就在用Llama 3.3做日常的代码审查和文档生成，响应质量稳定，偶尔还能给出让人惊喜的建议。

要是专门搞代码或者数学推理，DeepSeek-R1或者CodeLlama更对口。DeepSeek-R1在推理任务上表现突出，做逻辑题、写算法都能hold住。CodeLlama则对代码补全和bug修复有优化。别指望一个模型打天下——按场景选模型，比盲目追求参数大小聪明得多。

Installing Ollama on laptop command line

装、拉、跑三步走，顺便避个坑

装Ollama比想象中简单。去官网（ollama.com）下载对应系统的安装包，Windows点exe，macOS拖dmg，Linux跑一行curl命令。装完打开终端，输ollama --version确认版本号。我写这篇文章时Ollama的最新稳定版是0.5.8，安装过程不到两分钟。

接下来拉模型。比如你想试Phi-4，终端里输：

ollama pull phi-4:latest

等进度条跑完，模型就存本地了。想看看本地有哪些模型？ollama list一下。第一次跑模型记得用ollama run phi-4，它会自动启动交互式对话。你打一句“你好”，它回一句“你好”，就这么简单。这里有个坑：如果拉模型时网络不稳定，可能中途断掉。解决办法是重新跑ollama pull，它会断点续传，不用重头下。

验证模型是否正常工作，我习惯丢一个具体问题，比如“用Python写一个快速排序，并解释每一行代码的作用”。如果回答有条理、代码能跑，说明模型没问题。如果答得乱七八糟，可能是模型版本不对，或者硬件内存不够——Ollama会报错提示。

给Prompt画个框：角色、任务、约束、输出格式

很多人写Prompt像写微信聊天，想到哪说到哪。但模板库不是这么玩的。你得给Prompt画个框：角色、任务、约束、输出格式，这四个字段是标配。

举个例子，我们团队有个“代码审查”模板：

角色：资深Python开发工程师
任务：审查以下代码，找出潜在bug和性能问题
约束：只关注逻辑错误和性能瓶颈，不讨论代码风格
输出格式：用列表列出问题，每个问题附一行修改建议

这样结构化的Prompt，模型输出稳定，不会跑题。模板库怎么组织呢？按用途分类：写作类、编程类、分析类、客服类。再按复杂度打标签：简单（一句话指令）、进阶（带多轮对话上下文）、专家（结合外部数据）。

版本管理这块，我推荐用Git。每个模板建一个Markdown文件，修改时commit，哪天改坏了还能回滚。Ollama的Modelfile也能记录模型配置的变更，但模板本身还是Git顺手。团队里统一用GitHub私有仓库，谁改了模板，PR一发，大家都能看到。

别让模板躺在仓库吃灰：评审、测试、迭代

模板搭好了，没人用等于白干。我们团队摸索出一套流程：一个人提模板草案，写成PR；至少两个人评审，主要看指令是否清晰、输出格式是否合理；评审通过后，拉一个测试分支，跑10个测试用例；测试通过，合并到主分支，通知全员。

效果怎么量化？我们定了三个指标：

响应准确性：模型输出是否命中预期答案（人工打分，0-5分）
相关性：输出有没有跑题（比如问代码审查，模型却开始讲架构设计）
一致性：同一个模板跑三次，结果是否稳定

每周五下午，团队花半小时过一遍本周的模板使用反馈。有人发现某个模板在长文本场景下容易漏信息，就在模板里加了一条“请逐段总结，不要遗漏关键数据”。这种持续迭代，比一次性搞个大而全的模板库有效得多。

把Ollama和自动化工作流串起来

Ollama自带REST API，默认监听localhost:11434。你可以用curl或者Python的requests库直接调。比如把模型集成到Slack机器人里：用户发一条消息，机器人把消息加上模板，POST到API，返回结果贴回频道。我们团队用这个方案处理日常的日志分析，每天省下一个小时。

批量测试是另一个大招。写个Python脚本，循环读取模板库里的所有模板，每个模板跑5次，记录响应时间和输出内容，最后生成对比表格。哪条模板表现好、哪条不稳定，一目了然。我自己的脚本大概40行，跑一次十分钟，比人工测试靠谱一百倍。

性能监控别忽略。Ollama有内置的metrics，可以导出到Prometheus+Grafana。重点关注响应延迟和GPU显存占用。如果某个模型响应越来越慢，可能是并发请求太多，或者模型缓存满了。及时调整，别等到用户抱怨才动手。

本地部署大模型这件事，门槛其实比想象中低。你不需要是AI专家，也不需要配几万块的服务器。一台普通电脑、一个Ollama、一套趁手的模板库，就能让团队的工作流聪明起来。下次开会时，别人还在等云端API响应，你已经拿着本地跑完的结果开始讨论了。那种感觉，试过就知道。

从零开始：用Ollama本地部署大模型并搭建Prompt工程模板库

先看看你手头的家伙，再决定跑什么模型

模型选型：别追大的，追对的

装、拉、跑三步走，顺便避个坑

给Prompt画个框：角色、任务、约束、输出格式

别让模板躺在仓库吃灰：评审、测试、迭代

把Ollama和自动化工作流串起来

评论

先看看你手头的家伙，再决定跑什么模型

模型选型：别追大的，追对的

装、拉、跑三步走，顺便避个坑

给Prompt画个框：角色、任务、约束、输出格式

别让模板躺在仓库吃灰：评审、测试、迭代

把Ollama和自动化工作流串起来

相关文章

用Ollama本地部署Rerank模型：给RAG检索结果做二次精排

Ollama本地部署Function Calling：让AI自主调用API实现日程、文件与系统操作

用Ollama在NAS上部署Qwen2.5，打造私有AI助手与文件管理联动

用Ollama本地部署开源语音模型，实现离线语音转文字与会议纪要自动生成

Ollama 本地部署实战：从 Prompt 到 Agent 的完整落地指南

评论