Ollama本地部署DeepSeek-R1

第一次碰 DeepSeek 官方 API 那会儿，晚上十点发个请求，两分钟才挤出一段回复，中间还断两次。写代码的思路就这么被掐断，更别提高峰期直接甩你一个“服务器繁忙”，想砸电脑的心都有。

本地跑 DeepSeek-R1 才是真·自己做主

本地部署这事，核心就一条：你的电脑归你管。Ollama 装起来是真的省心——Windows 用户去官网下个安装包，双击搞定；macOS 一行；Linux 更粗暴，curl -fsSL https://ollama.com/install.sh | sh 回车就行。我拿那台老 ThinkPad（16GB 内存，早该淘汰了）试过 7B 模型，生成速度确实比不过旗舰卡，但你想想：不排队、不断网、不花钱，这还要啥自行车。

下载模型？一条命令的事。等个几分钟下完，后面所有操作完全离线。你改代码、调参数、跑推理，再也不看网络脸色。官方 API 再好，架不住它是个公共厕所——高峰期总得排队。本地部署就像自家马桶，想蹲多久蹲多久。

装 Ollama 并跑起 DeepSeek-R1，比煮泡面还简单。整套流程确实简单，但有几个细节容易卡壳。

Windows 用户直接去官网下 exe 安装包，双击下一步到底；mac 党推荐用 Homebrew：brew install ollama，比拖应用更极客；Linux 玩家一条脚本走天下：curl -fsSL https://ollama.com/install.sh | sh。装完记得 ollama --version 验明正身，看到版本号那刻才算真正拥有。

模型下载其实是个拼手速游戏。7B 版本 4.7GB，14B 翻倍到 9.4GB，32B 直接冲到 19GB——网速决定今晚几点能睡觉。执行 ollama pull deepseek-r1:7b 时别慌，终端里跳动的数字不是 bug，是在给你硬盘减肥。中途断网？重跑命令会自动续传。

第一次对话总是最紧张的。输入 ollama run deepseek-r1:7b 后屏幕闪出 > 提示符，这时候别怂，直接甩个经典考题："9.11 和 9.8 哪个大？"看着它从思考到作答的过程，比看任何评测都直观。想试炼创意？马上追加 --temperature 0.95 参数，感受文字从冷静分析变成意识流诗人。

多显卡玩家的秘密武器：插着两张 RTX 4090 的老哥注意了，这条命令能让你显存利用率翻倍：ollama run deepseek-r1:14b --num-gpu 2。开启 Flash Attention 后，生成速度直接起飞——前提是你的驱动支持 CUDA 12+，不然就等着看报错烟花吧。

temperature 和 top_p：控制 AI“性格”的两个旋钮

模型跑起来了，但你可能很快发现一个问题：同一个提示词，每次生成的结果像抽盲盒。有时候它像个严谨的数学老师，逐行推导；有时候又像个喝了半斤二锅头的诗人，输出一堆你根本看不懂的比喻。这种“人格分裂”的根源，就在 temperature 和 top_p 这两个参数上。它们不是玄学，是数学——概率分布上的两个旋钮。

你把 temperature 调到 0.2，模型会像个强迫症患者：每次只选概率最高的那个词。写代码注释时贼稳，生成的 SQL 语句基本不用改。但让它写个广告文案？完了，翻来覆去就那三板斧。反过来，调到 1.5 甚至 2.0，模型开始放飞自我。它会选那些概率很低的冷门词，组合出你意想不到的句子。我试过 temperature=1.8 让 DeepSeek-R1-7B 写一首关于“路由器”的诗，它居然写出了“光纤在血管里流淌，信号是永不熄灭的星火”——虽然逻辑上扯淡，但创意确实炸裂。但别贪心。超过 2.0 基本就是乱码生成器，输出质量断崖式下跌。0.7 到 1.2 这个区间，是最常用的“舒适区”。写技术文档、调 Bug 用 0.3 到 0.5；脑暴需求、构思文案上 0.9 到 1.2。就这么简单。

如果说 temperature 是调音量，那 top_p 就是切歌单。它干的事更粗暴：把所有候选词按概率从高到低排好，然后画条线——只保留累积概率占前 p% 的词，其余的一刀切掉。top_p=0.1 的时候，模型只看概率最高的那 10% 的词，输出特别“正”，但无聊。top_p=0.9 的时候，候选词范围扩大到了 90%，能蹦出一些冷门但有趣的词。

这两个参数不是孤立的。我常用的组合是：--temperature 0.3 --top-p 0.9，这样既保证了逻辑严谨（低 temperature 压榨高概率词），又留了些多样性空间（高 top_p 不把冷门词一棍子打死）。反过来，写段子的时候调到 --temperature 1.2 --top-p 0.3，让模型只从最热的那部分词里疯狂随机跳跃——结果经常笑死人。

怎么在 Ollama 里拧这两个旋钮？命令行直接加参数就行，比改 config.json 省事多了：

ollama run deepseek-r1:7b --param temperature=0.8 --param top_p=0.7

这行命令跑起来，模型就开始按你设定的“性格”输出了。想长期固定？写个 Modelfile：

然后 ollama create my-custom -f Modelfile，以后跑 ollama run my-custom 就是你的定制版了。我踩过一个坑：刚开始以为 temperature 和 top_p 越高越好，结果生成了一堆语法正确但毫无意义的废话。后来才明白，创意不是乱来，是在约束里跳舞。调参这事，得边试边骂，骂完再试——直到找到那个“这 AI 今天智商在线”的感觉。说实话，这两个参数调明白了，你手里的 DeepSeek-R1 就不再是“另一个大模型”，而是一个可以随时切换性格的搭档。要严谨还是要脑洞，你说了算。

从写代码到写故事，参数怎么调

不同任务对“稳”和“野”的需求完全不同，拧对两个旋钮，体验差别巨大。

做接口、修 SQL、补注释，最怕模型自作聪明改关键字。把 temperature 打到 0.2，top_p 收到 0.1，候选词被压得很窄，输出就会沿着语法轨道走。启动时带上参数：

ollama run deepseek-r1:7b --param temperature=0.2 --param top_p=0.1

如果你用的是 Modelfile 固化配置，记得把两行写进去：

这样每次 ollama run 都会以“谨慎模式”起步，少出幺蛾子。头脑风暴时，构思功能名、列市场切入点，我希望模型跳出常见词汇池。把 temperature 调到 1.2，top_p 拉到 0.9，既扩大候选范围，又在采样时多给随机性。命令行一把过：

ollama run deepseek-r1:14b --param temperature=1.2 --param top_p=0.9

同一套提示词，有时第一版太保守，第二版又太飞，来回两三次就能筛出可落地的那几条。对外沟通要在专业与亲切之间找平衡。temperature 0.7、top_p 0.8 是个中庸组合：语气自然，又不会乱开脑洞。临时起意就加参运行：

ollama run deepseek-r1:7b --param temperature=0.7 --param top_p=0.8

如果上下文较长，先把 PARAMETER num_ctx 8192 写进 Modelfile，再把这两个参数一起固化，省得每次都敲一遍。参数配对了，活儿就顺了。

踩坑记录：为什么我的 DeepSeek-R1 总答非所问

聊了那么多理论，现在轮到血泪史了。第一次上手调参，我犯了个蠢——把 temperature 直接干到 1.8，想着“创意脑暴嘛，越浪越好”。结果模型开始自信地编造事实：问它“Python 列表推导式怎么用”，它给我输出了一段虚构的 PEP 提案编号，还附上了根本不存在的官方文档链接。当时我还纳闷，这模型怎么突然变“懂王”了？后来才反应过来：temperature 太高，模型不是在回答问题，是在玩“词语接龙”——谁冷门选谁，管它对不对。候选分布被拉得太平，低概率词纷纷上位，事实准确性自然崩了。如果你看到模型开始胡诌引用、瞎编版本号，先看看 temperature 是不是飙过 1.0 了。

更坑的还在后面。我调低了 temperature，设成 0.3，心想总该稳了吧？结果输出纹丝不变，还是那么颠。查了半天文档，发现 Ollama 默认 do_sample 是 false——也就是说，你改的 temperature 和 top_p 根本没生效。模型始终在用贪心解码（每次都选概率最高的那个 token），你拧旋钮拧到冒烟也没用。解决办法：在 Modelfile 里明确写上

然后 ollama create 重新创建模型实例。少这一行，前面全是白忙活。这个坑我踩了整整一个晚上才爬出来。

还有一个隐蔽的坑：默认上下文窗口只有 2048 个 token。你以为模型“答非所问”，其实它早就忘了你开头说了什么。长对话、多轮追问、粘贴大段代码进去——模型开始重复前面的回答，或者突然切换话题，十有八九是窗口被撑爆了。在 Modelfile 里扩一下就行：

如果设备内存够，直接拉到 16384 也行。DeepSeek-R1-7B 在 16GB 显存上跑 8192 还算流畅，再大就开始吃交换内存了。对了，改了 num_ctx 之后，首 token 延迟会明显增加——模型要花更多时间做 KV 缓存初始化，别慌，这是正常现象。总之，遇到模型突然犯傻，先检查这三样：temperature 是不是太高、do_sample 开了没、上下文窗口够不够。大部分“AI 抽风”都是这三个坑里掉进去的。

进阶玩法：通过 Modelfile 固化你的专属风格

当你终于摸清了 temperature 和 top_p 的门道，下一个问题就是：总不能每次运行 ollama run 都手动追加一圈参数吧？尤其做 RAG 时，如果参数随命令行变来变去，知识库问答的稳定性很容易打回原形。答案是 Modelfile——把你的风格写死进容器镜像，一次定义，处处一致。

新建一个名为 Modelfile（无后缀）的文件，写入如下内容：

FROM deepseek-r1:7b
PARAMETER temperature 0.5
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
# 如果 Ollama ≥0.4，可显式开启采样
PARAMETER do_sample true

随后执行：

跑完 ollama list 一看，多了一个叫 my-deepseek 的自定义模型。这东西挺省心——以后不管是重启电脑还是扔给同事，一条就搞定，temperature、top_p 这些参数和上下文窗口全都自动带上了。再也不用半夜发消息问“你那边模型怎么又抽风了”，那种玄学 bug 终于能歇一歇。

在 RAGFlow 的模型设置页选择 my-deepseek，并把知识库指向同一台 Ollama 服务。由于 temperature 已被固定在 0.5，回答会更偏严谨；若临时想脑暴，可在提示词里写明“请把 temperature 调到 1.2”，但默认形态已经足够稳定。别忘了 num_ctx 已扩到 8192，多轮对话和整段代码都能塞进去，不至于聊两句就失忆。说到底，工具再花哨也得回到人的需求：有时候你要的是稳如老狗的逻辑推演，有时候又要天马行空的点子。把两种风格分别打包成两个 Modelfile，切换就像换笔一样自然。祝你玩得开心，也别忘了偶尔抬头看看窗外。

用Ollama本地部署DeepSeek-R1：调整temperature和top_p，从严谨逻辑到创意脑暴

本地跑 DeepSeek-R1 才是真·自己做主

temperature 和 top_p：控制 AI“性格”的两个旋钮

从写代码到写故事，参数怎么调

踩坑记录：为什么我的 DeepSeek-R1 总答非所问

进阶玩法：通过 Modelfile 固化你的专属风格

评论

本地跑 DeepSeek-R1 才是真·自己做主

temperature 和 top_p：控制 AI“性格”的两个旋钮

从写代码到写故事，参数怎么调

踩坑记录：为什么我的 DeepSeek-R1 总答非所问

进阶玩法：通过 Modelfile 固化你的专属风格

相关文章

用Ollama本地部署Rerank模型：给RAG检索结果做二次精排

Ollama本地部署Function Calling：让AI自主调用API实现日程、文件与系统操作

用Ollama在NAS上部署Qwen2.5，打造私有AI助手与文件管理联动

用Ollama本地部署开源语音模型，实现离线语音转文字与会议纪要自动生成

Ollama 本地部署实战：从 Prompt 到 Agent 的完整落地指南

评论