Ollama 本地模型快速上手

1. 先理解 Ollama 是什么

对刚安装完的新手来说,可以先把 Ollama 理解成一件事:

  • 它是一个让你在本机运行大模型的工具

它帮你做的事情主要有三类:

  • 下载模型
  • 在本机启动模型服务
  • 通过命令行或 HTTP API 与模型交互

如果你以前主要接触的是 OpenAI、Claude 这类云端模型,可以把它们这样区分:

  • OpenAI / Claude:模型运行在云端,你通过 API 调用
  • Ollama:模型运行在你自己的机器上,你本地调用

对新手最重要的认知是:

  • Ollama 不是模型本身
  • llama3qwendeepseek-r1 这类才是具体模型

对有经验的读者,更值得关注的是:

  • 本地模型的显存、内存和推理速度约束
  • 模型格式、量化版本和上下文长度的差异
  • Ollama 如何作为本地推理层接入 IDE、Web UI 或 Agent 工具

2. 安装后先做什么

如果你已经安装好了,建议按这个顺序验证:

  1. 确认命令可用。
  2. 拉一个体量适中的模型。
  3. 先在命令行跑通一次对话。
  4. 再理解 HTTP API 怎么调用。

先执行:

ollama --version
ollama list

这两个命令分别用来确认:

  • ollama 是否已经可执行
  • 当前本机已经有哪些模型

如果 ollama list 为空,不代表出错,只表示你还没有下载任何模型。

3. 第一模型拉什么最合适

刚开始不建议一上来就拉超大模型。

更稳妥的原则是:

  • 先选一个社区常用、体量适中、中文能力还不错的模型

对大多数刚入门的本地使用场景,可以先考虑:

  • qwen2.5:7b
  • llama3.1:8b
  • gemma2:9b

如果你的机器配置一般,更适合先尝试:

  • qwen2.5:3b
  • gemma2:2b

拉取模型的命令:

ollama pull qwen2.5:7b

你可以把它理解为:

  • 从远端模型仓库下载一个模型到本地

下载完成后,再执行:

ollama list

此时应该就能看到刚拉下来的模型。

4. 怎么直接开始对话

最简单的方式就是命令行运行:

ollama run qwen2.5:7b

进入后你就可以直接输入问题,例如:

请用通俗易懂的方式解释什么是反向代理。

这个阶段你只需要先建立两个感觉:

  • 模型能不能正常响应
  • 速度是不是在你能接受的范围内

如果它能正常回答,说明你已经把“本地模型可运行”这一步走通了。

5. 最常用的几个命令

5.1 查看本地模型

ollama list

5.2 拉取模型

ollama pull qwen2.5:7b

5.3 运行模型

ollama run qwen2.5:7b

5.4 删除模型

ollama rm qwen2.5:7b

5.5 查看当前运行中的模型

ollama ps

新手先掌握上面这 5 个命令就够用了。

6. 如何通过 HTTP API 调用

很多本地 AI 工具并不是直接执行 ollama run,而是通过本地 HTTP 接口去调用。

最常见的地址是:

http://localhost:11434

一个最小请求示例:

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "请解释什么是 Nginx,并给出一个最小使用场景。",
  "stream": false
}'

可以先这样理解:

  • model 指定要用哪个模型
  • prompt 是你的输入
  • stream: false 表示这次先不要流式返回,方便新手看完整结果

这一步很重要,因为后面你接 Chatbox、Open WebUI、Cherry Studio、AnythingLLM 或自己的脚本时,本质上都离不开“本地模型服务能被调用”这件事。

7. 新手最容易踩的坑

7.1 装好了,但运行特别慢

常见原因:

  • 模型太大,超出你机器的舒适区
  • 内存或显存不够
  • 第一次加载模型本来就会慢一些

更稳妥的做法是:

  • 先换小一档模型验证链路

7.2 不知道该选哪个模型

不要一开始就试图找到“最强模型”。

更适合初学者的思路是:

  1. 先找到本机能稳定跑起来的模型。
  2. 再比较中文能力、代码能力和速度。
  3. 最后按场景做分工。

例如:

  • 日常中文问答:优先试 Qwen
  • 通用英文和多语言:可以试 Llama
  • 代码与推理:再看更适合代码场景的模型

7.3 命令能用,但工具接不上

这类问题通常先排查:

  • Ollama 服务是否已经启动
  • 调用地址是不是 localhost:11434
  • 模型名是否写对
  • 目标工具是否要求 OpenAI 兼容格式还是原生 Ollama 格式

8. 一条由浅入深的使用路径

如果你现在刚安装完,建议按这个顺序继续:

  1. 先用 ollama listollama pullollama run 走通命令行。
  2. 再用 curl 调一次本地 API。
  3. 再接一个图形工具,比如 Chatbox 或 Open WebUI。
  4. 最后再接入编程工具、编辑器插件或 Agent 工作流。

这样做的好处是:

  • 新手不会被一堆生态工具绕晕
  • 老手也能更快定位问题到底在模型、服务层还是上层应用

9. 适合你的下一步

如果你是“刚安装,想先会用”,最值得立刻做的是:

  1. 拉一个 qwen2.5:7b 或更小版本。
  2. ollama run 直接对话一次。
  3. curl 调一次 /api/generate

走完这三步,你就已经不是“刚装好不会用”,而是已经真正打通了本地模型的最小闭环。

10. 相关笔记