Ollama 本地模型快速上手

1. 先理解 Ollama 是什么

对刚安装完的新手来说，可以先把 Ollama 理解成一件事：

它是一个让你在本机运行大模型的工具

它帮你做的事情主要有三类：

下载模型
在本机启动模型服务
通过命令行或 HTTP API 与模型交互

如果你以前主要接触的是 OpenAI、Claude 这类云端模型，可以把它们这样区分：

OpenAI / Claude：模型运行在云端，你通过 API 调用
Ollama：模型运行在你自己的机器上，你本地调用

对新手最重要的认知是：

Ollama 不是模型本身
llama3、qwen、deepseek-r1 这类才是具体模型

对有经验的读者，更值得关注的是：

本地模型的显存、内存和推理速度约束
模型格式、量化版本和上下文长度的差异
Ollama 如何作为本地推理层接入 IDE、Web UI 或 Agent 工具

2. 安装后先做什么

如果你已经安装好了，建议按这个顺序验证：

确认命令可用。
拉一个体量适中的模型。
先在命令行跑通一次对话。
再理解 HTTP API 怎么调用。

先执行：

ollama --version
ollama list

这两个命令分别用来确认：

ollama 是否已经可执行
当前本机已经有哪些模型

如果 ollama list 为空，不代表出错，只表示你还没有下载任何模型。

3. 第一模型拉什么最合适

刚开始不建议一上来就拉超大模型。

更稳妥的原则是：

先选一个社区常用、体量适中、中文能力还不错的模型

对大多数刚入门的本地使用场景，可以先考虑：

qwen2.5:7b
llama3.1:8b
gemma2:9b

如果你的机器配置一般，更适合先尝试：

qwen2.5:3b
gemma2:2b

拉取模型的命令：

ollama pull qwen2.5:7b

你可以把它理解为：

从远端模型仓库下载一个模型到本地

下载完成后，再执行：

ollama list

此时应该就能看到刚拉下来的模型。

4. 怎么直接开始对话

最简单的方式就是命令行运行：

ollama run qwen2.5:7b

进入后你就可以直接输入问题，例如：

请用通俗易懂的方式解释什么是反向代理。

这个阶段你只需要先建立两个感觉：

模型能不能正常响应
速度是不是在你能接受的范围内

如果它能正常回答，说明你已经把“本地模型可运行”这一步走通了。

5. 最常用的几个命令

5.1 查看本地模型

ollama list

5.2 拉取模型

ollama pull qwen2.5:7b

5.3 运行模型

ollama run qwen2.5:7b

5.4 删除模型

ollama rm qwen2.5:7b

5.5 查看当前运行中的模型

ollama ps

新手先掌握上面这 5 个命令就够用了。

6. 如何通过 HTTP API 调用

很多本地 AI 工具并不是直接执行 ollama run，而是通过本地 HTTP 接口去调用。

最常见的地址是：

http://localhost:11434

一个最小请求示例：

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "请解释什么是 Nginx，并给出一个最小使用场景。",
  "stream": false
}'

可以先这样理解：

model 指定要用哪个模型
prompt 是你的输入
stream: false 表示这次先不要流式返回，方便新手看完整结果

这一步很重要，因为后面你接 Chatbox、Open WebUI、Cherry Studio、AnythingLLM 或自己的脚本时，本质上都离不开“本地模型服务能被调用”这件事。

7. 新手最容易踩的坑

7.1 装好了，但运行特别慢

常见原因：

模型太大，超出你机器的舒适区
内存或显存不够
第一次加载模型本来就会慢一些

更稳妥的做法是：

先换小一档模型验证链路

7.2 不知道该选哪个模型

不要一开始就试图找到“最强模型”。

更适合初学者的思路是：

先找到本机能稳定跑起来的模型。
再比较中文能力、代码能力和速度。
最后按场景做分工。

例如：

日常中文问答：优先试 Qwen
通用英文和多语言：可以试 Llama
代码与推理：再看更适合代码场景的模型

7.3 命令能用，但工具接不上

这类问题通常先排查：

Ollama 服务是否已经启动
调用地址是不是 localhost:11434
模型名是否写对
目标工具是否要求 OpenAI 兼容格式还是原生 Ollama 格式

8. 一条由浅入深的使用路径

如果你现在刚安装完，建议按这个顺序继续：

先用 ollama list、ollama pull、ollama run 走通命令行。
再用 curl 调一次本地 API。
再接一个图形工具，比如 Chatbox 或 Open WebUI。
最后再接入编程工具、编辑器插件或 Agent 工作流。

这样做的好处是：

新手不会被一堆生态工具绕晕
老手也能更快定位问题到底在模型、服务层还是上层应用

9. 适合你的下一步

如果你是“刚安装，想先会用”，最值得立刻做的是：

拉一个 qwen2.5:7b 或更小版本。
用 ollama run 直接对话一次。
用 curl 调一次 /api/generate。

走完这三步，你就已经不是“刚装好不会用”，而是已经真正打通了本地模型的最小闭环。

Muliminty Note

探索

Ollama 本地模型快速上手

Ollama 本地模型快速上手

1. 先理解 Ollama 是什么

2. 安装后先做什么

3. 第一模型拉什么最合适

4. 怎么直接开始对话

5. 最常用的几个命令

5.1 查看本地模型

5.2 拉取模型

5.3 运行模型

5.4 删除模型

5.5 查看当前运行中的模型

6. 如何通过 HTTP API 调用

7. 新手最容易踩的坑

7.1 装好了，但运行特别慢

7.2 不知道该选哪个模型

7.3 命令能用，但工具接不上

8. 一条由浅入深的使用路径

9. 适合你的下一步

10. 相关笔记

关系图谱

目录

反向链接