Ollama 本地模型快速上手
1. 先理解 Ollama 是什么
对刚安装完的新手来说,可以先把 Ollama 理解成一件事:
- 它是一个让你在本机运行大模型的工具
它帮你做的事情主要有三类:
- 下载模型
- 在本机启动模型服务
- 通过命令行或 HTTP API 与模型交互
如果你以前主要接触的是 OpenAI、Claude 这类云端模型,可以把它们这样区分:
- OpenAI / Claude:模型运行在云端,你通过 API 调用
- Ollama:模型运行在你自己的机器上,你本地调用
对新手最重要的认知是:
Ollama不是模型本身llama3、qwen、deepseek-r1这类才是具体模型
对有经验的读者,更值得关注的是:
- 本地模型的显存、内存和推理速度约束
- 模型格式、量化版本和上下文长度的差异
Ollama如何作为本地推理层接入 IDE、Web UI 或 Agent 工具
2. 安装后先做什么
如果你已经安装好了,建议按这个顺序验证:
- 确认命令可用。
- 拉一个体量适中的模型。
- 先在命令行跑通一次对话。
- 再理解 HTTP API 怎么调用。
先执行:
ollama --version
ollama list这两个命令分别用来确认:
ollama是否已经可执行- 当前本机已经有哪些模型
如果 ollama list 为空,不代表出错,只表示你还没有下载任何模型。
3. 第一模型拉什么最合适
刚开始不建议一上来就拉超大模型。
更稳妥的原则是:
- 先选一个社区常用、体量适中、中文能力还不错的模型
对大多数刚入门的本地使用场景,可以先考虑:
qwen2.5:7bllama3.1:8bgemma2:9b
如果你的机器配置一般,更适合先尝试:
qwen2.5:3bgemma2:2b
拉取模型的命令:
ollama pull qwen2.5:7b你可以把它理解为:
- 从远端模型仓库下载一个模型到本地
下载完成后,再执行:
ollama list此时应该就能看到刚拉下来的模型。
4. 怎么直接开始对话
最简单的方式就是命令行运行:
ollama run qwen2.5:7b进入后你就可以直接输入问题,例如:
请用通俗易懂的方式解释什么是反向代理。这个阶段你只需要先建立两个感觉:
- 模型能不能正常响应
- 速度是不是在你能接受的范围内
如果它能正常回答,说明你已经把“本地模型可运行”这一步走通了。
5. 最常用的几个命令
5.1 查看本地模型
ollama list5.2 拉取模型
ollama pull qwen2.5:7b5.3 运行模型
ollama run qwen2.5:7b5.4 删除模型
ollama rm qwen2.5:7b5.5 查看当前运行中的模型
ollama ps新手先掌握上面这 5 个命令就够用了。
6. 如何通过 HTTP API 调用
很多本地 AI 工具并不是直接执行 ollama run,而是通过本地 HTTP 接口去调用。
最常见的地址是:
http://localhost:11434一个最小请求示例:
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:7b",
"prompt": "请解释什么是 Nginx,并给出一个最小使用场景。",
"stream": false
}'可以先这样理解:
model指定要用哪个模型prompt是你的输入stream: false表示这次先不要流式返回,方便新手看完整结果
这一步很重要,因为后面你接 Chatbox、Open WebUI、Cherry Studio、AnythingLLM 或自己的脚本时,本质上都离不开“本地模型服务能被调用”这件事。
7. 新手最容易踩的坑
7.1 装好了,但运行特别慢
常见原因:
- 模型太大,超出你机器的舒适区
- 内存或显存不够
- 第一次加载模型本来就会慢一些
更稳妥的做法是:
- 先换小一档模型验证链路
7.2 不知道该选哪个模型
不要一开始就试图找到“最强模型”。
更适合初学者的思路是:
- 先找到本机能稳定跑起来的模型。
- 再比较中文能力、代码能力和速度。
- 最后按场景做分工。
例如:
- 日常中文问答:优先试
Qwen - 通用英文和多语言:可以试
Llama - 代码与推理:再看更适合代码场景的模型
7.3 命令能用,但工具接不上
这类问题通常先排查:
Ollama服务是否已经启动- 调用地址是不是
localhost:11434 - 模型名是否写对
- 目标工具是否要求 OpenAI 兼容格式还是原生 Ollama 格式
8. 一条由浅入深的使用路径
如果你现在刚安装完,建议按这个顺序继续:
- 先用
ollama list、ollama pull、ollama run走通命令行。 - 再用
curl调一次本地 API。 - 再接一个图形工具,比如 Chatbox 或 Open WebUI。
- 最后再接入编程工具、编辑器插件或 Agent 工作流。
这样做的好处是:
- 新手不会被一堆生态工具绕晕
- 老手也能更快定位问题到底在模型、服务层还是上层应用
9. 适合你的下一步
如果你是“刚安装,想先会用”,最值得立刻做的是:
- 拉一个
qwen2.5:7b或更小版本。 - 用
ollama run直接对话一次。 - 用
curl调一次/api/generate。
走完这三步,你就已经不是“刚装好不会用”,而是已经真正打通了本地模型的最小闭环。