Ollama是目前最流行的本地大模型运行工具,让你在自己的电脑上运行LLaMA、DeepSeek、Qwen等开源模型——完全离线,数据不出本地,一条命令搞定。这篇教程从安装到实战,手把手带你跑起来。
为什么要本地运行大模型?
- 隐私安全:数据不发送给任何服务器,适合处理敏感商业文档、代码
- 完全免费:跑起来之后无API费用,无使用限额
- 无需网络:断网环境也能用,国内访问速度不受限
- 可自定义:可以微调模型,创建专属知识库
硬件要求
| 模型规模 | 最低显存/内存 | 推荐硬件 | 适合模型 |
|---|---|---|---|
| 小型(7B) | 8GB RAM | 普通笔记本 | DeepSeek-R1-7B, Qwen2.5-7B |
| 中型(14B) | 16GB RAM 或 8GB显存 | M系列Mac / 中端GPU | Qwen2.5-14B, DeepSeek-R1-14B |
| 大型(32B) | 32GB RAM 或 24GB显存 | M2 Max Mac / RTX 4090 | Qwen2.5-32B, Llama3.3-70B(量化) |
| 超大(70B+) | 64GB+ RAM 或多卡 | Mac Studio / 服务器 | Llama3.3-70B, DeepSeek-V3(量化) |
M系列Mac特别适合:苹果的统一内存架构让内存也可以当显存用,16GB内存可以流畅运行14B模型。
安装Ollama
macOS
# 方法一:官网下载安装包(推荐)
# 访问 ollama.com,下载 macOS 版本,拖入Applications
# 方法二:Homebrew
brew install ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
下载官网的 Windows 安装包(.exe),双击安装即可。Ollama会自动配置好运行环境。
运行你的第一个模型
# 下载并运行 DeepSeek R1 7B(推荐新手起步)
ollama run deepseek-r1:7b
# 下载后直接进入对话界面,输入问题回车即可
# 输入 /bye 退出
首次运行会自动下载模型文件(7B模型约4-5GB),下载完成后立即可用。
推荐模型清单(2026)
| 模型 | 命令 | 大小 | 特点 |
|---|---|---|---|
| DeepSeek-R1 7B | ollama run deepseek-r1:7b |
~4.7GB | 推理能力强,中文好,新手推荐 |
| Qwen2.5 7B | ollama run qwen2.5:7b |
~4.7GB | 阿里出品,中文能力顶级 |
| Qwen2.5 14B | ollama run qwen2.5:14b |
~9GB | 性能大幅提升,16GB内存可跑 |
| Llama 3.2 3B | ollama run llama3.2:3b |
~2GB | 超轻量,4GB内存可跑 |
| Mistral 7B | ollama run mistral |
~4.1GB | 英文能力强,代码优秀 |
| CodeLlama 13B | ollama run codellama:13b |
~7.4GB | 代码专用,支持多语言 |
常用命令速查
# 列出已下载的模型
ollama list
# 下载模型(不立即运行)
ollama pull qwen2.5:14b
# 删除模型
ollama rm deepseek-r1:7b
# 查看运行中的模型
ollama ps
# 查看模型信息
ollama show deepseek-r1:7b
进阶:通过API调用(接入自己的程序)
Ollama启动后会在本地开启一个API服务(默认端口11434),接口格式与OpenAI完全兼容:
from openai import OpenAI
# 指向本地Ollama
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 随便填,本地不需要真实key
)
response = client.chat.completions.create(
model="deepseek-r1:7b",
messages=[{"role": "user", "content": "帮我写一个Python爬虫"}]
)
print(response.choices[0].message.content)
进阶:Open WebUI(浏览器界面)
命令行对话不够直观?用 Open WebUI 给Ollama套一个像ChatGPT一样的网页界面:
# 需要先安装Docker
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main
# 启动后访问 http://localhost:3000
Open WebUI支持对话历史、多模型切换、文件上传、联网搜索等功能,体验接近商业AI产品。
进阶:在Cursor/Continue中使用本地模型
通过Continue插件(VSCode插件),可以让本地Ollama模型成为你的编程助手,完全免费且离线:
- 在VSCode安装 Continue 插件
- 打开
~/.continue/config.json - 添加 Ollama 模型配置
- 在VSCode侧边栏选择本地模型开始对话
常见问题
Q:模型下载很慢怎么办?
Ollama的模型存储在 Hugging Face 镜像,国内速度因网络而异。解决方案:使用国内镜像源,或通过科学上网下载,模型下载完成后就完全离线了。
Q:模型文件存在哪里?
# macOS/Linux
~/.ollama/models/
# Windows
C:Users用户名.ollamamodels
Q:本地7B模型和ChatGPT差多远?
差距明显但没有想象中大。7B本地模型适合日常文本处理、代码辅助、翻译等任务。复杂推理、长文档分析、创意写作上与GPT-4o差距较大。14B以上的模型差距会缩小很多。
总结
Ollama是本地AI部署的最低门槛方案,一条命令跑起来,零基础也能上手。入门推荐从 DeepSeek-R1 7B 或 Qwen2.5 7B 开始——两个都是中文能力顶级的开源模型,在8GB内存的普通电脑上流畅运行。
本地模型不是为了替代Claude或GPT,而是为日常高频任务提供一个免费、私密、无限制的选择。配合Open WebUI,体验已经相当不错。
延伸阅读
👉 查看完整AI工具导航:所有AI工具教程一站汇总
