Ollama怎么用：2026年本地运行大模型完整教程，免费离线跑DeepSeek/Qwen

Ollama是目前最流行的本地大模型运行工具，让你在自己的电脑上运行LLaMA、DeepSeek、Qwen等开源模型——完全离线，数据不出本地，一条命令搞定。这篇教程从安装到实战，手把手带你跑起来。

为什么要本地运行大模型？

隐私安全：数据不发送给任何服务器，适合处理敏感商业文档、代码
完全免费：跑起来之后无API费用，无使用限额
无需网络：断网环境也能用，国内访问速度不受限
可自定义：可以微调模型，创建专属知识库

硬件要求

模型规模	最低显存/内存	推荐硬件	适合模型
小型（7B）	8GB RAM	普通笔记本	DeepSeek-R1-7B, Qwen2.5-7B
中型（14B）	16GB RAM 或 8GB显存	M系列Mac / 中端GPU	Qwen2.5-14B, DeepSeek-R1-14B
大型（32B）	32GB RAM 或 24GB显存	M2 Max Mac / RTX 4090	Qwen2.5-32B, Llama3.3-70B(量化)
超大（70B+）	64GB+ RAM 或多卡	Mac Studio / 服务器	Llama3.3-70B, DeepSeek-V3（量化）

M系列Mac特别适合：苹果的统一内存架构让内存也可以当显存用，16GB内存可以流畅运行14B模型。

安装Ollama

macOS

# 方法一：官网下载安装包（推荐）
# 访问 ollama.com，下载 macOS 版本，拖入Applications

# 方法二：Homebrew
brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

下载官网的 Windows 安装包（.exe），双击安装即可。Ollama会自动配置好运行环境。

运行你的第一个模型

# 下载并运行 DeepSeek R1 7B（推荐新手起步）
ollama run deepseek-r1:7b

# 下载后直接进入对话界面，输入问题回车即可
# 输入 /bye 退出

首次运行会自动下载模型文件（7B模型约4-5GB），下载完成后立即可用。

模型	命令	大小	特点
DeepSeek-R1 7B	`ollama run deepseek-r1:7b`	~4.7GB	推理能力强，中文好，新手推荐
Qwen2.5 7B	`ollama run qwen2.5:7b`	~4.7GB	阿里出品，中文能力顶级
Qwen2.5 14B	`ollama run qwen2.5:14b`	~9GB	性能大幅提升，16GB内存可跑
Llama 3.2 3B	`ollama run llama3.2:3b`	~2GB	超轻量，4GB内存可跑
Mistral 7B	`ollama run mistral`	~4.1GB	英文能力强，代码优秀
CodeLlama 13B	`ollama run codellama:13b`	~7.4GB	代码专用，支持多语言

常用命令速查

# 列出已下载的模型
ollama list

# 下载模型（不立即运行）
ollama pull qwen2.5:14b

# 删除模型
ollama rm deepseek-r1:7b

# 查看运行中的模型
ollama ps

# 查看模型信息
ollama show deepseek-r1:7b

进阶：通过API调用（接入自己的程序）

Ollama启动后会在本地开启一个API服务（默认端口11434），接口格式与OpenAI完全兼容：

from openai import OpenAI

# 指向本地Ollama
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 随便填，本地不需要真实key
)

response = client.chat.completions.create(
    model="deepseek-r1:7b",
    messages=[{"role": "user", "content": "帮我写一个Python爬虫"}]
)
print(response.choices[0].message.content)

进阶：Open WebUI（浏览器界面）

命令行对话不够直观？用 Open WebUI 给Ollama套一个像ChatGPT一样的网页界面：

# 需要先安装Docker
docker run -d -p 3000:8080   --add-host=host.docker.internal:host-gateway   -v open-webui:/app/backend/data   --name open-webui   ghcr.io/open-webui/open-webui:main

# 启动后访问 http://localhost:3000

Open WebUI支持对话历史、多模型切换、文件上传、联网搜索等功能，体验接近商业AI产品。

进阶：在Cursor/Continue中使用本地模型

通过Continue插件（VSCode插件），可以让本地Ollama模型成为你的编程助手，完全免费且离线：

在VSCode安装 Continue 插件
打开 ~/.continue/config.json
添加 Ollama 模型配置
在VSCode侧边栏选择本地模型开始对话

常见问题

Q：模型下载很慢怎么办？

Ollama的模型存储在 Hugging Face 镜像，国内速度因网络而异。解决方案：使用国内镜像源，或通过科学上网下载，模型下载完成后就完全离线了。

Q：模型文件存在哪里？

# macOS/Linux
~/.ollama/models/

# Windows
C:Users用户名.ollamamodels

Q：本地7B模型和ChatGPT差多远？

差距明显但没有想象中大。7B本地模型适合日常文本处理、代码辅助、翻译等任务。复杂推理、长文档分析、创意写作上与GPT-4o差距较大。14B以上的模型差距会缩小很多。

总结

Ollama是本地AI部署的最低门槛方案，一条命令跑起来，零基础也能上手。入门推荐从 DeepSeek-R1 7B 或 Qwen2.5 7B 开始——两个都是中文能力顶级的开源模型，在8GB内存的普通电脑上流畅运行。

本地模型不是为了替代Claude或GPT，而是为日常高频任务提供一个免费、私密、无限制的选择。配合Open WebUI，体验已经相当不错。

延伸阅读

👉 查看完整AI工具导航：所有AI工具教程一站汇总

Ollama怎么用：2026年本地运行大模型完整教程，免费离线跑DeepSeek/Qwen

为什么要本地运行大模型？

硬件要求

安装Ollama

macOS

Linux

Windows

运行你的第一个模型

推荐模型清单（2026）

常用命令速查

进阶：通过API调用（接入自己的程序）

进阶：Open WebUI（浏览器界面）

进阶：在Cursor/Continue中使用本地模型

常见问题

Q：模型下载很慢怎么办？

Q：模型文件存在哪里？

Q：本地7B模型和ChatGPT差多远？

总结

延伸阅读

0 条评论

发表评论取消回复

为什么要本地运行大模型？

硬件要求

安装Ollama

macOS

Linux

Windows

运行你的第一个模型

推荐模型清单（2026）

常用命令速查

进阶：通过API调用（接入自己的程序）

进阶：Open WebUI（浏览器界面）

进阶：在Cursor/Continue中使用本地模型

常见问题

Q：模型下载很慢怎么办？

Q：模型文件存在哪里？

Q：本地7B模型和ChatGPT差多远？

总结

延伸阅读

相关文章

可灵AI使用教程（2026）：文生视频、图生视频、运动笔刷完整攻略，快手最强AI视频工具

HeyGen完全指南（2026）：AI数字人视频生成工具深度评测，视频翻译口型同步、虚拟形象定制与企业营销应用全解析

阿里云和腾讯云轻量应用服务器的比较

AI画图工具完全指南（2026）：Midjourney vs DALL-E vs 即梦AI，哪个最值得用？

0 条评论

发表评论 取消回复

发表评论取消回复