老达博客 AI 工具 Ollama怎么用:2026年本地运行大模型完整教程,免费离线跑DeepSeek/Qwen

Ollama怎么用:2026年本地运行大模型完整教程,免费离线跑DeepSeek/Qwen

Ollama是目前最流行的本地大模型运行工具,让你在自己的电脑上运行LLaMA、DeepSeek、Qwen等开源模型——完全离线,数据不出本地,一条命令搞定。这篇教程从安装到实战,手把手带你跑起来。

为什么要本地运行大模型?

  • 隐私安全:数据不发送给任何服务器,适合处理敏感商业文档、代码
  • 完全免费:跑起来之后无API费用,无使用限额
  • 无需网络:断网环境也能用,国内访问速度不受限
  • 可自定义:可以微调模型,创建专属知识库

硬件要求

模型规模 最低显存/内存 推荐硬件 适合模型
小型(7B) 8GB RAM 普通笔记本 DeepSeek-R1-7B, Qwen2.5-7B
中型(14B) 16GB RAM 或 8GB显存 M系列Mac / 中端GPU Qwen2.5-14B, DeepSeek-R1-14B
大型(32B) 32GB RAM 或 24GB显存 M2 Max Mac / RTX 4090 Qwen2.5-32B, Llama3.3-70B(量化)
超大(70B+) 64GB+ RAM 或多卡 Mac Studio / 服务器 Llama3.3-70B, DeepSeek-V3(量化)

M系列Mac特别适合:苹果的统一内存架构让内存也可以当显存用,16GB内存可以流畅运行14B模型。

安装Ollama

macOS

# 方法一:官网下载安装包(推荐)
# 访问 ollama.com,下载 macOS 版本,拖入Applications

# 方法二:Homebrew
brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

下载官网的 Windows 安装包(.exe),双击安装即可。Ollama会自动配置好运行环境。

运行你的第一个模型

# 下载并运行 DeepSeek R1 7B(推荐新手起步)
ollama run deepseek-r1:7b

# 下载后直接进入对话界面,输入问题回车即可
# 输入 /bye 退出

首次运行会自动下载模型文件(7B模型约4-5GB),下载完成后立即可用。

推荐模型清单(2026)

模型 命令 大小 特点
DeepSeek-R1 7B ollama run deepseek-r1:7b ~4.7GB 推理能力强,中文好,新手推荐
Qwen2.5 7B ollama run qwen2.5:7b ~4.7GB 阿里出品,中文能力顶级
Qwen2.5 14B ollama run qwen2.5:14b ~9GB 性能大幅提升,16GB内存可跑
Llama 3.2 3B ollama run llama3.2:3b ~2GB 超轻量,4GB内存可跑
Mistral 7B ollama run mistral ~4.1GB 英文能力强,代码优秀
CodeLlama 13B ollama run codellama:13b ~7.4GB 代码专用,支持多语言

常用命令速查

# 列出已下载的模型
ollama list

# 下载模型(不立即运行)
ollama pull qwen2.5:14b

# 删除模型
ollama rm deepseek-r1:7b

# 查看运行中的模型
ollama ps

# 查看模型信息
ollama show deepseek-r1:7b

进阶:通过API调用(接入自己的程序)

Ollama启动后会在本地开启一个API服务(默认端口11434),接口格式与OpenAI完全兼容:

from openai import OpenAI

# 指向本地Ollama
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 随便填,本地不需要真实key
)

response = client.chat.completions.create(
    model="deepseek-r1:7b",
    messages=[{"role": "user", "content": "帮我写一个Python爬虫"}]
)
print(response.choices[0].message.content)

进阶:Open WebUI(浏览器界面)

命令行对话不够直观?用 Open WebUI 给Ollama套一个像ChatGPT一样的网页界面:

# 需要先安装Docker
docker run -d -p 3000:8080   --add-host=host.docker.internal:host-gateway   -v open-webui:/app/backend/data   --name open-webui   ghcr.io/open-webui/open-webui:main

# 启动后访问 http://localhost:3000

Open WebUI支持对话历史、多模型切换、文件上传、联网搜索等功能,体验接近商业AI产品。

进阶:在Cursor/Continue中使用本地模型

通过Continue插件(VSCode插件),可以让本地Ollama模型成为你的编程助手,完全免费且离线:

  1. 在VSCode安装 Continue 插件
  2. 打开 ~/.continue/config.json
  3. 添加 Ollama 模型配置
  4. 在VSCode侧边栏选择本地模型开始对话

常见问题

Q:模型下载很慢怎么办?

Ollama的模型存储在 Hugging Face 镜像,国内速度因网络而异。解决方案:使用国内镜像源,或通过科学上网下载,模型下载完成后就完全离线了。

Q:模型文件存在哪里?

# macOS/Linux
~/.ollama/models/

# Windows
C:Users用户名.ollamamodels

Q:本地7B模型和ChatGPT差多远?

差距明显但没有想象中大。7B本地模型适合日常文本处理、代码辅助、翻译等任务。复杂推理、长文档分析、创意写作上与GPT-4o差距较大。14B以上的模型差距会缩小很多。

总结

Ollama是本地AI部署的最低门槛方案,一条命令跑起来,零基础也能上手。入门推荐从 DeepSeek-R1 7BQwen2.5 7B 开始——两个都是中文能力顶级的开源模型,在8GB内存的普通电脑上流畅运行。

本地模型不是为了替代Claude或GPT,而是为日常高频任务提供一个免费、私密、无限制的选择。配合Open WebUI,体验已经相当不错。

延伸阅读

👉 查看完整AI工具导航:所有AI工具教程一站汇总

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

返回顶部