AI 系列 (1)：Ollama 入门 - 模型选择与配置优化

📚 前言

AI 系列文章将记录我使用 Ollama 配合 OpenClaw 的探索与实践。这是第一篇，带你了解如何选择合适的模型并进行高效配置。

一、为什么选择 Qwen3.5 27B？

1.1 显存与性能平衡

对于配备 24GB 显存 的 GPU（如 RTX 3080/4080），qwen3.5:27b 是黄金选择：

# 加载 27B 参数的 4bit 量化模型
ollama pull jaahas/qwen3.5-uncensored:27b

为什么是 27B？

模型规模	显存占用 (4bit)	适用场景
7B	~5GB	快速响应，简单任务
27B	~18GB	⭐ 平衡点：复杂任务 + 留余量
70B	~45GB	需要更高显存

1.2 模型特点

✅ 工具调用能力 (Tool Use) - 支持 Function Calling，适合 Agent 架构
✅ 多模态支持 - 后续可扩展视觉任务
✅ 中文优化 - Qwen 系列对中文理解优秀
✅ 推理速度快 - 在消费级显卡上可达 10+ tokens/s

二、Fallback 模型推荐

当主模型负载过高或需要降级时，可准备 fallback 模型：

# Fallback 模型列表（根据显存需求选择）
ollama pull qwen3.5:7b      # 轻量级fallback
ollama pull llava           # 视觉任务fallback

推荐策略：

场景	主模型	Fallback
复杂推理	`jaahas/qwen3.5-uncensored:27b`	`qwen3.5:7b`
快速问答	`llama3.2:3b`	-
视觉任务	`llava`	`bakLLaVA`

💡 重要提示：选择模型时务必确认支持 Tool/Function Calling 功能，这是 Agent 系统的核心能力！

三、Context Length 配置（推荐 64000）

3.1 为什么要调整 Context Length？

默认情况下 Ollama 使用 2048 或 4096 的上下文窗口。对于 AI Agent 来说，这远远不够：

✅ 长文本处理 - 阅读整篇文档/报告
✅ 多轮对话 - 保持更长的对话历史
✅ 复杂任务 - 保存更多工具调用状态

3.2 systemd 配置示例（Linux）

编辑 /etc/systemd/system/ollama.service：

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
Type=simple
Restart=always
RestartSec=3
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
# 推荐配置：64000 context length
ExecStart=/usr/bin/ollama serve --ctx-size 64000
User=ollama

[Install]
WantedBy=multi-user.target

应用配置：

sudo systemctl daemon-reload
sudo systemctl restart ollama

3.3 验证 Context Length

# 查看当前上下文长度
ollama run jaahas/qwen3.5-uncensored:27b "你当前的上下文窗口大小是多少？" --ctx-size 64000

四、局域网访问配置

4.1 启用公网可访问

默认 Ollama 仅监听 localhost，需要修改服务配置：

# /etc/systemd/system/ollama.service
[Service]
ExecStart=/usr/bin/ollama serve --host 0.0.0.0 --ctx-size 64000

重启服务：

sudo systemctl restart ollama

# 检查状态
systemctl status ollama

4.2 验证局域网访问

从其他设备浏览器访问：http://<你的IP>:11434

或测试 API：

curl http://你的局域网IP:11434/api/tags

五、指定 Models 路径

5.1 配置自定义模型存储路径

如果希望将模型存放在非默认位置（如大容量硬盘）：

# /etc/systemd/system/ollama.service
[Service]
Environment="OLLAMA_MODELS=/data/models"
ExecStart=/usr/bin/ollama serve --host 0.0.0.0 --ctx-size 64000

创建目录并设置权限：

sudo mkdir -p /data/models
sudo chown -R ollama:ollama /data/models

5.2 复制/迁移模型

# 查看当前模型
ollama list

# 导出模型（复制到另一台机器）
ollama cp qwen3.5:27b custom/qwen-27b

# 导入模型
ollama import model.gguf mymodel

六、监控 GPU 使用

6.1 查看 Ollama 进程

ollama ps

输出示例：

NAME              IDENTITY             SIZE     PROCESSOR    USED BY
qwen3.5:27b       sha256:...          16.8 GB  GPU          qwen-12345

6.2 结合 nvidia-smi 查看显存占用

# 简洁模式（适合终端）
watch -n 1 nvidia-smi

# 详细模式（查看占用进程）
nvidia-smi -c 0 --query-gpu=utilization.gpu,memory.used,memory.free --format=csv

典型输出：

| GPU | Name        | Memory-Usage | Temperature |
|-----|-------------|--------------|-------------|
|  0  | RTX 3080    | 18432 / 24576 MiB | 65°C      |

七、完整配置示例（一键部署）

7.1 systemd 服务文件

# /etc/systemd/system/ollama.service
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
Type=simple
Restart=always
RestartSec=3
User=ollama
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_MODELS=/data/models"
ExecStart=/usr/bin/ollama serve --host 0.0.0.0 --ctx-size 64000

[Install]
WantedBy=multi-user.target

7.2 一键部署脚本

#!/bin/bash
# ollama-setup.sh

set -e

# 1. 下载模型
echo "📥 Pulling jaahas/qwen3.5-uncensored:27b..."
ollama pull jaahas/qwen3.5-uncensored:27b

# 2. 拉取 fallback 模型
echo "📥 Pulling fallback model..."
ollama pull qwen3.5:7b

# 3. 重启服务应用新配置
echo "🔄 Restarting Ollama service..."
sudo systemctl daemon-reload
sudo systemctl restart ollama

# 4. 检查状态
echo "✅ Checking status..."
ollama ps
echo ""
echo "🎉 Setup complete! Models ready."

执行脚本：

chmod +x ollama-setup.sh
./ollama-setup.sh

八、总结与建议

配置项	推荐值
主模型	`jaahas/qwen3.5-uncensored:27b` (4bit)
Fallback 模型	`qwen3.5:7b`
Context Length	64000
并行数 (`NUM_PARALLEL`)	1-2（显存紧张时）
监听地址	`0.0.0.0`（局域网访问）
Model 路径	`/data/models`（根据磁盘规划）

下一步

下一篇将介绍 OpenClaw 如何调用 Ollama 模型，并展示实际 Agent 场景中的使用技巧。

发布于 2026 年 3 月 12 日
AI 系列 · 第一篇文章