一、先准备云主机

1.1 AutoDL

AutoDL 官网:

https://autodl.com/home

它的优势通常是便宜、按量付费、适合做实验,但因为是容器化虚拟机,性能体验可能略差一些。

Day003-大模型私有化部署-图1

1.2 阿里云 / 腾讯云 GPU 云主机

  • 阿里云:https://www.aliyun.com/product/ecs/gpu
  • 腾讯云:https://cloud.tencent.com/product/gpu

示例里使用的是腾讯云 GPU 云主机。

Day003-大模型私有化部署-图2

Day003-大模型私有化部署-图3

Day003-大模型私有化部署-图4

Day003-大模型私有化部署-图5

Day003-大模型私有化部署-图6

二、在 Ubuntu 22.04 上安装 Ollama

2.1 方式一:一键脚本安装

适合国外服务器:

curl -fsSL https://ollama.com/install.sh | sh

2.2 方式二:下载包后安装

适合国内服务器。

步骤 1:下载安装包

https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64.tgz

步骤 2:解压安装

sudo tar zxf ollama-linux-amd64.tgz -C /usr

步骤 3:配置服务并启动

# 增加 ollama 用户
sudo useradd ollama
sudo mkdir -p /home/ollama

# root 用户不用执行
sudo usermod -g ollama `whoami`

# 编辑 service 文件
vim /etc/systemd/system/ollama.service

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=on-failure
Environment="OLLAMA_HOST=0.0.0.0:11434"

[Install]
WantedBy=default.target

# 启动服务
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

步骤 4:验证安装

ollama -v

三、安装 CUDA 驱动

如果是 AutoDL 或腾讯云,通常已经安装好;如果没有,就手动装。

3.1 Ubuntu

# 先看可用版本
apt list | grep nvidia-driver

# 安装最新版本
apt install nvidia-driver-570

3.2 RHEL / CentOS

yum install nvidia-driver

3.3 验证驱动

nvidia-smi

四、用 Ollama 启动大模型

模型库地址:

https://ollama.com/library

例如运行千问 7B:

ollama run qwen2.5:7b

常用查看命令:

# 查看本地已下载模型
ollama ls
ollama list

# 查看当前运行模型
ollama ps

五、安装 OpenWebUI

5.1 安装 Python 3.11 和 pip

sudo apt install python3.11 python3-pip

如果系统已有旧版 Python,也可以先检查:

pip3 -V

5.2 创建虚拟环境

sudo apt install python3.11-venv

# 创建虚拟环境 myenv
sudo python3.11 -m venv myenv

# 进入虚拟环境
source myenv/bin/activate

5.3 安装 OpenWebUI

sudo /home/ubuntu/myenv/bin/pip3.11 install open-webui

5.4 启动服务

sudo /home/ubuntu/myenv/bin/open-webui serve --port 8080 &

如果要从外部访问,通常还需要在安全组里放开 8080 端口。

Day003-大模型私有化部署-图7

Day003-大模型私有化部署-图8

六、通过 OpenWebUI 测试模型

部署完成后,就可以直接用 OpenWebUI 测试模型对话效果。

Day003-大模型私有化部署-图9

七、Ollama 路线适合谁

如果你希望先把模型跑起来,再逐步考虑 API 服务化、多机扩展和生产级治理,那么 Ollama 是非常合适的起点。它的优势在于简单、直观,尤其适合个人实验、小团队验证和教学演示。