简介

Qwen3是阿里云推出的新一代大语言模型,在各项基准测试中表现出色。本文将介绍如何在普通CPU环境下部署Qwen3模型,并测试其性能表现,为没有GPU资源的用户提供参考。

Ollama方案

Ollama是一个轻量级的本地LLM运行框架,支持多种模型格式,安装非常简单:

curl -fsSL https://ollama.com/install.sh | sh

基本部署

使用Ollama部署Qwen3非常简单,只需一行命令即可下载并运行模型:

ollama run qwen3:30b-a3b-q4_K_M
# 如果使用modelscope
# ollama run modelscope.cn/lmstudio-community/Qwen3-30B-A3B-GGUF

性能测试

uv pip install llm-benchmark

编辑配置文件

file_name: "custombenchmarkmodels.yml"
version: 2.0.custom
models:
  - model: "modelscope.cn/lmstudio-community/Qwen3-30B-A3B-GGUF"

运行测试

llm_benchmark run --custombenchmark=path/to/custombenchmarkmodels.yml

测试在AMD Ryzen 7 PRO 8845HS w平台平均22token/s,已经达到本地可用的速度

vllm方案

下载cpu镜像

docker pull public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:v0.8.5
docker tag public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:v0.8.5 vllm-cpu-env:latest
# 另一种方式自行编译
# git clone https://github.com/vllm-project/vllm.git
# cd vllm
# sudo docker build -f docker/Dockerfile.cpu -t vllm-cpu-env --shm-size=16g .

部署模型

目前CPU版本的vLLM不支持Qwen3 q8量化,只能运行非量化版本,速度较慢,约1.8token/s,基本不可用。

# 下载模型
modelscope download --model Qwen/Qwen3-30B-A3B

# 运行docker测试
docker run --rm --network=host -e TRANSFORMERS_OFFLINE=1 -e HF_DATASET_OFFLINE=1 -v /home/nh/.cache/modelscope/hub/models/Qwen/Qwen3-30B-A3B/:/model -p 8000:8000 vllm-cpu-env:latest --model /model

API接口测试

部署完成后,可以通过OpenAI兼容的API接口进行测试:

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "/model",
  "messages": [
    {"role": "user", "content": "Give me a short introduction to large language models."}
  ],
  "temperature": 0.7,
  "top_p": 0.8,
  "top_k": 20,
  "max_tokens": 8192,
  "presence_penalty": 1.5,
  "chat_template_kwargs": {"enable_thinking": false}
}'

参考

ollama/docs/faq.md at main · ollama/ollama
HF-Mirror
vLLM - Qwen
Ollama加载ModelScope模型 · 文档中心
aidatatools/ollama-benchmark: LLM Benchmark for Throughput via Ollama (Local LLMs)