CPU上部署Qwen3模型及性能测试

简介

Qwen3是阿里云推出的新一代大语言模型，在各项基准测试中表现出色。本文将介绍如何在普通CPU环境下部署Qwen3模型，并测试其性能表现，为没有GPU资源的用户提供参考。

Ollama方案

Ollama是一个轻量级的本地LLM运行框架，支持多种模型格式，安装非常简单：

curl -fsSL https://ollama.com/install.sh | sh

基本部署

使用Ollama部署Qwen3非常简单，只需一行命令即可下载并运行模型：

ollama run qwen3:30b-a3b-q4_K_M
# 如果使用modelscope
# ollama run modelscope.cn/lmstudio-community/Qwen3-30B-A3B-GGUF

性能测试

uv pip install llm-benchmark

编辑配置文件

file_name: "custombenchmarkmodels.yml"
version: 2.0.custom
models:
  - model: "modelscope.cn/lmstudio-community/Qwen3-30B-A3B-GGUF"

运行测试

llm_benchmark run --custombenchmark=path/to/custombenchmarkmodels.yml

测试在AMD Ryzen 7 PRO 8845HS w平台平均22token/s，已经达到本地可用的速度

vllm方案

下载cpu镜像

docker pull public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:v0.8.5
docker tag public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:v0.8.5 vllm-cpu-env:latest
# 另一种方式自行编译
# git clone https://github.com/vllm-project/vllm.git
# cd vllm
# sudo docker build -f docker/Dockerfile.cpu -t vllm-cpu-env --shm-size=16g .

部署模型

目前CPU版本的vLLM不支持Qwen3 q8量化，只能运行非量化版本，速度较慢，约1.8token/s，基本不可用。

# 下载模型
modelscope download --model Qwen/Qwen3-30B-A3B

# 运行docker测试
docker run --rm --network=host -e TRANSFORMERS_OFFLINE=1 -e HF_DATASET_OFFLINE=1 -v /home/nh/.cache/modelscope/hub/models/Qwen/Qwen3-30B-A3B/:/model -p 8000:8000 vllm-cpu-env:latest --model /model

API接口测试

部署完成后，可以通过OpenAI兼容的API接口进行测试：

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "/model",
  "messages": [
    {"role": "user", "content": "Give me a short introduction to large language models."}
  ],
  "temperature": 0.7,
  "top_p": 0.8,
  "top_k": 20,
  "max_tokens": 8192,
  "presence_penalty": 1.5,
  "chat_template_kwargs": {"enable_thinking": false}
}'

参考

ollama/docs/faq.md at main · ollama/ollama
HF-Mirror
vLLM - Qwen
Ollama加载ModelScope模型 · 文档中心
 aidatatools/ollama-benchmark: LLM Benchmark for Throughput via Ollama (Local LLMs)

简介#

Ollama方案#

基本部署#

性能测试#

vllm方案#

下载cpu镜像#

部署模型#

API接口测试#

参考#

简介