简介
Qwen3是阿里云推出的新一代大语言模型,在各项基准测试中表现出色。本文将介绍如何在普通CPU环境下部署Qwen3模型,并测试其性能表现,为没有GPU资源的用户提供参考。
Ollama方案
Ollama是一个轻量级的本地LLM运行框架,支持多种模型格式,安装非常简单:
curl -fsSL https://ollama.com/install.sh | sh
基本部署
使用Ollama部署Qwen3非常简单,只需一行命令即可下载并运行模型:
ollama run qwen3:30b-a3b-q4_K_M
# 如果使用modelscope
# ollama run modelscope.cn/lmstudio-community/Qwen3-30B-A3B-GGUF
性能测试
uv pip install llm-benchmark
编辑配置文件
file_name: "custombenchmarkmodels.yml"
version: 2.0.custom
models:
- model: "modelscope.cn/lmstudio-community/Qwen3-30B-A3B-GGUF"
运行测试
llm_benchmark run --custombenchmark=path/to/custombenchmarkmodels.yml
测试在AMD Ryzen 7 PRO 8845HS w
平台平均22token/s,已经达到本地可用的速度
vllm方案
下载cpu镜像
docker pull public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:v0.8.5
docker tag public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:v0.8.5 vllm-cpu-env:latest
# 另一种方式自行编译
# git clone https://github.com/vllm-project/vllm.git
# cd vllm
# sudo docker build -f docker/Dockerfile.cpu -t vllm-cpu-env --shm-size=16g .
部署模型
目前CPU版本的vLLM不支持Qwen3 q8量化,只能运行非量化版本,速度较慢,约1.8token/s,基本不可用。
# 下载模型
modelscope download --model Qwen/Qwen3-30B-A3B
# 运行docker测试
docker run --rm --network=host -e TRANSFORMERS_OFFLINE=1 -e HF_DATASET_OFFLINE=1 -v /home/nh/.cache/modelscope/hub/models/Qwen/Qwen3-30B-A3B/:/model -p 8000:8000 vllm-cpu-env:latest --model /model
API接口测试
部署完成后,可以通过OpenAI兼容的API接口进行测试:
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "/model",
"messages": [
{"role": "user", "content": "Give me a short introduction to large language models."}
],
"temperature": 0.7,
"top_p": 0.8,
"top_k": 20,
"max_tokens": 8192,
"presence_penalty": 1.5,
"chat_template_kwargs": {"enable_thinking": false}
}'
参考
ollama/docs/faq.md at main · ollama/ollama
HF-Mirror
vLLM - Qwen
Ollama加载ModelScope模型 · 文档中心
aidatatools/ollama-benchmark: LLM Benchmark for Throughput via Ollama (Local LLMs)