llama.cpp 性能测试对比表(ROCm vs Vulkan)

设备:AMD Radeon Graphics (gfx1150/RADV STRIX1),24GB VRAM版本:llama.cpp build e34f04215 (8740),nGL=99,Q4_K_M 量化测试项:pp512 = 提示词处理速度,tg128 = 文本生成速度(t/s)

表格

模型名称 大小 参数 后端 pp512 速度 tg128 速度
Qwen3.5-27B 15.39 GiB 26.90 B ROCm 102.70 ± 0.98 4.38 ± 0.03
Qwen3.5-27B 15.39 GiB 26.90 B Vulkan 72.92 ± 0.19 4.58 ± 0.02
Gemma-4-31B 17.39 GiB 30.70 B ROCm 86.15 ± 2.08 4.03 ± 0.01
Gemma-4-31B 17.39 GiB 30.70 B Vulkan 60.68 ± 0.09 3.90 ± 0.01
Gemma-4-26B-A4B 15.63 GiB 25.23 B ROCm 408.04 ± 10.59 24.91 ± 0.18
Gemma-4-26B-A4B 15.63 GiB 25.23 B Vulkan 368.42 ± 9.55 25.94 ± 0.11
Qwen3.5-35B-A3B 20.49 GiB 34.66 B ROCm 347.97 ± 15.11 22.15 ± 0.15
Qwen3.5-35B-A3B 20.49 GiB 34.66 B Vulkan 348.96 ± 4.88 24.44 ± 0.07

核心结论(一眼看懂)

  1. 常规大模型(27B/31B)ROCm 提示词处理速度显著更快,生成速度两者接近
  2. MoE 混合专家模型(26B-A4B/35B-A3B)Vulkan 生成速度小幅领先,处理速度几乎持平
  3. 整体:ROCm 更适合普通大模型推理,Vulkan 对 MoE 模型生成优化更好