linux:llama.cpp:bench:amd-ai9-365
llama.cpp 性能测试对比表(ROCm vs Vulkan)
设备:AMD Radeon Graphics (gfx1150/RADV STRIX1),24GB VRAM版本:llama.cpp build e34f04215 (8740),nGL=99,Q4_K_M 量化测试项:pp512 = 提示词处理速度,tg128 = 文本生成速度(t/s)
表格
| 模型名称 | 大小 | 参数 | 后端 | pp512 速度 | tg128 速度 |
|---|---|---|---|---|---|
| Qwen3.5-27B | 15.39 GiB | 26.90 B | ROCm | 102.70 ± 0.98 | 4.38 ± 0.03 |
| Qwen3.5-27B | 15.39 GiB | 26.90 B | Vulkan | 72.92 ± 0.19 | 4.58 ± 0.02 |
| Gemma-4-31B | 17.39 GiB | 30.70 B | ROCm | 86.15 ± 2.08 | 4.03 ± 0.01 |
| Gemma-4-31B | 17.39 GiB | 30.70 B | Vulkan | 60.68 ± 0.09 | 3.90 ± 0.01 |
| Gemma-4-26B-A4B | 15.63 GiB | 25.23 B | ROCm | 408.04 ± 10.59 | 24.91 ± 0.18 |
| Gemma-4-26B-A4B | 15.63 GiB | 25.23 B | Vulkan | 368.42 ± 9.55 | 25.94 ± 0.11 |
| Qwen3.5-35B-A3B | 20.49 GiB | 34.66 B | ROCm | 347.97 ± 15.11 | 22.15 ± 0.15 |
| Qwen3.5-35B-A3B | 20.49 GiB | 34.66 B | Vulkan | 348.96 ± 4.88 | 24.44 ± 0.07 |
核心结论(一眼看懂)
- 常规大模型(27B/31B):ROCm 提示词处理速度显著更快,生成速度两者接近
- MoE 混合专家模型(26B-A4B/35B-A3B):Vulkan 生成速度小幅领先,处理速度几乎持平
- 整体:ROCm 更适合普通大模型推理,Vulkan 对 MoE 模型生成优化更好
linux/llama.cpp/bench/amd-ai9-365.txt · 最后更改: 由 packingbox
