linux:llama.cpp:bench:amd-ai9-365
llama.cpp 性能测试对比表(ROCm vs Vulkan)
设备:AMD Radeon Graphics (gfx1150/RADV STRIX1),24GB VRAM版本:llama.cpp build e34f04215 (8740),nGL=99,Q4_K_M 量化测试项:pp512 = 提示词处理速度,tg128 = 文本生成速度(t/s)
表格
| 模型名称 | 大小 | 参数 | 后端 | pp512 速度 | tg128 速度 |
|---|---|---|---|---|---|
| Qwen3.5-27B | 15.39 GiB | 26.90 B | ROCm | 102.70 ± 0.98 | 4.38 ± 0.03 |
| Qwen3.5-27B | 15.39 GiB | 26.90 B | Vulkan | 72.92 ± 0.19 | 4.58 ± 0.02 |
| Gemma-4-31B | 17.39 GiB | 30.70 B | ROCm | 86.15 ± 2.08 | 4.03 ± 0.01 |
| Gemma-4-31B | 17.39 GiB | 30.70 B | Vulkan | 60.68 ± 0.09 | 3.90 ± 0.01 |
| Gemma-4-26B-A4B | 15.63 GiB | 25.23 B | ROCm | 408.04 ± 10.59 | 24.91 ± 0.18 |
| Gemma-4-26B-A4B | 15.63 GiB | 25.23 B | Vulkan | 368.42 ± 9.55 | 25.94 ± 0.11 |
| Qwen3.5-35B-A3B | 20.49 GiB | 34.66 B | ROCm | 347.97 ± 15.11 | 22.15 ± 0.15 |
| Qwen3.5-35B-A3B | 20.49 GiB | 34.66 B | Vulkan | 348.96 ± 4.88 | 24.44 ± 0.07 |
核心结论(一眼看懂)
- 常规大模型(27B/31B):ROCm 提示词处理速度显著更快,生成速度两者接近
- MoE 混合专家模型(26B-A4B/35B-A3B):Vulkan 生成速度小幅领先,处理速度几乎持平
- 整体:ROCm 更适合普通大模型推理,Vulkan 对 MoE 模型生成优化更好
————–{date}——————–
Windows CPU 本地 llama.cpp 测试汇总表
环境:llama.cpp b9050、Zen4 CPU、10 线程、Q4_K_M 量化
表格
| 模型全称 | 模型大小 | 参数规模 | 推理后端 | 线程数 | 测试项 | 推理速度 (t/s) |
|---|---|---|---|---|---|---|
| Gemma-4-26B-A4B-it | 15.63 GiB | 25.23 B | CPU | 10 | pp512 | 136.33 ± 2.27 |
| Gemma-4-26B-A4B-it | 15.63 GiB | 25.23 B | CPU | 10 | tg128 | 22.77 ± 0.29 |
| Qwen3.6-27B-heretic-ARA | 15.40 GiB | 26.90 B | CPU | 10 | pp512 | 27.29 ± 0.05 |
| Qwen3.6-27B-heretic-ARA | 15.40 GiB | 26.90 B | CPU | 10 | tg128 | 4.11 ± 0.01 |
| Qwen3.6-35B-A3B-Uncensored | 19.70 GiB | 34.66 B | CPU | 10 | pp512 | 140.86 ± 10.32 |
| Qwen3.6-35B-A3B-Uncensored | 19.70 GiB | 34.66 B | CPU | 10 | tg128 | 21.79 ± 0.10 |
关键小结
- Qwen3.6-27B 稠密版:CPU 下速度最慢,生成只有 4.11 t/s,日常写小说会卡
- Gemma-4-26B-A4B:CPU 性能极强,生成 22.77 t/s
- Qwen3.6-35B-A3B MoE:CPU 速度和 Gemma 接近,生成 21.79 t/s,文笔远强于 Gemma,写情爱小说首选
linux/llama.cpp/bench/amd-ai9-365.txt · 最后更改: 由 packingbox
