诺甘农圆盘

参考资料收集库

用户工具

站点工具


linux:llama.cpp:bench:amd-ai9-365

llama.cpp 性能测试对比表(ROCm vs Vulkan)

设备:AMD Radeon Graphics (gfx1150/RADV STRIX1),24GB VRAM版本:llama.cpp build e34f04215 (8740),nGL=99,Q4_K_M 量化测试项:pp512 = 提示词处理速度,tg128 = 文本生成速度(t/s)

表格

模型名称 大小 参数 后端 pp512 速度 tg128 速度
Qwen3.5-27B 15.39 GiB 26.90 B ROCm 102.70 ± 0.98 4.38 ± 0.03
Qwen3.5-27B 15.39 GiB 26.90 B Vulkan 72.92 ± 0.19 4.58 ± 0.02
Gemma-4-31B 17.39 GiB 30.70 B ROCm 86.15 ± 2.08 4.03 ± 0.01
Gemma-4-31B 17.39 GiB 30.70 B Vulkan 60.68 ± 0.09 3.90 ± 0.01
Gemma-4-26B-A4B 15.63 GiB 25.23 B ROCm 408.04 ± 10.59 24.91 ± 0.18
Gemma-4-26B-A4B 15.63 GiB 25.23 B Vulkan 368.42 ± 9.55 25.94 ± 0.11
Qwen3.5-35B-A3B 20.49 GiB 34.66 B ROCm 347.97 ± 15.11 22.15 ± 0.15
Qwen3.5-35B-A3B 20.49 GiB 34.66 B Vulkan 348.96 ± 4.88 24.44 ± 0.07

核心结论(一眼看懂)

  1. 常规大模型(27B/31B)ROCm 提示词处理速度显著更快,生成速度两者接近
  2. MoE 混合专家模型(26B-A4B/35B-A3B)Vulkan 生成速度小幅领先,处理速度几乎持平
  3. 整体:ROCm 更适合普通大模型推理,Vulkan 对 MoE 模型生成优化更好

————–{date}——————–

Windows CPU 本地 llama.cpp 测试汇总表

环境:llama.cpp b9050、Zen4 CPU、10 线程、Q4_K_M 量化

表格

模型全称 模型大小 参数规模 推理后端 线程数 测试项 推理速度 (t/s)
Gemma-4-26B-A4B-it 15.63 GiB 25.23 B CPU 10 pp512 136.33 ± 2.27
Gemma-4-26B-A4B-it 15.63 GiB 25.23 B CPU 10 tg128 22.77 ± 0.29
Qwen3.6-27B-heretic-ARA 15.40 GiB 26.90 B CPU 10 pp512 27.29 ± 0.05
Qwen3.6-27B-heretic-ARA 15.40 GiB 26.90 B CPU 10 tg128 4.11 ± 0.01
Qwen3.6-35B-A3B-Uncensored 19.70 GiB 34.66 B CPU 10 pp512 140.86 ± 10.32
Qwen3.6-35B-A3B-Uncensored 19.70 GiB 34.66 B CPU 10 tg128 21.79 ± 0.10

关键小结

  1. Qwen3.6-27B 稠密版:CPU 下速度最慢,生成只有 4.11 t/s,日常写小说会卡
  2. Gemma-4-26B-A4B:CPU 性能极强,生成 22.77 t/s
  3. Qwen3.6-35B-A3B MoE:CPU 速度和 Gemma 接近,生成 21.79 t/s,文笔远强于 Gemma,写情爱小说首选
linux/llama.cpp/bench/amd-ai9-365.txt · 最后更改: packingbox