目录

llama.cpp 性能测试对比表（ROCm vs Vulkan）
- - 核心结论（一眼看懂）
Windows CPU 本地 llama.cpp 测试汇总表
- 关键小结

llama.cpp 性能测试对比表（ROCm vs Vulkan）

设备：AMD Radeon Graphics (gfx1150/RADV STRIX1)，24GB VRAM版本：llama.cpp build e34f04215 (8740)，nGL=99，Q4_K_M 量化测试项：pp512 = 提示词处理速度，tg128 = 文本生成速度（t/s）

表格

模型名称	大小	参数	后端	pp512 速度	tg128 速度
Qwen3.5-27B	15.39 GiB	26.90 B	ROCm	102.70 ± 0.98	4.38 ± 0.03
Qwen3.5-27B	15.39 GiB	26.90 B	Vulkan	72.92 ± 0.19	4.58 ± 0.02
Gemma-4-31B	17.39 GiB	30.70 B	ROCm	86.15 ± 2.08	4.03 ± 0.01
Gemma-4-31B	17.39 GiB	30.70 B	Vulkan	60.68 ± 0.09	3.90 ± 0.01
Gemma-4-26B-A4B	15.63 GiB	25.23 B	ROCm	408.04 ± 10.59	24.91 ± 0.18
Gemma-4-26B-A4B	15.63 GiB	25.23 B	Vulkan	368.42 ± 9.55	25.94 ± 0.11
Qwen3.5-35B-A3B	20.49 GiB	34.66 B	ROCm	347.97 ± 15.11	22.15 ± 0.15
Qwen3.5-35B-A3B	20.49 GiB	34.66 B	Vulkan	348.96 ± 4.88	24.44 ± 0.07

核心结论（一眼看懂）

常规大模型（27B/31B）：ROCm 提示词处理速度显著更快，生成速度两者接近
MoE 混合专家模型（26B-A4B/35B-A3B）：Vulkan 生成速度小幅领先，处理速度几乎持平
整体：ROCm 更适合普通大模型推理，Vulkan 对 MoE 模型生成优化更好

————–{date}——————–

Windows CPU 本地 llama.cpp 测试汇总表

环境：llama.cpp b9050、Zen4 CPU、10 线程、Q4_K_M 量化

表格

模型全称	模型大小	参数规模	推理后端	线程数	测试项	推理速度 (t/s)
Gemma-4-26B-A4B-it	15.63 GiB	25.23 B	CPU	10	pp512	136.33 ± 2.27
Gemma-4-26B-A4B-it	15.63 GiB	25.23 B	CPU	10	tg128	22.77 ± 0.29
Qwen3.6-27B-heretic-ARA	15.40 GiB	26.90 B	CPU	10	pp512	27.29 ± 0.05
Qwen3.6-27B-heretic-ARA	15.40 GiB	26.90 B	CPU	10	tg128	4.11 ± 0.01
Qwen3.6-35B-A3B-Uncensored	19.70 GiB	34.66 B	CPU	10	pp512	140.86 ± 10.32
Qwen3.6-35B-A3B-Uncensored	19.70 GiB	34.66 B	CPU	10	tg128	21.79 ± 0.10

关键小结

Qwen3.6-27B 稠密版：CPU 下速度最慢，生成只有 4.11 t/s，日常写小说会卡
Gemma-4-26B-A4B：CPU 性能极强，生成 22.77 t/s
Qwen3.6-35B-A3B MoE：CPU 速度和 Gemma 接近，生成 21.79 t/s，文笔远强于 Gemma，写情爱小说首选