llama.cpp 性能测试对比表（ROCm vs Vulkan）

设备：AMD Radeon Graphics (gfx1150/RADV STRIX1)，24GB VRAM版本：llama.cpp build e34f04215 (8740)，nGL=99，Q4_K_M 量化测试项：pp512 = 提示词处理速度，tg128 = 文本生成速度（t/s）

表格

模型名称	大小	参数	后端	pp512 速度	tg128 速度
Qwen3.5-27B	15.39 GiB	26.90 B	ROCm	102.70 ± 0.98	4.38 ± 0.03
Qwen3.5-27B	15.39 GiB	26.90 B	Vulkan	72.92 ± 0.19	4.58 ± 0.02
Gemma-4-31B	17.39 GiB	30.70 B	ROCm	86.15 ± 2.08	4.03 ± 0.01
Gemma-4-31B	17.39 GiB	30.70 B	Vulkan	60.68 ± 0.09	3.90 ± 0.01
Gemma-4-26B-A4B	15.63 GiB	25.23 B	ROCm	408.04 ± 10.59	24.91 ± 0.18
Gemma-4-26B-A4B	15.63 GiB	25.23 B	Vulkan	368.42 ± 9.55	25.94 ± 0.11
Qwen3.5-35B-A3B	20.49 GiB	34.66 B	ROCm	347.97 ± 15.11	22.15 ± 0.15
Qwen3.5-35B-A3B	20.49 GiB	34.66 B	Vulkan	348.96 ± 4.88	24.44 ± 0.07

————–{date}——————–

Windows CPU 本地 llama.cpp 测试汇总表

环境：llama.cpp b9050、Zen4 CPU、10 线程、Q4_K_M 量化

表格

模型全称	模型大小	参数规模	推理后端	线程数	测试项	推理速度 (t/s)
Gemma-4-26B-A4B-it	15.63 GiB	25.23 B	CPU	10	pp512	136.33 ± 2.27
Gemma-4-26B-A4B-it	15.63 GiB	25.23 B	CPU	10	tg128	22.77 ± 0.29
Qwen3.6-27B-heretic-ARA	15.40 GiB	26.90 B	CPU	10	pp512	27.29 ± 0.05
Qwen3.6-27B-heretic-ARA	15.40 GiB	26.90 B	CPU	10	tg128	4.11 ± 0.01
Qwen3.6-35B-A3B-Uncensored	19.70 GiB	34.66 B	CPU	10	pp512	140.86 ± 10.32
Qwen3.6-35B-A3B-Uncensored	19.70 GiB	34.66 B	CPU	10	tg128	21.79 ± 0.10