linux:llama.cpp:bench:amd-ai9-365
差别
这里会显示出您选择的修订版和当前版本之间的差别。
| linux:llama.cpp:bench:amd-ai9-365 [2026/04/11 10:10] – 创建 packingbox | linux:llama.cpp:bench:amd-ai9-365 [2026/05/07 19:43] (当前版本) – 增加cpu测试 packingbox | ||
|---|---|---|---|
| 行 1: | 行 1: | ||
| - | |||
| - | |||
| ====== llama.cpp 性能测试对比表(ROCm vs Vulkan) ====== | ====== llama.cpp 性能测试对比表(ROCm vs Vulkan) ====== | ||
| 行 24: | 行 22: | ||
| - **MoE 混合专家模型(26B-A4B/ | - **MoE 混合专家模型(26B-A4B/ | ||
| - **整体**:ROCm 更适合普通大模型推理,Vulkan 对 MoE 模型生成优化更好 | - **整体**:ROCm 更适合普通大模型推理,Vulkan 对 MoE 模型生成优化更好 | ||
| + | |||
| + | --------------{date}-------------------- | ||
| + | |||
| + | ====== Windows CPU 本地 llama.cpp 测试汇总表 ====== | ||
| + | |||
| + | 环境:llama.cpp b9050、Zen4 CPU、10 线程、Q4_K_M 量化 | ||
| + | |||
| + | 表格 | ||
| + | |||
| + | ^ **模型全称** ^ **模型大小** ^ **参数规模** ^ **推理后端** ^ **线程数** ^ **测试项** ^ **推理速度 (t/s)** ^ | ||
| + | | Gemma-4-26B-A4B-it | 15.63 GiB | 25.23 B | CPU | 10 | pp512 | 136.33 ± 2.27 | | ||
| + | | Gemma-4-26B-A4B-it | 15.63 GiB | 25.23 B | CPU | 10 | tg128 | 22.77 ± 0.29 | | ||
| + | | Qwen3.6-27B-heretic-ARA | 15.40 GiB | 26.90 B | CPU | 10 | pp512 | 27.29 ± 0.05 | | ||
| + | | Qwen3.6-27B-heretic-ARA | 15.40 GiB | 26.90 B | CPU | 10 | tg128 | 4.11 ± 0.01 | | ||
| + | | Qwen3.6-35B-A3B-Uncensored | 19.70 GiB | 34.66 B | CPU | 10 | pp512 | 140.86 ± 10.32 | | ||
| + | | Qwen3.6-35B-A3B-Uncensored | 19.70 GiB | 34.66 B | CPU | 10 | tg128 | 21.79 ± 0.10 | | ||
| + | |||
| + | ===== 关键小结 ===== | ||
| + | |||
| + | - **Qwen3.6-27B 稠密版**:CPU 下速度最慢,生成只有 **4.11 t/ | ||
| + | - **Gemma-4-26B-A4B**:CPU 性能极强,生成 **22.77 t/s** | ||
| + | - **Qwen3.6-35B-A3B MoE**:CPU 速度和 Gemma 接近,生成 **21.79 t/ | ||
linux/llama.cpp/bench/amd-ai9-365.txt · 最后更改: 由 packingbox
