[GitHub Release] llama.cpp b8192 发布:ARM架构性能优化
llama.cpp 发布 b8192 版本,为 ARM 架构(aarch64)添加了 SME FP16 计算路径,优化 Q4_0 GEMM 性能。该版本包含适用于 macOS(Apple Silicon 和 Intel)、Linux(Ubuntu x64 支持 CPU/Vulkan/ROCm,s390x)、Windows(x64/arm64 支持 CPU/CUDA/Vulkan/SYCL/HIP)以及 openEuler 平台的二进制文件。这一更新显著提升了在 ARM 设备上运行大语言模型的推理效率,特别是对边缘设备和移动端部署具有重要意义。
阅读原文 →