描述
主要目标llama.cpp是在各种硬件(本地和云端)上以最少的设置和最先进的性能实现 LLM 推理。
纯 C/C++ 实现,无任何依赖项
Apple 芯片是一流的——通过 ARM NEON、Accelerate 和 Metal 框架进行了优化
AVX、AVX2 和 AVX512 支持 x86 架构
1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化,可加快推理速度并减少内存使用
用于在 NVIDIA GPU 上运行 LLM 的自定义 CUDA 内核(通过 HIP 支持 AMD GPU)
Vulkan 和 SYCL 后端支持
CPU+GPU 混合推理,部分加速大于 VRAM 总容量的模型