2024年3月31日 @ 贾斯汀的网页
Mozilla llamafile
我刚为llamafile编写了 84 个新的矩阵乘法核心,使其能够更快地读取提示/图像。与 llama.cpp 相比,使用 F16 和 Q8_0 权重在 CPU 上使用 llamafile 的提示评估时间应该会快 30% 到 500%。对于 ARMv8.2+(例如 RPI 5)、Intel(例如 Alderlake)和 AVX512(例如 Zen 4)计算机,改进效果最为显著。我的核心对于适合 L2 缓存的矩阵比 MKL 快 2 倍,这使它们成为一个正在进行中的工作,因为速度提升对于令牌少于 1,000 个的提示效果最佳。