Wayne's blog

GPT 量化加速推理的几个方案

2024-07-24

GPT 量化加速推理的几个方案越来越多的开源优质模型，我们的选择也越来越多了，模型的质量上去了，硬件的要求更高了。在我们有限的硬件条件下，甚至，在一些便携设备下，运行 LLM 几乎不可用。但是还是有些办法的：量化加速，CUDA，Vulcan，Metal，等。量化加速通常会把LLM的 30G+ 的文件，处理到 10G以下。有一个通用标准：GGUF，单文件，可以让整个过程更轻松。量化加速方案我目前推荐4种： llama.cpp （支持的很多，HF上的GGUF能直接用的也有很多） MLC-LLM（有自己的特定格式，但HF有自己能直接用的模型库，预构建的二进制文件安装很友好） chatglm.cpp（ChatGLM的量化方案，对于国内的语言环境比较友好，但是缺点很严重） LM Studio（桌面版安装，哪..

Wayne's blog

标签 · llama

首页

关于

GPT 量化加速推理的几个方案