GPTVQ

优惠 GPTVQ:压缩大语言模型(LLMs)的权重,以减少模型的大小并提高运行效率

  • GPTVQ:压缩大语言模型(LLMs)的权重,以减少模型的大小并提高运行效率
  • 这篇论文介绍了一种名为GPTVQ的新方法,它用于压缩大语言模型(LLMs)的权重,以减少模型的大小并提高运行效率。GPTVQ是一种快速的后训练向量量化(VQ)方法,它通过增加量化的维度来改善神经网络量化的大小与准确性之间的权衡。这种方法特别适合于像GPT这样的大型语言模型,可以帮助它们在保持准确性的同时减少所需的存储空... 阅读全文