GPTVQ

优惠 GPTVQ:压缩大语言模型(LLMs)的权重,以减少模型的大小并提高运行效率

  • GPTVQ:压缩大语言模型(LLMs)的权重,以减少模型的大小并提高运行效率
  • 这篇论文介绍了一种名为GPTVQ的新方法,它用于压缩大语言模型(LLMs)的权重,以减少模型的大小并提高运行效率。GPTVQ是一种快速的后训练向量量化(VQ)方法,它通过增加量化的维度来改善神经网络量化的大小与准确性 ...... 阅读全文