达姆施塔特工业大学、黑森人工智能中心 (hessian.AI)和德国人工智能中心 (DFKI)的研究人员推出新技术T-FREE(Tokenizer-Free Generative Large Language Models via Sparse Representations),它旨在解决大语言模型(LLMs)在文本编... 阅读全文
清华大学、无问芯穹、斯坦福大学和上海交通大学的研究人员推出MoA(Mixture of Sparse Attention),它是一种用于自动压缩大语言模型(LLMs)的新方法。MoA的核心思想是通过稀疏注意力机制来减轻大型语言模型在处理长文本时对内存和吞吐量的高需求。以往的稀疏注意力方法通常采用统一的模式,对所有注意力... 阅读全文