当前位置：首页 > 优惠 >大语言模型>文章详情

ChunkAttention：提高大语言模型（LLMs）在处理长序列时的自注意力（self-attention）模块的效率

推荐人：暴走AI| 商城: AI | 2年前 (2024-02-26)| 分类：大语言模型 | 热度：888 ℃

已关闭评论

ChunkAttention：提高大语言模型（LLMs）在处理长序列时的自注意力（self-attention）模块的效率

微软发布论文介绍了一种名为ChunkAttention的新方法，它旨在提高大语言模型（LLMs）在处理长序列时的自注意力（self-attention）模块的效率。自注意力是LLMs的核心组成部分，但在推理长序列时会导致显著的延迟。ChunkAttention通过利用多个LLM请求共享系统提示（system prompts）的前缀来优化计算和内存操作成本。

论文地址：https://arxiv.org/abs/2402.15220

主要功能：

提高自注意力模块在处理长序列时的效率。
通过共享内存中的键/值张量（KV cache）来优化内存利用率。
实现一个高效的自注意力核心，其中包含了两阶段分区算法（Two-Phase Partition, TPP）以改善数据局部性。

主要特点：

采用前缀树（prefix tree）结构来组织KV缓存，使得可以动态检测和消除运行时的冗余。
在自注意力计算中实施两阶段分区算法，以提高数据局部性和并行化效率。
在没有共享系统提示的情况下，ChunkAttention与现有的高度优化实现相比没有性能下降。

工作原理： ChunkAttention将大型的键/值张量分割成较小的块，并将其结构化为辅助前缀树。在这个基于前缀树的KV缓存之上，设计了一个高效的自注意力核心。在自注意力计算中，首先处理由多个序列共享的块（chunk-first phase），然后继续处理与特定序列相关的块（sequence-first phase）。这种方法平衡了并行化和缓存局部性，从而提高了自注意力计算的效率。

具体应用场景：