当前位置：首页 > 优惠 >大语言模型>文章详情

在神经压缩文本上训练大语言模型（LLMs）的方法

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-05)| 分类：大语言模型 | 热度：337 ℃

已关闭评论

谷歌DeepMind和Anthropic发布论文探讨了直接在神经压缩文本上训练大语言模型（LLMs）的方法。想象一下，你有一个能读懂和生成文本的智能系统，但现在我们想让这个系统更加高效，不仅能处理更多信息，还能更快地学习和生成文本。为了实现这一点，研究者们尝试了一种新的方法，即在文本被压缩成更小的体积后，直接在这个压缩后的文本上训练模型。

主要功能和特点：

高效率训练：通过使用神经压缩技术，可以在相同的计算成本下让模型处理更多的文本数据，从而提高训练效率。
更长的上下文依赖：压缩后的文本允许模型处理更长的文本序列，这对于理解复杂的文本结构和上下文关系非常有用。
更均匀的计算分布：在压缩文本上训练的模型可以将计算资源更均匀地分配给每个文本片段，因为每个片段包含的信息量大致相同。

工作原理： 论文中提出了一种名为“等信息窗口”（Equal-Info Windows）的压缩技术。这种技术将文本分割成多个块，每个块都压缩到相同的比特长度。这样，模型在处理这些压缩后的文本时，可以更稳定地学习每个块中的信息。这种方法与传统的算术编码（Arithmetic Coding）相比，提供了更易于学习的压缩文本，因为它避免了算术编码中复杂的状态跟踪问题。

具体应用场景：