当前位置：首页 > 优惠 >大语言模型>文章详情

新型神经网络模型HGRN2：一种在序列建模任务中表现出色的线性递归神经网络（RNN）的改进版本

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-12)| 分类：大语言模型 | 热度：347 ℃

已关闭评论

新型神经网络模型HGRN2：一种在序列建模任务中表现出色的线性递归神经网络（RNN）的改进版本

上海人工智能实验室推出新型神经网络模型HGRN2（Hierarchically Gated Linear RNNs with State Expansion），它是一种在序列建模任务中表现出色的线性递归神经网络（RNN）的改进版本。HGRN2的设计灵感来自于线性注意力机制，通过一种称为外积（outer product）的方法显著扩大了递归状态的大小，而不增加额外的参数。这种方法使得模型在保持参数效率和训练效率的同时，提高了表达能力。

主要功能和特点：

参数效率：HGRN2通过使用外积方法扩大状态大小，避免了增加大量参数，从而保持了模型的参数效率。
训练效率：模型采用了类似于线性注意力的硬件高效训练算法，使得大规模实验成为可能。
表达能力提升：通过状态扩展，HGRN2能够捕捉更丰富的序列信息，提高了模型的表达能力。
性能提升：在语言建模、图像分类和长距离依赖建模等任务中，HGRN2相较于前身HGRN1和其他同类模型展现出了更好的性能。

工作原理：

HGRN2的核心是对输入数据进行一系列的线性变换和门控操作。它使用忘记门（forget gate）和输出门（output gate）来控制信息的流动，类似于传统的GRU（Gated Recurrent Unit）结构。HGRN2的创新之处在于使用外积来扩展递归状态，这样可以使状态的大小线性增长，而不会增加参数数量。此外，它还采用了多头（multi-head）变体来降低复杂度，使得模型能够有效地处理更大的状态空间。

具体应用场景：