当前位置：首页 > 优惠 >大语言模型>文章详情

新型神经网络架构TransformerFAM：为了解决大语言模型处理极长输入序列时的挑战而设计

推荐人：暴走AI| 商城: AI | 2年前 (2024-04-17)| 分类：大语言模型 | 热度：634 ℃

已关闭评论

新型神经网络架构TransformerFAM：为了解决大语言模型处理极长输入序列时的挑战而设计

谷歌推出新型神经网络架构TransformerFAM，它是为了解决大语言模型（LLMs）处理极长输入序列时的挑战而设计的。例如，你有一个非常长的故事，需要一个能够记住故事中所有细节的超级大脑。传统的神经网络（比如Transformer）在处理这样的故事时会遇到麻烦，因为它们的记忆能力有限，而且处理起来非常慢。TransformerFAM就像是给这个故事设计了一个超级大脑，它能够记住更多的信息，并且更快地完成工作。

主要功能和特点：

工作记忆： TransformerFAM通过反馈循环机制，使得网络能够在处理当前信息的同时，记住过去的信息，类似于人类工作记忆的功能。
无需额外权重： 这个架构不需要额外的权重，这意味着它可以轻松地与预训练的模型集成。
处理无限长序列： TransformerFAM能够处理任意长度的序列，而不会受到序列长度的限制。

工作原理：

反馈循环： TransformerFAM在每个Transformer层之间建立了一个反馈循环，使得网络的输出可以作为输入再次输入到网络中，形成一个持续的信息传递和更新的过程。
块滑动窗口注意力（BSWA）： 通过将输入序列分成多个块，并在每个块上应用注意力机制，TransformerFAM能够有效地处理长序列。
信息压缩： TransformerFAM通过反馈循环压缩当前块的信息，基于之前的全局上下文信息进行更新。

具体应用场景：