GPT 级别的 LLM 性能使计算量减少 100 倍:一个鲜为人知的开源项目如何帮助解决 GPU 功率难题 — RWKV 看起来很有希望,但挑战仍然存在

By xudeyong

My Experience

这是关于我的简短介绍。我喜欢与互联网上的朋友分享科技资讯。如果你喜欢我分享的文字和图片,请告诉我。这将鼓励我与你分享更多。祝你好运 ~


循环神经网络(RNN)是一种主要用于深度学习领域的人工智能。 与传统的神经网络不同,RNN 具有存储器,可以捕获迄今为止已计算的信息。 换句话说,他们利用对先前输入的理解来影响他们将产生的输出。

RNN 被称为“循环”,因为它们对序列中的每个元素执行相同的任务,而输出取决于之前的计算。 RNN 仍然用于支持苹果 Siri 和谷歌翻译等智能技术。

然而,随着 ChatGPT 等 Transformer 的出现,自然语言处理 (NLP) 的格局已经发生了变化。 虽然 Transformer 彻底改变了 NLP 任务,但它们的内存和计算复杂性随着序列长度呈二次方扩展,需要更多资源。

输入 RWKV
现在,一个新的开源项目 RWKV 正在为 GPU 功耗难题提供有前途的解决方案。 该项目由 Linux 基金会支持,旨在大幅降低 GPT 级语言学习模型 (LLM) 的计算需求,可能降低多达 100 倍。

RNN 在内存和计算要求方面表现出线性扩展,但由于其并行性和可扩展性方面的限制,很难与 Transformer 的性能相匹配。 这就是 RWKV 发挥作用的地方。

RWKV(即接收加权键值)是一种新颖的模型架构,它将 Transformer 的可并行训练效率与 RNN 的高效推理相结合。 结果? 运行和训练所需资源(VRAM、CPU、GPU 等)显着减少的模型,同时保持高质量的性能。 它还可以线性缩放到任何上下文长度,并且通常在英语以外的语言中得到更好的训练。

尽管有这些令人鼓舞的功能,RWKV 模型也并非没有挑战。 它对提示格式很敏感,但在需要回顾的任务上较弱。 然而,这些问题正在得到解决,并且该模型的潜在好处远远超过当前的局限性。

RWKV 项目的影响是深远的。 RWKV 模型不需要 100 个 GPU 来训练 LLM 模型,而是可以用少于 10 个 GPU 提供类似的结果。 这不仅使该技术更容易获得,而且还为进一步发展开辟了可能性。