
AI21 Labs 近期发布了一款名为 Jamba 的开创性模型,标志着人工智能技术的一大进步。这款模型拥有 52B 个参数,其中在生成过程中活跃的参数为 12B,展示了其强大的处理能力。其设计精巧,仅有 16 位专家参与,生成过程中只需激活其中的 2 位,体现了高效的资源利用。
Jamba 是第一个将 Mamba 结构化状态空间(SSM)技术与传统 Transformer 架构相结合的生产级模型。这种结合旨在利用 Mamba 的长序列数据处理能力和 Transformer 在处理复杂模式和依赖性方面的强大性能。Jamba 支持长达 256K 的上下文长度,且在单个 A100 80GB GPU 上可容纳高达 140K 的上下文,显著提高了处理长上下文数据的能力。
与之前的模型如 Mixtral 8x7B 相比,Jamba 在处理长上下文时的吞吐量提高了 3 倍。这一突破性的进展意味着 Jamba 不仅能够处理更长的文本序列,还能以前所未有的效率和精度处理复杂的依赖关系和模式。
这款模型的开发集成了 Joint Attention 和 Mamba 技术,这是一种创新的尝试,旨在提高模型的性能和效率。Jamba 的发布,无疑将对自然语言处理、时间序列分析和其他需要高效处理长序列数据的领域产生深远的影响。
更多关于 Jamba 的详细信息和技术细节,可以通过以下链接获得:
Jamba 的发布标志着 AI 领域一个新时代的开始,预示着未来人工智能在处理更复杂、更长序列数据方面的巨大潜力和前景。