Meta开源了可处理无限长文本的名为MEGALODON的大型语言模型

Meta开源了可处理无限长文本的名为MEGALODON的大型语言模型

Megalodon是Meta、USC、CMU和UCSD联合提出的新神经网络架构,可处理无限上下文,超越Llama2-7B实现高效训练和推理。它采用CEMA、时间步归一化层等技术组件,解决了Transformer在处理长上下文时的限制。在2万亿token训练任务中性能卓越,被认为是AI领域的重大突破。

相关文章