原创ChatGPT

AI大语言模型Nemotron-4 15B(性能超LLaMA-2)

英伟达研究团队推出了一款名为Nemotron-4 15B的大规模语言模型。这是一个拥有150亿参数的庞大模型,经过预训练吸收了来自8万亿文本数据的知识。在涵盖数学、多语种分类、编程等多个领域的评测中,Nemotron-4 15B在其中4个领域中的表现均优于同等规模的现有开源模型。即便在其他领域,该模型也展现出了卓越的能力,令人印象深刻。

Nemotron-4 15B架构解析

Nemotron-4 15B采用了标准的Transformer架构,这是一种基于自注意力机制的深度神经网络结构。该架构由多个相同的层组成,每层包含多头自注意力机制和前馈神经网络两个关键模块。

自注意力机制赋予了模型捕捉输入序列中不同位置之间依赖关系的能力,以及理解序列各个位置内在关联的能力。前馈神经网络则通过多层感知机对每个位置的表示进行非线性变换,丰富其表达。

该模型仅使用了Transformer解码器部分。解码器主要负责将输入序列映射为输出序列,通过自注意力和前馈网络模块对输入进行处理。

注意力机制在该模型中扮演重要角色。自注意力用于学习输入序列内部依赖关系,而全局注意力则用于捕捉输入与输出序列间的对应关系。通过注意力聚焦于与当前位置高度相关的信息,模型能更好地理解上下文语义。

多头注意力机制使该模型能够同时关注输入序列的多个方面,从而大幅提升了表达能力和泛化性。位置编码技术也被采用,使模型能够在序列处理时考虑位置信息,进而更好地捕捉顺序关系。

Nemotron-4 15B数据与训练过程

该模型的训练数据涵盖英语自然语言(70%)、多语种自然语言(15%)以及源代码(15%)等多种数据类型。在构建预训练语料库时,研究人员移除了重复数据,并对数据进行了精细的高质量过滤,确保生成内容的准确性。

训练过程中,研究团队采用了大规模的计算资源——384个配备8块基于英伟达Hopper架构的H100 80GB SXM5 GPU的DGX H100节点。他们使用了8路张量并行与数据并行的混合方式,以及分布式优化器分片技术。

在涉及英语、数学推理、多语种分类和编程等评测任务中,Nemotron-4 15B在英语领域显著优于LLaMA-2 34B和Mistral 7B,与QWEN 14B和Gemma 7B不相上下。更值得赞许的是,该模型在广泛的编程语言中展现出了极高的准确率,尤其是在资源贫乏语言上,它甚至超越了Starcoder和Mistral 7B等模型。


本文来自投稿,不代表本站立场,如若转载,请注明出处并保留链接:https://www.metaguan.cn/chatgpt/4183.html
Claude3.0不可思议的表现(AI大模型觉醒意识?)
« 上一篇 03-07
OpenAI遭"ClosedAI"恶搞(马斯克大战OpenAI最新进展)
下一篇 » 03-08