集成2.6万亿个7nm晶体管,世界最大AI芯片打破单设备训练大模型记录
以制造世界上最大的加速器芯片CS—2晶圆级引擎而闻名的公司Cerebras昨天宣布,他们利用巨芯在训练人工智能方面迈出了重要一步该公司在单个芯片上训练了世界上最大的NLPAI模型
该模型有20亿个参数,基于CS—2芯片进行训练世界上最大的加速器芯片是由一整块方形晶片通过7nm工艺蚀刻而成的它的尺寸是主流芯片的几百倍,功率15KW它集成了2.6万亿个7纳米晶体管,封装了85万个内核和40GB内存
1个CS—2晶圆级引擎芯片
单片机训练AI大模型新纪录
例如,当用户输入鳄梨形状的扶手椅时,AI会自动生成几个与这句话相对应的图像。
不止如此,这个模型还可以让AI理解物种,几何,历史时代等复杂知识。
可是,要实现这一切并不容易传统的NLP模型开发有极高的计算成本和技术门槛
事实上,如果只讨论数字的话,Cerebras开发的这个模型的20亿个参数在同行的背景下显得有些不起眼。
前面提到的DALLe模型有120亿个参数,而目前最大的模型是去年底DeepMind推出的Gopher,有2800亿个参数
可是,除了惊人的数字,Cerebras开发的NLP还有一个巨大的突破:它降低了开发NLP模型的难度。
Macrocore如何打败GPU。
按照传统的流程,开发NLP模型需要开发人员将庞大的NLP模型分成几个功能部分,将他们的工作量分配到数百个图形处理单元。
数百个图形处理单元对制造商来说意味着巨大的成本。
技术上的困难也让厂商苦不堪言。
细分模型是一个定制的问题每一个神经网络,每一个GPU的规范,以及连接它们的网络都是唯一的,不能跨系统移植
制造商必须在首次培训前考虑所有这些因素。
这项工作极其复杂,有时需要几个月才能完成。
Cerebras表示,这是NLP模型训练中最痛苦的方面之一只有少数公司有必要的资源和专业知识来开发NLP对于人工智能行业的其他公司来说,NLP培训成本太高,耗时太长,无法使用
但如果单个芯片可以支持20亿个参数的模型,就意味着不需要使用海量GPU来分散训练模型的工作量这可以为制造商节省成千上万的GPU培训成本以及相关的硬件和扩展需求与此同时,它还使供应商摆脱了拆分模型并将工作负载分配给数千个GPU的痛苦
Cerebras不仅痴迷于数字,还评价一个模型的好坏参数的数量不是唯一的标准
Cerebras希望模型比诞生在巨核上的模型努力更聪明。
Cerebras之所以能在参数上实现爆发式增长,是因为它使用了重量流技术这项技术可以将计算量和内存使用量解耦,并允许内存扩展到足以存储AI工作负载中添加的任何数量的参数
由于这一突破,建立模型的时间从几个月减少到几分钟开发人员只需敲几下键盘,就可以在GPT—J和GPT—Neo型号之间切换这使得NLP的开发更加容易
这导致了NLP领域的新变化。
正如Intersect360 Research首席研究官丹·奥尔兹在评价脑波强化器的成就时所说:脑波强化器可以以一种经济高效,易于获取的方式为公众带来大型语言模型,这为人工智能开辟了一个令人兴奋的新时代。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。