首页 > 精选百科 >

Meta进一步透露了其如何改进Llama3训练

发布时间:2024-06-26 11:39:49来源:

Meta公布了其AI训练基础设施的详细信息,透露它目前依靠近50,000个NvidiaH100GPU来训练其开源Llama3LLM。

该公司表示,到2024年底,其将拥有超过350,000块NvidiaH100GPU投入使用,与其他来源的硬件结合时,其计算能力相当于近600,000块H100。

Meta在分享其24,576GPU数据中心规模集群的详细信息时披露了这些数据。

该公司解释说:“这些集群支持我们当前和下一代AI模型,包括Llama3(Llama2的后继者)、我们公开发布的LLM,以及GenAI和其他领域的AI研究和开发。”

这些集群建立在GrandTeton(以怀俄明州国家公园命名)上,这是一个内部设计的开放式GPU硬件平台。GrandTeton将电源、控制、计算和结构接口集成到单个机箱中,以实现更好的整体性能和可扩展性。

这些集群还具有高性能网络结构,使其能够支持比以前更大、更复杂的模型。Meta表示,一个集群使用基于Arista7800的远程直接内存访问网络结构解决方案,而另一个集群则采用NVIDIAQuantum2InfiniBand结构。这两种解决方案都互连了400Gbps端点。

Meta表示:“这些集群中的高性能网络结构的效率、一些关键的存储决策,加上每个集群中的24,576个NVIDIATensorCoreH100GPU,使得两个集群版本能够支持比RSC中支持的更大、更复杂的模型,并为GenAI产品开发和人工智能研究的进步铺平了道路。”

免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。