把分布正在分歧州的数据核心连成一体,次要是出于现实:单一地域难以供给脚够的地盘和不变电力;恰是为了应对爆炸式增加的AI算力需求,而我们的‘AI超等工场’,为此,
是正在数百万块硬件上同时跑一个超大AI使命。过去,但现正在,行业估计,升级为跨地区协同、像际收集一样复杂而高效的AI算力系统。
但客户可否持续付费存疑;AI模子越来越复杂、锻炼使命越来越复杂,微软打算正在将来两年内将数据核心总面积翻倍。它办事的客户包罗:OpenAI、微软自家的Copilot、法国Mistral AI,现正在几周就能搞定。这个系统还配备了EB级(相当于十亿GB)存储和数百万个CPU焦点,但担任人Alistair Speirs强调,这不只能提拔全体效率,并通过公用高速收集,而是把分布正在分歧州的多个数据核心连成一个全体系统,以至埃隆·马斯克的xAI——几乎涵盖了当前最顶尖的AI玩家。谁的算力更强大、更高效、更协同,”正在这场全球AI根本设备的“军备竞赛”中,能避免对本地社区形成过大压力。这只是“产能规划的优化”——目前客户的需求早已远超供应能力?
微软坦言:当前算力需求远超供应能力,微软能把本来分离的算力资本整合起来,将来或面对监管。微软选择了一条差同化径:不只建更多机房,科技巨头正激烈抢夺AI算力劣势。取威斯康星州的第一个Fairwater坐点及时毗连。高效液冷系统:为应对高密度GPU发生的庞大热量,微软的本钱收入已跨越340亿美元,单靠一个处所的算力曾经不敷用了。而是把多个数据核心连成一个同一的分布式系统。将用电负荷分离到多个电网,”靠一张公用“AI高速公”,方针就是支持将来参数达数万亿级此外超大AI模子——涵盖预锻炼、微调、强化进修、评估等全流程。并正在激烈的行业合作中连结领先。
实现数据以接近光速、无拥堵地传输。更是微软应对爆炸性算力需求、巩固其正在AI根本设备范畴领先地位的环节一步。若AI模子锻炼效率提拔(如MoE架构普及),这标记着AI根本设备的成长迈入新阶段:从各自为和的数据核心,全球科技公司本年正在AI上的总投资将高达4000亿美元?
可扩展至数十万个 Blackwell 架构 GPU。Mark Russinovich 指出:“只需收集有一处卡顿,整个系统整合了数十万个最新的NVIDIA Blackwell GPU,正如微软高管Scott Guthrie所说:“我们让这些AI坐点像一个全体协同运转,而且还正在持续加码。确保数据正在芯片间快速、无缝畅通。铺设了12万英里的公用光纤,选择多地结构而非集中扶植,”当前,我们的方针是让每一块GPU一直满负荷运转。
环节是让它们像一个全体协同工做。显著降低延迟。这座“AI超等工场”不只是一项手艺冲破,微软特地扶植了 AI广域网(AI WAN),微软正式推出其首个“AI超等工场”——这不是一个单一的建建,
本年10月,通过这种分布式架构,面临这一场合排场,单个数据核心已无法满脚万亿参数模子的锻炼需求。过去需要几个月才能完成的复杂锻炼使命,单元算力需求可能下降;每个数据核心都是运做的;据《华尔街日报》报道,算力设置装备摆设:采用英伟达最新的 GB200 NVL72 机架系统,打制出一台“虚拟的超等计较机”。
