日前,“TOP500”发布最新运算速度排行榜,日本理化学研究所计算科学研究中心(神户市)的新机型Fugaku以每秒41.553京次的运算速度超越了美国超算Summit,跃居全球首位。Fugaku登顶的消息被媒体争相报道,一些分析文章把Fugaku夺冠和苹果弃用英特尔,改用ARM CPU的事情联系起来大肆鼓吹,仿佛ARM将要取代X86成为CPU的王者。铁流认为,一些媒体的报道用力过猛,已经偏离事实了,就超算来说,采用ARM CPU处理器夺冠成绩值得肯定,但整体市场还主要是X86 CPU或X86 CPU+加速器。

富士通Fugaku和A64FX值得肯定

日本超算一直自成一体,早些年的京就采用SPARC处理器,如今选择ARM,而不是主流的X86,估计也和日本企业习惯于自成一体的做法有关。

Fugaku和排名第37的Flow,之所以把处理器指令集从京的SPARC改成现在的ARM,铁流猜测一方面和软银收购了ARM有关,另一方面与SPARC逐渐式微也有关系。由于X86授权拿不到,SPARC又逐步式微,因而选择近年来风头正盛,且被日本企业收购的ARM。

Fugaku超算和Flow采用的是富士通研发的A64FX处理器,这款处理器曾经在Hotchips会议上亮相,集成了52个核心,配备32GB HBM 2内存,带宽1TB/s,浮点性能2.7TFLOPS,使用7nm工艺生产。

A64FX的52(4+48)个核心和SW26010的260(4+256)个核心有相似之处,A64FX是四个管理核心+48个运算核心,SW26010是4个管理核心+256个运算核心。得益于SVE指令支持512bit浮点运算单元,这使得A64FX的浮点性能大幅强化。

SW26010相对于CPU+加速器的组合有一个优势,那就是共享存储避免了显示拷贝。如果采用CPU+加速器的组合,数据需要在CPU和加速器之间来回倒腾,会带来额外开销。SW26010的设计则避免了这一点。A64FX采用了和SW26010类似的管理核心+运算核心设计,因而在这方面,可能同样具有这种优势。根据富士通的规划,Fugaku只是阶段性成果,下一步计划升级到1000PFLOPS。

炒作ARM处理器优势纯属莫名其妙

诚然,Fugaku和A64FX表现出色,但一些媒体把Fugaku登顶和苹果换芯两件事情联系起来大肆鼓吹,仿佛ARM将要取代X86成为CPU的王者,这就未免有些不妥了。

就苹果抛弃英特尔CPU,选择ARM CPU的事情来说,苹果换芯并非技术因素,而是商业因素。就桌面CPU的性能、功耗、成本、生态而言,X86已经平衡的非常好了,全球暂时找不出在桌面CPU的性能、功耗、成本、生态等方面超越英特尔的公司。苹果把X86处理器换成ARM处理器,主要还是基于苹果一贯的商业逻辑,意图打造苹果自己的闭环生态链,进而实现供应链的高度掌控。这样一来,就避免CPU上被英特尔分去一杯羹,在CPU、OS全部自己掌握后,苹果可以借此获取高额利润。

就A64FX来说,从数据上看,Fugaku和A64FX很出色,Fugaku的双精度浮点性能是Summit的2.8倍,从功耗上看,Fugaku也是Summit的2.8倍。也就是说,在性能功耗比这项属性上,Fugaku相对于Summit并没有提升。必须指出的是,A64FX采用的是7nm工艺,而Summit的Power9是14nm工艺,GV100是12nm工艺,在处理器工艺领先一代的情况下,Fugaku相对于Summit的性能功耗比并没有提升。作为对比,当年神威太湖之光夺魁时,在绝对性能和性能功耗比两项参数上都有明显提升。

虽然ARM的鼓吹者把低功耗和ARM划等号,国内还搞了一个绿色计算产业联盟,打着绿色环保的名义,挂羊头卖狗肉推广ARM服务器。但从实践上看,指令集对CPU性能、功耗的影响已经微乎其微了,真正对CPU性能指标有巨大影响的是设计水平和制造工艺。一些媒体用Fugaku登顶和苹果换芯论证ARM CPU具有先天优势,将要取代X86 CPU完全是莫名其妙。

X86 CPU依然是超算主流选择

近年来,神威太湖之光、Summit、Fugaku相继在TOP500榜单上夺得第一,三款超算处理器的指令集分别是SW64、Power、ARM,由于冠军往往吸引了更多的目光,给人一种感觉,仿佛X86 CPU在超算里已经落伍了。但只要看一下TOP500榜单就会发现,X86 CPU在TOP500里几乎是刷榜的存在。

铁流查阅了TOP500资料,其中,采用X86处理器的超算有481台,采用Power的超算有13台,采用ARM的有4台,采用SPARC的有一台,是富士通的京,采用SW64的有一台,是神威太湖之光。

(HPC TOP500里非X86 CPU 机器,500台里共计19台)

从宏观数据上看,X86依然是超算的绝对主流,SW64、Power、ARM的占比非常少。由于X86的市场份额高,这使X86超算在应用方面更加便利,相比之下,采用SW64、ARM处理器的超算则面临软件移植的问题,此前,非线性大地震模拟应用荣获戈登贝尔奖,就是工程师将这个应用移植到神威太湖之光超算上。相关部门为了扩展神威太湖之光的应用,也是花了大力气鼓励大家去移植应用。由于日本企业在超算京上已经积累了3000多项应用,未来日本企业也会经历应用移植这个过程。

总而言之,X86 CPU依然是超算主流选择,而且应用丰富,便于商业化。Fugaku和神威太湖之光这类超算,如果要想把超算性能真正发挥出来,必须进行应用移植,在特定行业,或者自成一体的情况下自己玩是没问题的,但要商业化全球出售,恐怕就逊色于X86超算了。

中美欧日角逐E级超算

虽然日本这几年经济持续低迷,在全球超算竞赛上逐步掉队,在京之后罕有高性能超算问世,但日本企业的技术底子还是在的,本次的Fugaku则是日本超算实力的体现。目前,中国天河、曙光、神威E级超算正在研发中,美国和欧洲也在研发E级超算。未来几年,中美欧日可能会就E级超算进行一场竞赛。