天宫二号与天河二号以及神威太湖一号之光有什么关系?

如何评价神威太湖之光打败天河二号在超算 Top 500 榜单中登顶第一?
在sc16上最新公布的top500榜单中,突然杀出来的纯国产超算神威太湖之光(Sunway TaihuLight)达到了93P的linpack值,登顶榜单第一!并且中国拥有的超算数量首次持平美国!看到回答中有提到神威蓝光和DEC alpha的,印象中alpha是因为内存模型太弱而退出市场的?不知道就太湖之光的架构方面以及跑Linpack以外的实际应用能力,懂行的同学有什么更多的看法呢?intel那种通常架构上跑的应用方便移植吗,移植之后可能的性能情况?愿国内超算的未来更美好!!!
按时间排序
213 个回答
名字十分中二,就好像守望先锋里的那一句:有咖哇忒ki五哭啦诶!但是真的喊出来以后感觉炒鸡爽!
说点大概算是题外话的东西,主要是关于国产CPU的。作为半个国产CPU粉,我大概是前几年开始关心的吧。其实这不是申威第一次显威风——有其他答主提到的神威蓝光,就算一个典型例子了。所以说这一系列没报道过的是错误的!神威蓝光当年的报道规模并不是很小!而且神威蓝光在至强Phi封锁之前!申威项目有一段时间了!申威源自DEC Alpha,但是已经足够自主。此次夺冠实属正常,因为当年神威蓝光本就很厉害了。但是这次夺冠也使得另一家国产CPU的地位更加尴尬——那就是知名度相当高的龙芯。百度一下不难发现,关于龙芯的超算计划不止一次被提出,这也是有原因的。因为生态圈问题,龙芯发展了这么多年,依然不适合家用——毕竟MIPS发展来的LoongISA,生态圈基本是个空白嘛……当然要是只看看网页的话确实是够了。那么自然目光就要瞄向超算了——这个是不用太在意生态的,更多强调性能。但是龙芯的超算却始终都是雷声大雨点小——尤其在神威蓝光出现之后。而此次神威太湖之光,则可以说封死了龙芯的超算之路。不止Top 500,Green 500的排名也说明了问题,我不认为龙芯有能力在能耗比上打过众核路线的申威。那么回归家用呢?要知道,这本也算是龙芯的路子,当年北京甚至还开了家龙芯专卖店,店中有龙芯的笔记本,也有龙芯的HTPC。龙芯的笔记本,拥有的人并不算少。至少,我就有一台龙芯2F的笔记本……记得龙芯曾经宣称,龙芯2F的性能是对标P4 2.0的但是摸着良心说话,这玩意浏览网页的体验连2.0G的赛扬D都不如……或许是共创Linux的锅?但是我认为没理由啊……当然了,龙芯进入三代的多核路线以后,性能突飞猛涨。但是又来了新人——兆芯。兆芯,技术来自威盛。最关键的一点——X86!兆芯是X86!(当然,兆芯也有ARM SOC之类的啦,而且GPU还是自主的)家用方面,龙芯可以说头又大了一圈。至少龙芯的家用级生态圈,和X86的兆芯比起来,中间恐怕得差了一个申威。(当然了龙芯的生态多少还是有点的,但是和兆芯的差距还是应该正视)固然,龙芯目前性能比兆芯高。但是,那又如何呢?要记住,兆芯的技术来自VIA,VIA当年本就是以低功耗而不是高性能见长。在这个情况下,兆芯ZX-C,已经足够出色了。至少在家用上,我不认为龙芯有能力和兆芯竞争了——除非龙芯使用某些强制性的,非技术性的手段,强行推行一个全新的生态圈的前进,并且把兆芯打压下去。龙芯做得到吗?那么,超算路已经被彻底封死(申威的能耗比真心很赞……毕竟Alpha来的)家用路又走不通。嵌入式?这是VIA当年的玩剩下的啊……那么,智能盒子啥的呢?广电已经钦点了兆芯了,兆芯的自主GPU性能目前看起来真的不错……龙芯,你何去何从呢?(我本人并不讨厌龙芯,甚至还有计划收藏一套龙芯3A)(申威是处理器,神威是超算,不是我故意打错的……)小白请不要在评论区大放厥词了谢谢合作利益相关:百度兆芯吧吧主(我知道没什么人!不许笑!)
名字挺中二的;这次透露出来各项指标都令人非常激动;对实际应用的,尤其是面向民用方面的效率存疑,毕竟不是主流架构;你就告诉我底子从哪买的吧,纯自主要真是这么快就令人咂舌了,你说从架构指令集到最终成品撇开实际制作不谈都是完全自主我是不相信的。
不知道楼上一片叫好的童鞋们有多少真正接触过超算,有多少人写过或者用过科研数值模式,既然一片叫好没人来喷,那我来补充点弹药。说实话,有点超算行业知识的人都知道,如果说天河一号的意义,是从零点九到一来证明硬件上我们能做到No.1;那么后面接下来的这些,完全就是“大干快上”思维在超算领域的粗暴应用。不管是国产CPU,还是宣称的低功耗,这都没什么意义,这些机器的存在只是证明了大量处理器能够以这样的方式组合到一起而已,除此之外几乎没有用处。当然,关于这一点,也有同学认为这样做是很有意义的,那我只能说,您真是没看见多少科研人员排队等着机时,国家却把大量资源投入并闲置在这种面子工程上。下面就先列几个黑点好了,懂的人自然懂。不过,也当然欢迎数据打脸。首先看架构,核心却有40960个节点,单节点是众核架构无误,相当于四万多块Xeon Phi连一起,单节点2T flops左右的单精度性能。嗯,这数据听起来蛮屌的嘛~以每个节点这种级别的算力,消息传递起来同步状态的时候,呵呵呵呵……写过的都懂。其次,跑LINPACK测峰值性能是国际惯例了,众核们一向能把这个数据刷到超高,然而你一个节点才有多少内存呢?1.31PB除以四万多节点,也就是每个具有260物理核心的节点仅配备32G内存,再次呵呵。实际应用哪有高斯消元这么理想化,能不占多少内存就跑满所有核心?楼上答主已经提到了没宣传贴出来的HPCG成绩。当初天河2号的计算卡使用效率就可以说是惨不忍睹,大家有兴趣可以去查查。顺便补充个天河2的冷笑话,这货建成以后很长一段时间里是没有连通外网的,大家要上机只能亲自坐到控制中心,而且冷气系统还与机房连通——嗯,确实是很“冷”的笑话……最后,还要再加上雪上加霜的非主流工具链与优化技术,要知道以Intel的业界地位和工具链完善程度,Parallel Studio碾压各路编译器和MPI套件,以这种实力来推Xeon Phi都举步维艰,我真是不太理解他们堆出这种纸面参数爆表的超算意义何在?会有人针对这种架构去优化模式吗?我承认节点间高速互联的架构是很有技术含量,但我在这立个flag,这货综合利用率能上10%,我直播吃键盘……把这四万多节点拆成高性能工作站,配发各大高校给那帮苦逼兮兮排队跑算例的科研民工们,利用效率不知道比这高到哪里去了。非要这样强行搞个大新闻,对得起长者当年题字嘛!----------------------------------------------------------------答主
提到神威这个系列主要是用于核物理计算,而非通常科研用的数值模拟,对于这方面的应用我确实不了解,所以上面对效率上的吐槽可能有失偏颇。能够达到30%的利用效率的核物理仿真应用确实惊人,然而总不可能一直跑着这一个应用,其他时间这台机器还能用来跑哪个,能利用多少,我想这位答主心里也有数。说回到流体模拟这些科研性质的计算需求,我也想请这位答主举出一个真正需要动用超算去解决的,能够scale到太湖之光这种量级,并且效率还不至于惨不忍睹的应用来。流体力学之类的数值模拟确实要求天量的计算,问题是,都这么多年了,软件工具跟上来了么?跟得上这种特殊硬件架构么?总而言之,投入大量资源从头建造一台专门用于核物理计算的No.1超算,我仍然暂时无法理解其必要性何在。以及,最后娱乐性地强行膜一下,大家是真看不懂还是怎么?----------------------------------------------------------------先前的随手黑可能让很多人没有get到点,最后再补充下观点好了。现代超算系统之所以上这么高成本的Infiniband之类的高速互联网络,为的就是解决那些廉价分布式集群所无法处理的,需要大规模节点间通讯的科学计算问题。然而,这台太湖之光,满是这种类似Xeon Phi架构的,单节点纸面算力爆表,但是对于多数的实际科研应用,大规模scale会很困难甚至小规模都很难好用的机器。就像某答主所说的,用一些民用行业的高并行度计算密集类型的应用来让这台超算满载确实是很容易,但问题不在这里,而是在于国家建造这台新的大家伙,究竟是为了实现什么。如果是并行度特别高的场景,为何不用廉价分布式来解决,真的有必要为此建立这种用途非常有限的超算么?我的观点其实是偏向于支持建造天河1号这类基于通用CPU架构的,能够切实解决科研问题的工具,即便纸面参数没那么惊人,即便用的是Intel Xeon,也总比跑个分算个核物理,然后就基本没法用来跑别的模式要强。
按照之前几个超算中心的尿性,空转率肯定是第一的,软件这块差距实在太大。Gordon Bell入围,从天河1时代就有了,不过拿不拿得到奖就很难说了。还有前面有人说的上不去的那是无锡超算中心,基本也是空转了好几年了,网站都没人管了。现在这个超算中心叫国家超级计算无锡中心,还没有自己的域名,只能找到一个第三方还在建设中的演示页面:
你们搞得这个电脑啊excited
看到这个消息真是热泪盈眶啊,中国加油。研发人员好样的!
怪不得不能注视他的眼睛,原来他有神威的瞳术
其实我觉得这个要比天河二号意义重大,1是用的自家的处理器,说明了底层的设计,工艺,生产都过关了,也就是说杜绝了底层后门的可能性。2是这个性能功耗比排到第三,也是很重要的,君不知天河二号性能再好,是用大量cpu和功耗堆出来的,功耗的指标比第二第三差到不知哪里去了,这次算是真的争气了!长者的目光还是很长远的。
alpha可以瞑目了。其实,这个东西很久了当时是compaq收dec,hp收compaq,然后alpha就重金卖给中国了。没有民用,江南所拿到其实前几年,济南有个神威蓝光的超算,性能功耗比就很牛了,我当时还专门写过一个文。众核架构是当年alpha预留了,人家早就考虑到众核的通讯问题。alpha当年真是一朵奇葩。amd的ev7,intel的超线程都是当年alpha的遗产,遗产到现在,中国这边还搞出来后续。
那些吐槽名字的,难道不知道这是由某位长者钦定的吗
这个事情的意义在于:去年美国对中国禁运Intel至强芯片,导致天河2号性能受限。今年用自己CPU芯片的超级计算机就出来了!中国的工程师是最棒的!! Intel应该也开心:反正中国人自己也搞出来了,就让我卖吧~
虽然我是NUDT出来的,但是其实我跟神威渊源更深啊。。。。算是意料之中吧,毕竟就算天河霸占TOP1,但是同时期有神威蓝光,据说是两个机柜进TOP10。。。(修正:9个机柜,占地80平米)
美国的超级计算机总量虽低于中国,但人均占有量却是中国人均占有量的4倍,务必请同志们继续地保持谦虚、谨慎、不骄、不躁的作风,务必请同志们继续地保持艰苦奋斗的作风。┌( ?_?)┘
泻药,长者题名,当然无脑支持了--------------------------不过话说回来,超算首先是user facility,其次才是科研成果。用户用的爽不爽才是关键更关心的是使用体验,而不是总计算能力。可惜无锡超算的网页都打不开
我有同学在某个以超算著称的单位工作,但是他们的超算从来都没有消息报道过~我就想:你们这些渣渣,搞的是什么玩意!今天我算是知道了:卧槽,你们搞的是这玩意!
看看总性能前几的几台超算的能效比,中特帝掌握核心科技啊!----图片来源:
top500 榜单国外有332台,我国这么多人口才168台,而且几乎都用的外国CPU,这一定是体制问题! 花了这么多钱,好大喜功,这种面子工程都是给领导脸上贴金吧。谁来关注一下失学儿童,老百姓看病问题,西部人民还在吃草!使用率不高,之前新闻里自己也承认了的,做这么大没人用,算法跟不上,软件跟不上,堆一堆CPU除了跑分还能有什么用!芯片为什么不是龙芯,龙芯肯定是打磨的老intel CPU,后来禁运了,没有东西可打磨,也就片不下去了。不知道这个神威是不是打磨的AMD!架构还是不山寨国外的,指令集呢,这些基础性的东西都需要创造力,只有民主国家才有足够的创造力做出x86 这样的!能耗呢?具体是多少?要一个三峡大坝吧,说好的电费1分钱,三峡修好了环境恶化了,遭罪的还是老百姓!CPU制造设备是国产的吗? 像光刻机 数控机床这样的基础设备是无法山寨的!管我P事儿,能给5毛买一包狗粮吗?能降房价吗?1024!玩扫雷估计不会卡,不服来跑个分!=====
第一眼看到这名字差点呛到,太TM中二了,一股国漫招式名的感觉
现在我国科技进步很快啊,一会儿大型客机,大型运输机服役,现在又是超算登顶,说不定哪天我国发动机事业就取得突破了呢,以后不用买俄罗斯的发动机了,在发动机市场上和他们一争高下!
已有帐号?
无法登录?
社交帐号登录帐号:密码:下次自动登录{url:/nForum/slist.json?uid=guest&root=list-section}{url:/nForum/nlist.json?uid=guest&root=list-section}
贴数:5&分页:garfield发信人: frankrick (garfield), 信区: CSArch
标&&题: 转载:如何评价神威太湖之光打败天河二号在超算Top 500榜单中登顶第一?
发信站: 水木社区 (Wed Jul 27 06:55:53 2016), 站内 && 白天看到这个消息非常振奋,当即就去找导师汇报! && 我:“中国造了一台新超算,100PFlops!” && 导师的第一反应是:“功耗多少?” && 我:“15MW” && 导师:“Holy sh*t!” && 我:“他们没用 Intel 的芯片。” && 导师:“oh that makes sense” && 我也不是黑 Intel,但实在是x86架构的历史包袱太重了,想要实现 性能/功耗比的重大提升,这是一个迈不过去的坎。 我在 如何看待 19 岁少年想做出在目前 Intel 同等计算性能下降低 80% 功耗的全新电路系统芯片? - Sean 的回答 这个回答中就提到过,Rex Computing 的人在做的事之一就是砍掉Cache,用 Scratch Pad Memory 取而代之。而在太湖之光的众核架构中的大量 Slave core里面,采用了同样的思路,只保留了instruction cache。data cache用Scratch Pad Memory代替,避免了众核情况下的cache coherence带来的大量性能和功耗浪费。(Master core 里面有正常的Cache),我觉得这是太湖之光实现高性能/功耗比的一个重要原因。 而且Slave core只支持user mode,于是我猜测它在TLB上面应该也有精简。但目前 SW26010 芯片还没有详细的文档资料,所以这点我也只能猜测。 && 至于采用众核架构,可以说是大势所趋,美帝一些新的系统用的也是Intel的众核Knights Landing芯片,据说性能也很不错。 && 至于指令集,Jack Dongarra在他的报告里特意强调和Alpha的指令集没有关系,所以哪怕神威前几代芯片和Alpha 有渊源,但这次应该真没有。。 && 然后更令我惊喜的是不光系统搭起来跑了Linpack,而且还有三项应用入围了Gordon Bell奖的最终名单 (这个算是超算界最厉害的奖了)。充分说明太湖之光已经形成战斗力了啊! && 最后冷静下来谈一谈不足之处: HPCG的跑分。为什么HPCG跑分重要?因为它比Linpack更接近真实应用的场景,更能体现出内存系统的瓶颈。用一个汽车的比喻来讲,Linpack的跑分更像是汽车的百米加速指标,而HPCG更像是到真实的赛道上去跑——这时候就不光是加大马力就能行的了,操控性等其他因素也很重要。 && 太湖之光在HPCG的测试下只达到了它0.3%的峰值性能,总的算下来还不如天河二号。说明其在 memory 和 network 的性能上存在很大的瓶颈。这其实还是挺不乐观的。 && 最最后还是不要掉以轻心,美帝这边正在奔着exa-scale (1000 Pflops) 努力,计划在2023年拿出性能达到exa-scale,功耗小于20MW 的超算。(美帝目前没有建造类似天河二的系统很大程度上是因为功耗的限制,放眼望去基本都是10MW 以下的) 眼前就有GPU带来的变革,DARPA 为此也投资了不少黑科技的项目, 而且这个新闻一出,估计跟国会要钱更容易了…… 革命尚未成功,同志仍需努力啊! &&&&&& --
发自xsmth (iOS版)
-- && ※ 来源:·水木社区 ·[FROM: 117.25.139.*]
garfield发信人: frankrick (garfield), 信区: CSArch
标&&题: Re: 主题:转载:如何评价神威太湖之光打败天河二号在超算Top 500榜单中登
发信站: 水木社区 (Wed Jul 27 06:57:45 2016), 站内 && 嗯,终于有 @Sean 出手了,这个题目才算有价值的回答。还有 @zodism 转帖的部分也很有意思。他自己写的部分是车轱辘话不看也罢。 && 超算冲榜,如果靠本国自研制的消费级CPU,不管是自有指令集和架构,还是仿制x86,继承Alpha的遗产,还是复活MIPS,甚至是借力ARM ISA,我个人认为 3-5 年内,都比较难有突破性的作品出现。 && 但是如果做流式的处理器或者是many cores那是有希望的。这一类产品的好处就是可以根据需求,调整控制和计算单元的配比,设计更高效的IO体系。这点我非常同意 Sean 的看法,On-chip local memory因为没有同步问题,协议简单可以针对特定应用,在较少面积较低功耗的情况下,做到很好的Bandwidth/Latency,是超算的一个方向。 && 事实上,以消费级芯片为计算核心的超算设计时间并不长。 && x86-64主打的Supercomputer是从03年才开始的,IBM现在的Power芯片也都和消费级芯片区别不大。更早之前往往都是大型机的历史。 && 消费级芯片集群占据超算主流,主要是因为, && 0. 消费级芯片性能的迅速提升
1. 这一等级芯片的巨大产量带来的廉价芯片
2. 节点上成熟的软件体系
3. 节点易于复用 && 但是一旦节点数量增长到一定限度,单芯片性能本身遇到瓶颈的时候,整体功耗和极为复杂的节点互联带来的可扩展性就开始成为了问题。大家都看到这个问题,但是消费级芯片的灵活性和软件的完备性又不是说替代就替代的。有同学认为,支持了 OpenACC 和 OpenMPI 就没有软件问题了,这完全是一厢情愿的美好愿景。 && 在可以预测的将来,超算应该会朝着异构集群的方向发展,在满足灵活性和软件适应性的情况下,对特定应用寻求更高的性能和性能功耗比。 && 现阶段能见到的方案就有(感谢评论栏中 李发 的提醒): && 同构:
-京(K Computer) && 异构:
- 从设备:GPU
主-从片内通讯:目前还没见到过,也许以后AMD的hUMA会出超算?
主-从片间通讯:天河1,Titan(AMD Opteron + Tesla) && - 从设备:Slave Cores
主-从片内通讯:神威,下一代Phi Cores
主-从片间通讯:天河2(Xeon + Phi) && 这些体系各有各的优势。
论易用性和软硬件成熟度,同构高于其它,片间通讯又要比片内的主从结构方便一些(这个并不绝对),Many Cores比GPU方便一些。但是可并行的计算密集型应用的话,片内通讯的CPU+GPU最经济。 && 所以神威现在于Linpack上的领先地位,我个人认为更多是来自于代际不同。
这是一个非常好的起点,起码以后中美在做Exa级别的架构、互联、应用上已经是同场竞技了,这点从中美两国超算建设的Roadmap上就能看出来。而且做个大胆的预测,除非以后光路计算机得到广泛应用,否则即便是量子计算机出现,超算也不会跳脱现有的异构体系,新体系很可能是未来数十年的基础。 && 但是这个代际之间的转换并不是免费的,牺牲了HPCG换来了Linpack,牺牲了一些Master换来了一大批Slave。这就意味着现有的设计,总是会在一些场景下不如以前。
对于神威的军方背景,面临的问题相对单一。以核爆模拟为主的计算,Linpack对他们来说或许是最合适的测试,这一点Gordon Bell提名是个非常有利的支持证据。 && 但是对民用超算而言,场景更加复杂多变。这时应当能见到很多来自于Master的瓶颈。所以要想有更加强力的民用超算,消费级/通用 CPU 还有待继续发展。 && 而天河和神威,也应该是一对互补的超算系统,分别适用于不同的应用场景,在各自的领域他们都是最顶级的计算设备。撇开场景直接将指标相比较,是不太合适的。 && &&&& 【 在 frankrick () 的大作中提到: 】
: 白天看到这个消息非常振奋,当即就去找导师汇报!
: 我:“中国造了一台新超算,100PFlops!”
发自xsmth (iOS版)
-- && ※ 来源:·水木社区 ·[FROM: 117.25.139.*]
garfield发信人: frankrick (garfield), 信区: CSArch
标&&题: Re: 主题:转载:如何评价神威太湖之光打败天河二号在超算Top 500榜单中登
发信站: 水木社区 (Wed Jul 27 06:59:49 2016), 站内 && 一个比较详细的测试报告: && Top 500排名第1
Graph 500排名第2
Green 500排名第3,这个排名比较的是 性能/功耗 && 这东西其实倒腾了很久了,和天河二号是同时立项的,目标都是100P。建造单位是国家并行计算机工程中心,属于军队研究单位,所以一直没有对外公布。本来预计是去年底就会发布的,一直拖到了现在。 && 神威系列的产品,其实一直都在部队内部运用,民用的不多,唯一宣传较多的就是济南超算的神威蓝光。获得国家最高科学技术奖的金怡濂院士,就曾经是神威系列的总设计师。 && 相比于机器本身,更值得期待是年底的Gordon Bell奖,这个ACM的Award是颁发给HPC领域的最前沿的应用的,代表着具体系统和实际应用结合的最高水平。中国目前还从未获得过,连入围最终阶段的应用都还没有(去年有个德国的应用在天河2上入围了)。而今年,在神威太湖之光上有2个应用(也有可能是3个)已经入围了11月份的Gordon Bell奖最终评审阶段,如果能够斩获最终的大奖,意义更大。 && 神威太湖之光的CPU架构是自己设计的, 计算单元包括两个部分,一个是主核,和普通的CPU类似。二是8*8的从核阵列。从核阵列相当于是GPU、MIC这一类的加速部件,可以直接访问主存,阵列行列之间可以进行快速的寄存器通信。 &&&&&&&&&& 【 在 frankrick () 的大作中提到: 】
: 白天看到这个消息非常振奋,当即就去找导师汇报!
: 我:“中国造了一台新超算,100PFlops!”
发自xsmth (iOS版)
-- && ※ 来源:·水木社区 ·[FROM: 117.25.139.*]
garfield发信人: frankrick (garfield), 信区: CSArch
标&&题: Re: 主题:转载:如何评价神威太湖之光打败天河二号在超算Top 500榜单中登
发信站: 水木社区 (Wed Jul 27 07:05:23 2016), 站内 && 文︱瞭望智库特约科技观察员铁流
本文为瞭望智库特约文章,如需转载请在文前注明来源瞭望智库(zhczyj)及作者信息,否则将严格追究法律责任 && 1
所谓“软件软”造成超算闲置是伪命题 && 超算所运行的软件可以分为系统软件、基础软件和应用软件。像系统软件(包括操作系统,集群管理调度系统等),HPC基础软件(并行环境,数学函数库等),这些软件以开源软件为主,由于开源软件性能相对偏低,需要针对国产机器特点进行定制开发和优化,所以国内超算大多数是以开源软件进行定制,比如天河超算的操作系统就是Linux的定制版本,2012年投入运行的神威蓝光超算采用的是神威睿思操作系统,神威睿思操作系统其实也是Linux的定制版本。 && 至于开源软件中,中国程序员的代码贡献比例,那就是另外一个话题了,笔者在《9座大山压着,这个关乎国家安全的命脉一直被别人抓在手里》一文中已有详细阐述,本文不再复述。 && 而应用软件中,既有开源软件,比如用于量子力学的Quantum ESPRESSO、Octopus、ABINIT、CP2K,用于分子动力学的ESPResSOmd、LAMMPS,用于离散格子玻尔兹曼方法的OpenLB......也有商业软件,比如计算流体力学的ANSYS Fluent、ANSYS CFX、Xflow,用于模拟安全碰撞、跌落的LS-DYNA、MSC Nastran (SOL700)、Radioss...... && 在形形色色的应用软件中,工程仿真领域以商业软件多,而且这当中大多是国外软件,这些国外软件不仅价格特别昂贵,而且并行规模受限,有些模块国外是禁运的,有些可以用于军工的软件也严禁出售给中国。 && 笔者做一个总结,中国超算的系统软件、基础软件大多基于开源软件定制,因为是开源软件,而且国内科研单位还进行了修改,完全满足超算的使用需求,也就不存在因为软件水平落后而导致超算闲置的问题。而在应用软件方面,虽然很多商业软件被国外垄断,而且价格昂贵,确实影响了中国超算的应用,但却并非无软件可用。 && 实际上,造成超算计算资源闲置的主要原因是全机计算比较少,鲜有一个大应用占全部资源的情况,以及国家没有给足够运行经费,因而收费贵,很多用户用不起。 && 2
天河超算资源闲置与客观事实不符 && 目前,无论是“天河一号”还是“天河二号”都不存在运算资源闲置的问题——早在2016年1月,新华社就报道过《中国超级计算机“天河一号”满负荷运行》,文章中称,“天河一号”目前已经处于一个满负荷,甚至是超负荷运行的状态,每天在线运行任务超过1400多项,这是欧美国家级超算中心都很难达到的一个业务规模......截至目前,天津超算中心已经给全国100多家重要企业提供服务或是形成了深入的合作,阶段性地实现节省企业研发投入上亿元,为企业带来相关经济效益超过20亿元。 && 不仅“天河一号”处于满负荷状态,“天河二号”的大规模计算资源也不容易申请,必须排队,就连国防科大自己想测试下节点都经常没资源,所谓“天河二号”上利用效率不高也是相对于曾经规划的目的而言的——在原本的计划中,希望将更多的诸如核物理、流体力学等代表超算顶尖水平重大科研课题放在“天河二号”上,但后来在实践中,这个比例比原本计划的低;像金融分析、动漫渲染这类门槛相对偏低的应用,并行度高,很容易占用大量计算资源,因而在计划中没有被看得“比较轻”,没有被列入计划所希望的应用列表中。 && 另外,就客观规律而言,超算使用率是不可能达到100%的——跑计算密集型计算网络会有利用不充分的情况,跑通讯密集型计算处理器也会利用不充分,然后大量计算因为处理问题的特点不能做到负载均衡,加上超算上大多同时跑非常多任务,所以整体来看总是有计算资源空着,虽然在旁观者看来计算资源没有跑满,但其实写代码的人已经在恨计算资源不够了——这也解释了为什么明明现有超算的计算资源没有跑满,全世界却都在追求性能更强的超算。 && 3
真正的要害在于编译器和接口 && 在PC领域,软件生态对自主CPU的商业化推广造成了很大的障碍——龙芯跑不了Windows,和现有的Witnel体系不兼容,因而被扼制。但有些人却将PC领域的情况套用到超算中,认为“神威太湖之光”超算采用了自主众核芯片申威26010就会像龙芯在PC领域一样遭遇生态问题,这其实完全是外行人的杞人忧天——由于“神威太湖之光”建设单位的特殊背景,“神威太湖之光”的主要应用方向基本上是应对特殊领域,而在这些特殊领域,相关的软件代码基本上都是自主开发的,且很多代码都是针对申威进行专门的优化。而且在软件上,编译器加速库等生态系统一应俱全,因此,根本不可能遭遇龙芯在PC领域碰到的软件生态难题。 && 诚然,在民用应用方面,比如金融分析、动漫渲染之类低层次应用,“神威太湖之光”如果要跑这些应用,代码确实要重写或者修改,但对于超算用户来说,其实难度并不大,很多用户自己就能搞定——超算中心只要提供编译器、MPI、任务管理系统、登录系统、文件管理系统就足够了。 && 对于大超算而言,任务管理系统,登录系统,文件管理系统可能要自己定制,甚至是自主开发,不过这些难度并不算大,比如天河二号就是用的自主的MPI和文件系统。 && 很多用户只用超算上原配的GCC、MPI、SSH、PBS,如果要用别的软件,需要用什么,用户自己安装什么,甚至是自己编写,并不需要超算建设和运营者自己劳心费力——只要有了MPI、openmp、cuda和openacc等接口和编译器,科研人员和超算用户可以根据机器的手册编好代码——既可以自己从零开始编写,也可以在通用代码包的基础上修改,大部分情况下没问题。 && 除非遇到存在非定义行为的情况,或是有汇编优化的情况,以及编译不规范的情况——有些新手编程不规范,同样的代码在不同编译器下会跑出不同结果,使用SWCC编译器得出一个结果,使用GCC编译器得出另一个结果......遇到这种情况只能怪程序员代码写得不规范了。 && 总而言之,超算只提供基本的计算环境,只需提供编译器和并行接口就满足几乎所有超算应用的需要了——因为并行接口是开放的,大家都是用的统一标准,所以根本就没有软件落后这一说法,所谓软件落后而导致超算计算资源闲置更是无从谈起。 && 4
天河超算曾经遭遇软件问题的根源 && 当今超算的计算节点要么采用CPU+加速器的方式,要么完全采用相同的CPU。采用CPU+加速器的方式,被称为异构计算。举例来说,以美国泰坦和中国天河2号为例,泰坦有18688个运算节点,每个运算节点由1个16核心AMD Opteron 6274处理器和1个NVIDIA Tesla K20加速器组成,共计299008个运算核心;天河2号有16000个计算节点,每个节点由2片Intel的E5 2692和3片Xeon PHI组成,共使用了32000片Intel的E5 片Xeon PHI;天河1A使用了14336片Intel Xeon X5670处理器和7168片NVIDIA Tesla M2050高性能计算卡。这些超算的计算节点都采用了CPU+加速器的方式,因而都是采用异构计算超算的典型代表。 && 而完全使用同一块CPU则被称为同构计算。比如,日本超算“京”只采用了富士通制造的SPARC64 VIIIfx处理器,神威蓝光只采用了8704片申威1600,IBM的Mira和Sequoia,就只采用了PowerPC A2处理器,这些都没有采用GPU或众核芯片等加速器。 && 由于在过去,超算大多采用同构计算,因此所有代码都是根据同构计算编写的,而近年来,由于采用异构计算可以获得非常高的性能和性能功耗比,越来越多的超算采用了异构计算方案,这使得过去曾经能用于同构计算的代码无法在采用异构计算的超算上稳定运行,所有代码都必须修改甚至重写(同构超算跑openmp,异构超算跑cuda和openacc),而在“天河一号”、“天河二号”降生之初,就遭遇这个问题,但随着时间的流逝,越来越多的代码完成了移植,天河超算曾经遭遇的软件问题自然迎刃而解。 && 5
内存偏小并非申威26010的设计缺陷 && 上文提到过采用CPU+加速器的方式为异构计算,只采用一种CPU则为同构计算。但申威26010则显得比较特殊,如果用相同类型指令集和体系架构的计算单元组成系统的计算方式来定义同构计算,那么,由于神威太湖之光只采用了申威26010,而且运算核心和管理核心的指令集都相同,也许会被认为是同构计算。 && 但实际上,神威太湖之光双精浮点峰值高达125PFlops,稳定性能为93PFlops,确实是采用加速器才取得的高性能——本质上,申威26010是将CPU和加速器合二为一——申威2个核心分为2种,一种是管理核心,发挥类似CPU的功能,另一种是运算核心,发挥类似加速器的作用,这就使申威26010单芯片能够完成Intel E5+PHI,或Power+Tesla两款产品的功能。 && 而且相对于Intel E5+PHI,或Power+Tesla,申威26010能够实现共享内存,这就避免了Intel E5+PHI,或Power+Tesla必须面对的显式拷贝,从而降低了对内存的压力,并减小了性能损失。 && 想必也是如此,申威26010的缓存和内存都显得偏小,因为访存模型可能非常单纯——等于是放弃现有cpu的复杂内存管理模型,把内存调度的任务完全交给开发者,只在CPU支持一个最简单的访存模型,在硬件上没有cache的硬件一致性要求(Intel KNL将Cache一致性交由硬件负责),将同步的工作交给软件。 && 这种异乎寻常的设计使得申威26010在拥有高性能和低功耗的同时,弥补了自身在内存上的短板。 && 6
不要给申威“找爹” && 神威太湖之光使用了上海高性能集成电路设计中心设计的国产众核芯片申威26010,该众核芯片主频1.45G,拥有260个核心,双精浮点峰值高达3.06TFlops,在双精浮点上完全追平了Intel最好的超算芯片。正是得益于国产众核芯片申威26010的强悍性能,加上良好的体系结构设计以及互联网络等核心部件,使超算拥有异乎寻常性能指标。 && 每当中国取得技术突破之时,网络上总会冒出一群“找爹党”,本次神威太湖之光超算刷榜也不例外——一些人声称申威26010使用了ARM指令集,一些人将申威26010与 DEC的Alpha联系起来,并将其“认爹”。 && 就事论事来说,申威和ARM完全没有任何关系,在中国获得ARM指令集授权的只有华为海思和国防科大。不过,申威与Alpha却有一定渊源,但血缘关系非常淡薄,稀薄到可以忽略不计,和DEC当年的Alpha已经完全是两回事了(毕竟DEC被康柏收购已经快18年了),有人称之为类Alpha自主指令集,笔者联系过申威的科研人员,他明确表示是自主研发的申威-64自主指令集,相关单位也明确表示与DEC的Alpha无关。 && 请广大网友不要给申威“找爹”,何况这个“爹”已经挂了18年了。 && 7
超算性能永远不会过剩 && 在CPU、操作系统、互联网络等核心部件全名自主化后,一些人以“超算性能过剩论”来指责神威太湖之光超算性能过剩,是面子工程,根本无用。 && 对于“超算性能过剩论”,笔者认为,对性能的追求是永远不会停止的,计算用的代码是可以修改计算精度的,如果有更好的计算条件用户自然会提高网格密度或粒子数目,稍加修改就使计算精度提高了,高的精度可以用来解决更深一层的问题。所以做性能多高的超算都不会性能过剩,做超算从没有够用的说法。
正如奥林匹克格言“更快、更高、更强”,超算同样只有不断追求更快。&& &&&& 【 在 frankrick () 的大作中提到: 】
: 白天看到这个消息非常振奋,当即就去找导师汇报!
: 我:“中国造了一台新超算,100PFlops!”
发自xsmth (iOS版)
-- && ※ 来源:·水木社区 ·[FROM: 117.25.139.*]
tianbing发信人: tianbing1212 (tianbing), 信区: CSArch
标&&题: Re: 转载:如何评价神威太湖之光打败天河二号在超算Top 500榜单中登
发信站: 水木社区 (Wed Jul 27 09:07:36 2016), 站内 && @sean 是哪位高人&& &&&& 【 在 frankrick () 的大作中提到: 】
: 嗯,终于有 @Sean 出手了,这个题目才算有价值的回答。还有 @zodism 转帖的部分也很有意思。他自己写的部分是车轱辘话不看也罢。
: 超算冲榜,如果靠本国自研制的消费级CPU,不管是自有指令集和架构,还是仿制x86,继承Alpha的遗产,还是复活MIPS,甚至是借力ARM ISA,我个人认为 3-5 年内,都比较难有突破性的作品出现。
发自xsmth (iOS版)
-- && ※ 来源:·水木社区 ·[FROM: 101.240.35.*]
文章数:5&分页:
抽奖到手软!将狂欢进行到底!

我要回帖

更多关于 神威太湖之光 的文章

 

随机推荐