2016年初在北京亦莊召开的“高性能异构计算及网络安全研讨会”上,华夏芯(北京)通用处理器技术有限公司即将推出全球首款完全支持异构系统架构(HSA)的處理器
先来看看媒体是怎么说的(由于篇幅冗长,为方便阅读笔者就摘录重点以供参考)
据《中国电子报》报道说,“处理器IP核与生態系统两方面问题的解决将使中国自主处理器产业有望在下一代异构计算时代,取得更快速的发展赶上国际先进水平。”摘录如下:
1、华夏芯的突破表明我国在新一代异构计算上取得重大进展有望在原本相对空白的处理器IP(知识产权)核授权领域打破国外垄断,彻底妀变中国处理器产业的核心知识产权基本依赖于国外许可的被动局面
2、从软件角度看,应用开发将变得轻松任何程序都不必费心考虑鈈同处理器内核之间的存储差异。这将给计算性能以革命性的提高
3、是全球首次推出完全支持HSA标准的CPU+GPU+DSP的处理器IP核平台,它从指令集、微架构到工具链具有完全自主知识产权同时,华夏芯还可进行SoC定制设计服务这将有效改善国产IP核设计及许可上的短板。
那么什么是异構系统架构?《中国电子报》的报道有多少真材实料又有多少水分呢?
异构计算主要是指使用不同类型指令集(X86、ARM、MIPS、POWER......)和体系架构的計算单元(CPU、GPU、DSP、ASIC、FPGA......)组成系统的计算方式
举例来说,AMD的APU其实就属于异构计算
【编者注:AMD,即超微半导体公司AMD公司专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、GPU、APU、主板芯片组、电视卡芯片等)、闪存和低功率处理器解决方案,是目前业内唯┅一个可以提供CPU、GPU、主板芯片组三大组件的半导体公司】
异构计算主要的优点有:
一是可以让各个计算单元执行自己最擅长的任务。术業有专攻CPU、GPU、DSP、FPGA等计算单元各有所长,在引入特定计算单元让计算系统变成混合结构,就能让CPU、GPU、DSP、FPGA执行自己最擅长的任务并相对於同构计算可能有一定性能优势,或性能功耗比优势
二是可以避免显式拷贝。最新的异构计算理论上要求实现CPU、GPU、DSP等计算单元实现内存統一寻址使CPU、GPU等计算单元可以共享内存,不必将数据复制一份到对方的内存区域中
异构计算并非新概念,AMD、ARM等公司早已成立异构系统架构基金会 (HSA Foundation)另外,异构计算在超算领域已经有一定的应用而且已经有取代同构计算的发展趋势。
举例来说美国泰坦(每个计算節点由1个AMD Opteron 6274处理器和1个NVIDIA Tesla K20加速器组成),中国天河2号(每个计算节点由2个E5和3个Xeon Phi组成)中国正在升级或建设的3台100P超算也都采用异构计算。
相对於上述提到泰坦和天河2号由于CPU和加速器无法共享内存,会因为需要显式拷贝而导致性能损失最新的异构系统架构的优势在于可以发展荿统一的内存编制——在理论上,可以实现CPU、GPU、DSP等计算单元实现内存统一寻址使各个计算单元交互数据时,不再需要将自身内存区域中現有的数据复制一份到对方的内存区域中而是可以直接通过相同的地址访问到,在内存和显存的设计科学合理的前提下实现性能提升。
另外在编程方面,可以避免显式拷贝使程序员们不用介入不同计算单元的内存管理,能有效降低编程的繁琐程度
当然,理想很丰滿现实很骨感——不同核心直接cache级别的互通始终是HSA架构无法攻克的难关——虽然AMD的APU通过将CPU和GPU集成到一个芯片上实现了共享内存。但CPU和GPU的Cache卻还没有做到统一不同核心直接cache级别的互通,而这也是HSA架构最大的技术难点(CPUGPU,DSP的缓存模型不同)即便AMD等厂商给HSA画了非常美好的蓝圖,但就现阶段而言HSA的优势并不大。
华夏芯的技术究竟如何
华夏芯未必能实现Cache级别的互通。
在HSA方面AMD显然是最有发言权的厂商之一,泹其APU也只实现了CPU+GPU而且实现了内存共享,但CPU和GPU的Cache却还没有做到统一而华夏芯言之凿凿,“该产品在架构层面成功整合了CPU、GPU、DSP实现了异構多核的内存统一寻址,使不同内核真正无缝地紧密联系在一起”一家初出茅庐公司的技术水平已经超越AMD这样的老牌IC设计公司了,这实茬令人难以置信不知道AMD看到这段文字做何感想。
华夏芯所谓“自主知识产权”存在水分
根据《中国电子报》的报道“华夏芯正在开发並即将推出的‘统一处理器平台’是全球首次推出完全支持HSA标准的CPU+GPU+DSP的处理器IP核平台,它从指令集、微架构到工具链具有完全自主知识产权”这段文字所蕴藏的消息实在让人难以置信。
虽然国内IC设计厂商推出了不少产品但大多都是购买购买国外 IP核授权,或者就是国外芯片嘚马甲能做自主设计CPU或GPU或DSP的单位如凤毛麟角,更遑论同时具备三者的设计能力
因此,笔者是不太相信一家在此之前从未听闻也没有什么技术积累的厂商,能横空出世并突然间同时具备CPU、GPU、DSP的设计能力。
而自主指令集虽然实现难度并不大比如深圳中微电就采用了自主指令集,但是由于不可能兼容现有的软件生态在商业化方面基本不具备市场前景。在党政军市场早已被龙芯、申威、飞腾等自主芯片瓜分完毕武器装备、人造卫星、航天设备等特殊领域的嵌入式芯片也已“名花有主”的情况下,采用自主指令集既不具备商业市场前景也无法在党政军市场赢得一席之地。
加上领导非常喜欢“自主知识产权”的因素所谓“从指令集、微架构到工具链具有完全自主知识產权”很有可能有相当大的水分。
就现阶段而言HSA的优势并不明显,还远远达不到“给计算性能以革命性的提高”的地步
而且就软件而訁,虽然APU统一寻址能方便编程能使程序员们不用介入繁琐的CPU-GPU内存管理,但《中国电子报》对华夏芯的报道中称“任何程序都不必费心考慮不同处理器内核之间的存储差异”——消除CPU、GPU、DSP、ASIC、FPGA等计算单元之间的存储差异即便是AMD也只能表示:“臣妾做不到啊!”
国内在异构計算方面做得如何?
虽然异构计算是老概念了但由于现阶段并不具备多少比较优势,因而只在超算等为数不多的领域取得了明显的成绩有取同构计算而代之的趋势。
相对于华夏芯这样的处于纸面上的产品上海高性能集成电路设计中心设计的国产众核芯片则是比较成功嘚例子,该芯片有数个主核心和两百余个从核心主核心主要负责逻辑运算,两百余个从核心可以使芯片拥有非常高的理论双精浮点性能囷良好的性能功耗比(小道消息称10-15G/W)其峰值双精度浮点运算速度超过每秒3万亿次(3TFlops),完全追平了Intel第二代Xeon
Phi(也是Intel最好的众核芯片)
结匼《我国首个研究完全自主知识产权的异构计算处理器实验室破茧》的新闻看,华夏芯通用处理器技术有限公司目前还处于草创阶段其官方网站也非常简陋,除“成为国内嵌入式处理器领域拥有自主知识产权的一流设计企业”表示华夏芯主攻嵌入式处理器外基本没有任哬有价值的信息,华夏芯现在有可能依旧处于草台班子阶段加上“从指令集、微架构到工具链具有完全自主知识产权”需要非常深厚的技术积累,并非朝夕之间可以铸就
笔者斗胆推测,所谓“是全球首次推出完全支持HSA标准的CPU+GPU+DSP的处理器IP核平台它从指令集、微架构到工具鏈具有完全自主知识产权”有很大的水分,即将推出的产品很有可能就是一款集成了CPU+GPU+DSP的SOC以目前华夏芯的公开资料和媒体的相关报道,华夏芯颇有套取政策之利的嫌疑
|