72核GPU是传说的美研发新型核弹头吗

新核弹!NV新一代GPU核心代号曝光 明年3月首秀
继Femi(费米)、Maxwell(麦克斯韦)、Pascal(帕斯卡)、Volta(伏特)后,核弹大厂NVIDIA下一代的核心代号曝光:Ampere(安培)。&&NVIDIA这些年的GPU核心代号都采用的是科学 家 的名字,
安培是法国物理学家,最为著名的发现就是安培定律,Ampere本身也是如今物理学界认定的电流单位。 不出意外的话, Ampere将家族使用10nm工艺打造 ,以区分与Pascal的14/16nm和Volta的12nm(台积电改良版16nm),同时, HBM3应该会成为高端核心的标配。同时, Ampere首次登场的时间定在明年3月26日的GTC 2018大会上。由此来看,CES 2018发布Volta卡的可能性也就骤然增加了。Volta之所以拖这么久,主要是等待GDDR6显存就绪,但三星、SK海力士、美光方面都已经宣告准备就绪,障碍自然消除了。&
最新资讯离线随时看
聊天吐槽赢奖品
相关软件:
大小:18.86 MB
授权:免费
大小:33.23 MB
授权:免费看了teger4的介绍,吓尿了72核gpu。。。。【lt26i吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:77,154贴子:
看了teger4的介绍,吓尿了72核gpu。。。。收藏
看了teger4的介绍,吓尿了72核gpu。。。。
SP而已……要是这么算我笔记本这还1280核的GPU呢
目测。开机直接没电
登录百度帐号推荐应用现在的 GPU 都 2000 核了,为什么 CPU 才 16 核?
我的图书馆
现在的 GPU 都 2000 核了,为什么 CPU 才 16 核?
【SneezryLee的回答(72票)】:
GPU是一群小学生,扎堆算加减法;CPU是一个老教授,能解微积分。CPU的核比GPU复杂得多呢。
【知乎用户的回答(54票)】:
这是一个很有意思的话题。
NVIDIA Kepler GPU里面有十几个SMX,每个SMX的组成结构如上图,内含192个处理单精度数据的CUDA Core,2000+核心就是SMX的数量 * 每个SMX内部的CUDA Core数量得出的。
问题就在这里,现在的GPU可以被看做是基于Streaming Processor的众核架构,这里的“核心”,其量级是跟CPU里面的“核心”完全不可同日而语的。
CPU和GPU的核心用途完全不同,不是很好比较,我想了一下觉得可以用SIMD的角度来分析一下。NVIDIA所说的CUDA核心其实只负责执行SIMD中的一个line,许多个CUDA Core才能构成一个完整的SIMD阵列。
这是Kepler前代——Fermi的CUDA核心。一个CUDA Core负责SIMD的一个line这是Kepler前代——Fermi的CUDA核心。一个CUDA Core负责SIMD的一个line
而CPU核心里面的SIMD部件其实是一个完整的SIMD阵列,反观GPU,许多个CUDA Core才能构成一个完整的SIMD阵列。
但是这样比也有问题,SIMD阵列的宽度是不一样的,以现在256bit 宽度的CPU内部SIMD为例,如果以32位单精度数字为一个line,那么就可以跑8个line,双精度的话是4个line。相比之下NVIDIA 的CUDA核心只是负责一个line,而SMX可以同时跑192个单精度line,64个双精度line
从这个角度我们可以给核心的量级做一个排序。NVIDIA SMX & CPU Core & CUDA Core
把CUDA Core与CPU Core相提并论是不对的。“核心”是一个很模糊的概念,有的核心大,有的核心小,而且功能不同,单纯比较核心数目是没有什么意思的,就像比较飞机发动机数目和火车发动机数目一样,关公战秦琼。以上拿SIMD宽度说事,只为给出一个感性理解。
我个人很喜欢GPU和CUDA,当时买笔记本很有远见地买了带Geforce的,但NVIDIA宣传GPU和CUDA的时候,有些地方可能不是很恰当,比如把SIMD的一个line包装成CUDA Core,把一次SIMD操作改称为Warp之类,颇有误导性,我也是看了最新版的量化才恍然大悟。
======================================================================
更新1. 上面这句说“一次SIMD操作改称为Warp”是错误的,一个warp是一组CUDA线程的集合,warp内部在没有分支的情况下同步执行指令。抱歉我读CUDA已经是一年前,有些概念生疏了。NV所出的两本CUDA书我都从头到尾读过,Stackoverflow上也有我贴出、被选为最佳答案的CUDA代码,自信理解本质无问题。感谢评论区中张亚、张扬二位提醒。
更新2. GPU核心和CPU核心并无可比性是毋庸置疑的,但是我认为单纯给出一个“并无可比性”的论断也没有多大意义,无助于理解本质所在。GPU VS CPU的区别可以从很多角度来看,SIMD只是其中之一,希望看到其他人贡献更多好的回答。
====================================================================
更新3. 下面这段文字尝试从微结构演化的角度来分析对比GPU和CPU,摘自我给某纸媒写的一篇专栏,贴在这里当抛砖引玉吧。GPU的演化除了从微结构角度看以外,图形学也是不可忽视的一个驱动因素,这部分我不是很熟,希望有人能出来写一个好答案。
翻阅上世纪八十年代末期至九十年代中期的论文,便不难发现,当时学术界与工业界热衷于具备宽发射、长流水,乱序执行、分支预测能力的CPU,认定这将是未来的发展方向,这些技术的研究热火朝天,有的学者甚至乐观地展望,未来将出现每周期15发射以上的惊人前端发射宽度,这样激进的宽发射CPU当然并未成为现实,作为对比,Haswell架构的发射宽度为4(因为可以发射融合微指令,所以实际等效发射宽度稍高),安腾2架构在编译器调度的帮助下也只能做到12发射。这种乐观预期的存在很好地反映了当年的时代局限。九十年代微架构设计的主流观点是,若想提高计算速度,加强CPU核心的执行能力是重点。在这样的指导思想下,著名的Intel P6微架构诞生了,双发射+长流水+乱序执行+分支预测一应俱全,核心频率越来越高,逻辑越来越复杂,直至NetBurst架构的高频奔腾4芯片折戟沉沙。
重新审视当时的失败原因,主要有两个。
其一,功耗墙(power wall)。用以加强CPU核心执行能力的这些技术将大幅推高功耗,以乱序执行为例,每一条指令的发射和执行都需要经过一整套逻辑的检查以确保流程正确,并占用额外的寄存器,这意味着每一条指令的执行都需要更多功耗。这种愈发激进的CPU设计在Netburst架构时代迎来顶峰,随后狠狠地撞上了功耗天花板。前Intel副总裁Patrick Gelsinger曾在2001年的国际固态电子电路会议上发表主题演讲,警告说CPU的功耗密度如果继续提高,不出几年就将摆脱现有一切冷却手段的束缚,彻底失去控制。更加不妙的是,仿真结果揭示,即便倾尽全力,给定无限多的芯片面积预算去设计一个发射宽度远超当下,配备极强的乱序执行能力和分支预测器的CPU,其整数指令发射能力也不过提高区区几倍,这样的设计思路下,改进潜力已经不大。
其二,访存墙(memory wall)。愈发激进的CPU设计将CPU核心的执行速度提得很高,存储器系统已经越来越力不从心。提供足够大的存储容量和提供足够快的响应速度在本质上是矛盾的,冯诺依曼早在1945年就断言容量和速度的需求无法同时满足,这位大师级人物不幸再度言中,存储器系统越来越难以用足够快的速度交付和接受指令与数据,引发了架构设计者们的担忧。DEC公司Alpha架构的首席架构师理查德·赛特斯在1996年的《微处理器报告》上撰写了一篇标题为《瓶颈在内存,愚蠢!》的惊世雄文,据他披露的测试结果,当时最出色的乱序超标量处理器若是管线填满,理论上每周期可以完成两条左右的指令,而实际执行时每四到五个周期才会有一条指令完成,落差几乎达到十倍,花费学术界与工业界无数心血研究测试的超标量乱序执行并未如想象中那样强大,优势几成泡影。这项测试非常有力地证明,整个执行模式存在极其严重的瓶颈,制约了整个CPU的性能,而这个瓶颈就在于访存速度。花费如此大的精力设计的高性能CPU,却花费了90%的时间等待存储器系统的响应,这不能不说是一种莫大的讽刺。赛特斯不无悲观地认为,在未来的处理器微架构设计中,存储器系统将成为唯一的关键因素。
面对这些挑战,业内已有一些较有远见的架构师开始讨论另一种全新的架构设计方式,他们设想抛弃高能耗的复杂乱序执行核心,转而采用设计精巧简单,功耗较低的小核心,将设计重点放在提高对存储器系统的延迟容忍上,依靠多核心多线程并行执行来躲避存储器系统的延迟——这便是后来NVIDIA GPGPU的核心设计理念之一。
计算机上运行的程序种类繁多,有的程序代码包含大量分支(例如编译器,人工智能,电路真值表生成),需要CPU拥有强大的分支预测器,有的程序代码频繁取用数组元素(例如矩阵计算),对CPU的访存能力提出了很高要求,设计一个万能型的CPU,要求它运行所有种类的代码都能拿出最快速度,这是极其困难的,但是如果能够区分程序类型,针对性地设计多种处理单元,令其分工合作,则有可能满足所有需求,这被称为异构计算。
在讲述GPGPU的运算优势之前,我们先来看看初中数学水平的简单向量加法。考虑两个宽度为16的向量相加,{1,2,3,…,15,16} + {1,2,3,…,15,16} = {2,4,6,…,30,32},不难发现,其中每组对应数字的相加,相互之间并不干扰,不存在相关性,而且没有分支,可以完美地实现并行。只需让一条加法指令同时控制十六条逻辑通路,引导十六组寄存器中的数据进入ALU,再同时写回寄存器,就可以并行做完这个宽度为16的向量加法,用体系结构的术语来说,这被称为宽度为16的SIMD执行(单指令多数据)。
研究显示,与此例类似的向量计算代码经常出现在某些特定种类的程序中(例如图像编解码)。因此,这种能够一次处理多组数据的SIMD处理单元就可以考虑作为GPGPU的基本构建模块,以NVIDIA Fermi架构的GTX 480为例,它内部的SIMD处理单元宽度为16,整个核心拥有16个这样的处理单元,一个时钟周期就能完成256 FLOPS的运算量,这个并行计算的宽度是惊人的,但是强大的并行能力背后需要寄存器或者存储器系统的支持。如果每个操作数都由内存提供,那么每进行一次单精度计算都需要内存系统提供2KB数据,显然这是难以达到的。如此大的访存压力需要使用其他技术进行分摊。
因此,GPGPU通常具备数量庞大的通用寄存器组,尽量使数据保存在本地,同时每个SIMD处理单元都具备多线程的硬件支持,例如Fermi的每个SIMD内部都设立了一个包含48线程的调度表,能够在当前线程发生访存停顿时迅速切换至其他线程,通过多个线程的重叠执行来隐藏访存延迟。除此之外,GPGPU的内存控制器也支持Gather-Scatter操作,能够应对部分不规则的内存位置访问,对接的内存系统也是经过特别设计以实现更高带宽。从图中可以看出,GPGPU的核心内部的缓存所占面积也很小,绝大部分芯片面积都用来构建逻辑运算单元和数据通路。相较之下,CPU则依靠更大的缓存来弥补内存缺憾,缓存所占芯片面积达到50%是常事,历史上甚至出现过HP8700这样的奇葩架构,缓存所占面积几乎达到四分之三。
经过这样设计的GPGPU架构,其控制逻辑相对简单,一条指令便可以控制极宽的数据通路,而数据通路可以按照需求进行关闭,缩减功耗,因此这种架构能够带来更好的能耗表现,这便是架构设计师们对功耗墙问题所做的应对措施之一。再来看访存墙,GPGPU的线程并行度很高,来回切换线程的做法能更好地容忍内存延迟,但是对内存带宽需求更高,而且要求访存更加局部化。当计算任务的相关性很弱,几乎不存在分支,且内存访问模式比较规律的时候,GPGPU能够以更快的速度执行完毕,这部分优势是GPGPU截然不同的设计思路所带来的,也是传统CPU难以企及的,在GPGPU上实现较高计算加速比的通常就是这类程序。但是GPGPU也并非万能,它处理分支的能力很弱,目前大多依靠谓词执行,如果让GPGPU来处理分支较多的程序,SIMD单元就会在各种指令路径间来回切换,效率大打折扣。例如,给定一个宽度为16的向量,根据每个数字的奇偶性来决定执行路径,偶数则执行乘法,奇数则执行除法,那么就无法再依靠单一指令指挥整个向量数据流了,而这种工作在CPU上却得心应手。此外,若计算任务出现较强的相关性,程序员就很难编写并行化的代码,这部分任务也很难在GPGPU上执行。因此,可以预见CPU+GPGPU需要在以后的时间里分工合作,让CPU凭借强大的分支预测和快速串行执行能力来处理串行化代码,而GPGPU处理并行化的代码,以这种异构计算的方式实现更高的效率,NVIDIA的CUDA编程语言和GPGPU执行架构便是基于这样的思路设计。
【王沫阳的回答(11票)】:
“如果你要耕一块地,你愿意用 2 头牛还是 1024 只鸡呢?”
——引自 Computer Architecture, A Quantitative Approach
【KillConsole的回答(3票)】:
GPU的核和CPU的核是两回事。GPU只能计算那些能并行化,数据依赖性不高的任务,而不能进行串行化的任务,也就是计算量大但是计算不复杂的任务。
【知乎用户的回答(0票)】:
大抵CPU要处理的程序更通用, 不是所有的程序都是全并行的啊. 程序里串行计算的部分多了,核数再多也没用啊.
假定有50%的代码是串行的. 那核数再多, 拿Amdahl定律算,撑死了加速比也就是2. 而且由此而来的cache一致性/interconnect的开销也越大吧.
馆藏&70516
TA的推荐TA的最新馆藏
喜欢该文的人也喜欢Galaxy S7 GPU强于iPhone仅老黄核弹可治
(原标题:Galaxy S7 GPU强于iPhone 仅老黄核弹可治)
去年 8 月份,公布了最新一代集成于 Snapdragon 820 的 GPU 图形处理单元,Adreno 530,作为 Adreno 430 的继任者,高通当时表示其性能得到了大幅改进,并且功耗更低。具体而言,Adreno 530 GPU 比 Adreno 430 性能提升达 40%,同时还能降低 40% 的功耗。那么究竟强到什么程度呢?在早期未进行软硬件优化的 Snapdragon 820 开发者样机测试中,Adreno 530 性能要比 A9 的PowerVR&&GT7600 性能高出大约 10%。特别是在 GFXBench 3.0 曼哈顿离屏测试中,Adreno 530 可以跑出 45.2FPS 的帧率,相比之下
6S 的成绩是 39FPS,高通领先多达16%。考虑到采用 Snapdragon 820 有一大波旗舰,Adreno 530 也将会在这些机型上大放异彩。包括
One M10 等等,但是三星的 Galaxy S7 似乎更有可能成为最早炫耀的旗舰手机,因为目前其相关测试已经在网络上曝光了。日前,一组有关三星 Galaxy S7 跑 GFXBench 测试的成绩截图悄然出现。结果显示,涉及到图形处理性能方面,Galaxy S7 凭借 Adreno 530 GPU 几乎摧毁了一切竞争对手,包括苹果的 iPhone 6s 也甘拜下风。而唯一能够不让 Galaxy S7&&那么骄傲的产品,就是搭载了老黄 Maxwell 架构“核弹级” GPU 的谷歌 Pixel C 平板电脑。
本文来源:威锋网
责任编辑:李德雄_NT2021
关键词阅读:
不做嘴炮 只管约到
热门产品:   
:        
:         
热门影院:
用微信扫描二维码分享至好友和朋友圈72核到底有多强_百度知道
72核到底有多强
我有更好的答案
GPU单个核心计算能力可能对比CPU比较弱,不是越多越好。一般72个核心的可能比较适合用于服务器领域。,你核心数再多也没有,同时处理众多网络请求的话,又或者是渲染电影,是数以千计,比方说有些软件只能用到8个核心的(好像一些任务除不尽,不好分配。所以这个要看具体应用环境,够用就好,算法,很难有答案。好像如果是处理单一的数学问题这个问题要看用途。而且如果做服务器,也要看网络速度,如果使用的网络速度很慢很慢,你CPU长期处在等待数据的状态,也是没卵用的。。其实72个核心也要看是什么核心,好像国家级的计算机一般堆GPU比CPU多,其他的闲着,用来处理比方说气象信息,如计算欧拉常数或者是π等,单一公式。不过同样的,是CPU核心数越多越强,也要看架构和软件本身的算法。如果是用来做服务器,这种可以分割的任务,但是可以一次性堆非常多,8是一个比较好的数字)。。,这种任务通常不能分割,只能依靠单个CPU核心执行,此时频率高以及有先进指令集的CPU比较强
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。

我要回帖

更多关于 炉石传说狗头人核弹牧 的文章

 

随机推荐