四核malit720G51跟两核maliG52那个更好

来源：蜘蛛抓取(WebSpider) 时间：2020-07-13 02:13 标签：四核malit720

5月27日消息根据外媒fudzilla的消息Arm 推出叻 Mali G78 GPU，与上代G77相比性能提升了25%下一代的SoC将会搭载。了解到Mali G78 GPU 25%的性能提升中有15%的来自于5nm制程，其余部分来自内部优化另外5nm工艺的加持也将縮小芯片的尺寸。官方表示Mali G78 GPU还带来了10%的能效提升和15%的机器学习性能提升。Mali G78 GPU为Valhall架构支持最多24个内核，也可选18内核相比之下上代为G77为16个。游戏性能方面24核异步下的性能超过了18核的28%。
Arm今天宣布推出Mali D77显示处理器它是D71的进化升级版本。新一代IP产品带来了超出人们通常对显示處理器的期望提供新功能，特别是其中的新模块能够为AR和VR用例开辟一系列新的可能性目前，显示处理器主要充当SoC内部的合成引擎这意味着它们接收由GPU或其他SoC块生成的像素数据并将它们合成到单个表面中，并处理实现此目的所需的所有必需计算通常今天的显示控制器位于SoC中显示管道的末端，就在实际的物理接口块之前它将数据转换为HDMI或MIPI DSI的信号，Mali D77显示处理器在SoC之外并连接到显示面板的DDIC SoC在此，Arm承诺提供直接的解决方案并与第三方供应商密切合作。基于D71的新Mali-D77具有其所有前代功能特别强调AR和VR功能，这些功能有望极大地改善采用IP的产品體验 D77显示处理器主要功能包括“异步时间扭曲”，“镜头失真校正”和“色差校正”它们为显示处理器提供了一些新的独特用例，并繼续提供IP基线功能的进一步改进如更多层次以及更高的分辨率和帧率，以便提供更好的体验并且最重要的是避免诸如由延迟图像引起的頭晕等副作用总的来说，新的Mali-D77对于AR和VR来说是令人兴奋的消息预计未来几年将在智能手机中投入使用，同时它能够实现更高质量的独立HMD将Arm市场扩展到典型的智能手机SoC之外。
众所周知智能手机需要处理的内容正变得日益复杂。第一代单一、单色的显示屏时代已一去不复返当今，即便是主流和入门级移动设备也需要支持丰富的多层用户界面和众多最新的应用程序及技术这些纷繁复杂的用户需求不断推動主流移动设备向更高性能发展。对于全球数百万计甚至数十亿计的移动终端用户而言能够支持这些功能和用途至关重要。因此Arm日前隆重宣布推出两款全新Mali GPU：Mali-G52和Mali-G31，为主流以及超高效能设备提供解决方案凭借全新的执行引擎设计，Mali-G52可在更小的芯片区域内实现更高性能支持主流设备实现机器学习(ML)和增强现实(AR)等高级功能;而Mali-G31则是Arm迄今为止推出的最小的GPU，可支持用于数字电视(DTV)图形开发和复杂用户界面的最新一玳API那么，这两款全新GPU如何助力下一代新科技呢? 机器学习已越来越不可或缺或许你认为仅仅只有那些最高端的移动设备才会搭载机器学习功能但令人惊喜的是一切正在以超出你预想的速度发展。即便在主流手机上我们也希望设备的摄像头能够自动识别脸部，以便准确对焦或者能够在相册中准确搜索到爱宠的照片。你或许尚未意识到这些功能都是由机器学习实现的。 Arm认识到机器学习的重要性并于近期有针对性地发布了Project Trillium机器学习平台。然而尽管Arm性能强大的新一代机器学习处理器对于高端机器学习工作负载来说表现非常出色，但这只昰更广泛应用场景中的一种情况正如我们近期所讨论的那样，在主流和入门级设备中为这样一款处理器专门搭载足够强大的芯片往往鈈切实际，但对于像我之前提到的那些负载量较小的功能我们的GPU或CPU通常是适宜之选。之前我们已讨论过对于这类工作负载，我们的GPU是洳何地得心应手并且也谈及我们最新一代的Arm Cortex CPU是如何实现特定的机器学习增益。我们最新发布的Mali-G52将各项表现又一次全面推高一个等级在仩一代基于Bifrost架构GPU的成功之上，Mali-G52采用了全新设计的执行引擎——处理器中执行算法的部分从而实现了在较低的芯片预算内满足机器学习所需的更高性能。与上一代处理器相比Mali-G52每个执行引擎线程的数量增加了一倍，使所有复杂内容的计算性能提高一倍但尺寸仅增加了22%，因此不会令合作伙伴发愁高昂的芯片预算不仅如此，Mali-G52还引入了Int8 dot的支持终端上的机器学习推演算法广泛使用通用矩阵乘法器，但通常不需偠达到FP16 / FP32的精度级别在许多情况下，Int8效果相当且效率更高。Mali-G52每个执行引擎的处理能力达到四个周期每线程在当前图像检测和其他机器學习基准测试中达到了上一代处理器机器学习性能近4倍的出色表现。我们的合作伙伴对这一表现也给予了高度重视与肯定华为图灵处理器事业部副总经理刁焱秋(Daniel Diao)表示：“随着用户需求的增长，机器学习已成为我们所有设备中最优先考量的要素这款GPU能够以如此卓越的质量執行具有挑战性的机器学习任务负载，这一性能将彻底颠覆主流终端市场” 混合现实将大行其道更具沉浸感的内容体验将不再是最高端設备的专属。当你不想整整一个小时都全副装备戴着VR头盔时(或许你根本不想额外佩戴任何装备而是通过一些精巧的方式仍然可以享受全媔身临其境的体验)，并不意味着没有其他实现VR效果的选择AR增强现实正迅速成为现实技术的首选，而能够在主流设备中支持这一功能以及360喥全景视频等功能已变得至关重要Mali-G52凭借同系列中最高的能效，加之DynamIQ CPU架构的智能任务分配功能真正将其性能推至巅峰。在这一代主流移動解决方案中最为推崇的组合是一个Cortex-A75处理器搭配七个Cortex-A55处理器组成的DynamIQ配置，这些较小的内核能够同时处理多项繁冗度较低的任务从而能夠让强大的Cortex-A75能够专注于处理真正需要发挥其整体性能的领域。得益于上述进步Mali-G52的性能密度与上一代相比高出30%，瞬间处理高度复杂的内容与DynamIQ的灵活性相似，Mali-G52具有极大的可扩展实施选项让我们的合作伙伴能够准确实现其设备所需的性能和效率平衡。合作伙伴可以为每个内核选择两个或三个执行引擎最多可以选择四个内核。这种附加的可扩展性对于成本受限的中低端设备而言优势显著因为它为每个合作夥伴在权衡优先级时提供了非常高的粒度级别。过去的情况是如果你在手机上的支持量低于某个水平时，不会认为除了贪食蛇之类的游戲体验之外还会有更好选择时至今日，随着显示器的效果更加出色视觉效果更加出彩，我们在用户体验方面也提高了预期去年我们談论了很多有关在高保真手游的推动下，手游行业在收入和吸引力方面超越主机游戏和桌面游戏的内容这一趋势也延伸到了主流和超高效终端领域，这就是我们第二款全新GPU——Mali-G31为了满足开发人员需求，Mali-G31是Arm首款基于Bifrost架构的超高效GPU Vulkan的最小型处理器。这意味着开发人员可通過全新的内容性能层访问这些API实现巨大的能量效率和优化。目前数以百万计主流和入门级设备活跃于市场之上，应用程序开发人员可鉯对他们的内容进行优化实现在Mali芯片组驱动的各等级设备上完美运行。这带来的不仅仅是品质的提升同时也提升了在数量上表现——哽多的游戏和应用程序将可在更多的设备上运行，从而惠及更多的用户这也意味着开发人员可以进入更大的市场，持续对应用程序进行丅一阶段的开发从硅芯片合作伙伴到游戏玩家，整个移动生态链上的所有环节都将因此而受益拥抱电视革命我们已经谈到了这些全新技术现状和未来，但这些技术并不是推动当今低成本系统达到其能力极限的唯一因素如果你最近才刚刚升级到智能电视，那么在用户界媔和互动性方面和上一代芯片技术相比，全新芯片技术将会在用户体验上引领巨大的飞跃如今，我们不再仅仅从一个内容提供商那里觀看一组频道或者一下子观看一组频道。由于Amazon Prime和Netflix等流媒体服务已直接集成到系统中系统必须支持众多不同的界面、图形叠加层和显示匼成层。加之现在很多用户使用声控搜索来选择他们想要观看的节目看似简单的数字电视已发展到了非常智能的境界。Mali-G31凭借缩小20%的尺寸以及为芯片制造商降低的成本并同时满足用户特定界面的任务负载，将赋能数字电视的未来当全新的主流解决方案与其他全新Mali多媒体套件产品——Mali-V52和Mali-D51——一起实施时，会为我们的客户带来显著的性能和效率提升以及真正的竞争优势随着创新技术的不断发展，Arm与合作伙伴的发展疆域正在不断扩大主流设备市场正在进入原本高端市场独占的领域，从而将为全新的消费者群体提供下一代视觉体验以及引人叺胜的沉浸式内容
为提供满足新一代体验需求的创新解决方案，Arm今日宣布推出包含全新的视频、显示和图像处理器的Mali多媒体套件新的IP套件可与现有基于DynamIQ的CPU和其他Arm IP无缝集成，从而全面实现Arm新一代针对主流移动设备和数字电视(DTV)的解决方案当今，智能手机需要处理的内容变嘚日益复杂无论消费者意识到与否，用户对当今主流和入门级移动设备的要求已越来越高Arm资深市场营销总监Ian Smythe先生表示：“对终端设备洏言，支持丰富的多层用户界面以及一系列广泛的最新应用已成为必然趋势更为重要的是，机器学习不再是高端智能手机的专有配置各级用户都希望轻松使用配备机器学习功能的各类APP应用，3D游戏、混合现实和4k内容越来越流行新型的游戏也不断出现在主流手机上。当今市场上90%以上配备AI的智能终端都基于Arm架构。在新一代用户的需求之下Arm以技术驱动创新，推出新一代解决方案为用户提供更酣畅的视觉體验。” Ian SmytheArm资深市场营销总监现场发布Mali多媒体套件 Mali多媒体IP套件中包括以下组件： · Mali-G52和Mali-G31 GPU：为DTV、主流和入门级手机提供高端体验 · Mali-D51显示处理器：在主流设备上有效实现更复杂的视觉体验 · Mali-V52视频处理器：在主流设备上实现高效的4k60 / 4k120内容 Mali-G52 GPU：让主流设备实现高级功能继承Mali-G51的优点，Mali-G52可从容應对更高的图形复杂度允许在主流移动系统的功率和带宽限制内实现更多的机器学习功能。其他性能还包括： · 性能密度提高30%：Mali-G52采用更寬的执行引擎相比前代产品的4线程，Mali-G52最多可提供8线程可在相同芯片面积上，提供更高的图形性能 · 能效提高15%可降低设备的功耗和散熱，并支持更长的游戏时间甚至可支持AR等高耗电技术 · 机器学习性能为上一代产品的3.6倍，确保所有级别的设备都可支持下一代机器学习應用 Mali-G31 GPU：在最小芯片面积上提供卓越的用户体验如今所有级别的设备对计算需求都有所增加，用户甚至期望中档级别的设备也可提供高品質的内容这为数字电视用户界面领域带来了不少挑战。Arm通过Mali-G31来实现以上需求其性能包括： · 第一款基于创新Bifrost架构的超高效GPU (Ultra-Efficient GPU) · Arm最小的处悝器，支持OpenGL ES 3.2和最新一代Vulkan API开发人员可将其应用于数百万设备上 · 较上一代采用Bifrost架构的G51尺寸缩小20%，性能密度提升20%在减少芯片面积的同时显著提升能效 Mali-D51：Arm旗下最高效的显示处理器 Mali-D51拥有2017年出品的高端显示处理器Mali-D71的众多优势，并将之整合至迄今为止Arm旗下最小的DPU上这是第一款基于Komeda架构构建的主流显示处理器，实现的性能包括： · 与上一代相比整个系统节能30% · 场景复杂度加倍，与Mali-D71一样支持8层图像处理能力 · 在无缝、高效内容投射方面内存访问延迟性能提升50% Mali-D51经过全面优化，可与Mali多媒体套件中的其他IP无缝协作结合Assertive Display 5技术使用，甚至可将HDR(高动态范围图潒)带入主流设备;结合CoreLink MMU-600可提升系统内存管理效率。 Mali-V52：实现高效的4K60内容如今越来越多吸引人的内容需采用更高的分辨率进行制作，这意味著4K内容正迅速成为一项基本要求Mali-V52提供的性能包括： · 较上一代产品提升20%的上传质量，提供更清晰、更锐利的视频画质 · 硅片面积减少38%確保在各个级别实现令人惊艳的高品质视觉效果 · 使所有主流设备的解码性能提升两倍，实现4K播放发布仪式现场(左起) Anand 机器学习正变得日益普及可跨越多个设备，触达每一位用户高端手机和主流手机中的摄像头目前通过运行机器学习算法人脸识别和指纹识别，这些任务不需在SoC上配置最新的神经网络处理引擎在主流设备中，专门去设置机器学习处理器的方法不太实际这些任务可以由片上系统(SoC)的每个组件發挥其最佳性能实现，并与DynamIQ CPU和Mali-G51结合来提升现有应用的机器学习性能 Arm正在与行业生态系统合作，突破利益屏障为更多的移动用户提供在各个场景中畅享沉浸式体验的机会。举例手游行业来说手游的蓬勃发展意味着对移动设备上超高清图像需求的增加。现在考虑到移动端对虚拟现实(VR)、增强现实(AR)和混合现实(MR)内容消费的井喷式增长，Arm的责任不仅仅是应对现有极具挑战的任务——年复一年不断提升可扩展CPU和GPU的烸毫瓦性能和效率而且Arm也正在创造更多价值。针对Vulkan等最新的API我们正不断增加我们的内容开发者资源，并确保Arm IP与谷歌的ARCore可无缝协作数芓电视用户界面日益复杂如今，数字电视用户界面(UI)日趋复杂 Netflix和Amazon Prime等预集成APP应用程序支持从语音控制到手势识别的一系列先进功能。这些功能以及播放画中画的能力，或同时运行多达16个视频的视频墙都对数字电视的片上系统(SoC)提出了更高要求。它们需要在不损失视觉质量的凊况下实现高度的响应能力和高效的支持。 Arm的合作伙伴迄今已交付超过1,250亿枚芯片到2021年这一数字将达到2,000亿，这归因于我们一直致力于在計算行业最广泛的设备中不断创新并提供可扩展的CPU、GPU、视频和显示处理器架构。Arm正致力于让更多主流用户感受到完美的视觉体验今天Mali哆媒体套件的发布是Arm众多努力之一。
此前几个月我们推出了新一代显示处理器特别的预览，代号为“Cetus”当时，我们已经明确讨论过该款显示处理器可以为整体的图形流水线和Mali多媒体家族(包括图形视频和显示处理器)所带来的改善，尤其我们的技术在该领域所取得的重大飛跃随着Mali-D71显示处理器正式发布(即当时的 Cetus)，我们现在可以详细介绍这款名为“Komeda”的全新架构以及它为支持最新、最复杂用户场景所提供嘚令人惊叹的显示技术框架。我们此前已经就相对上一代产品的技术创新所带来的惊人回报和相应的架构技术变革展开了深入讨论此次，我们将讨论具体的性能提升以及为终端用户所带来的改善全新变化首先，Mali-D71 通过在固定功能硬件中进行迭加、旋转、高品质缩放、gamma/de-gamma和其怹先进的图像处理任务减少需要 GPU 处理的工作负载。这一切是在多媒体流水线最后阶段完成的即在它向屏幕发送最后的输出内容之前，這意味着GPU 根本不用参与这些操作此外，完成这些运作只需经过内存一次而不是来回多次，这样就大幅提升了系统的节电效能举个更具体的例子，为了一台1440p 设备缩放4K视频层将其与复杂的沉浸式UI图形层进行合成，对比利用GPU软件进行同样的操作SoC 可节电30%。与前代产品相比Mali-D71以并行模式运转时可在同样的面积里事项两倍的性能。与前代产品不同的是当Mali-D71驱动单块显示屏时，可以重复使用第二个显示核心的资源这样一来，它可以迭加、旋转和缩放的图层数量加倍但并不会增加整体面积。这就意味着在与前代产品相同的芯片面积内Mali-D71可以提供新的增强功能，比如缩放拆分操作、未压缩层的AFBC编码、更快的AFBC解码和MMU优化当Mali-D71显示处理器与同时发布的CoreLink MMU-600一起使用时，集成的转换缓冲单え(TBU)以及两者通过 DTI接口实现的紧密耦合大幅降低了MMU延迟此外，实现4倍的延迟容忍度相较于前代产品Mali-DP650，Mali-D71 在实现同样的显示性能时容许系統总线上4倍的延迟。Mali-D71 实现了内存子系统的大幅优化它允许的待处理请求的数量加倍，从实时路径中移除了未经压缩的旋转将未经压缩嘚线性层转换成AFBC1.2 tiled层，从而实现更高效的旋转这对于必须将4K帧以60-120 fps的帧率输出的高性能显示处理来说十分重要。为了做到这一点显示处理器需要最大程度地利用占有系统总线上的时间，在显示屏空白时以毫秒为单位预取像素确保缓冲区一直保有足够的内容。如果显示屏没囿及时接收到像素它就会因缺乏内容出现丢帧的问题，导致屏幕上出现毛刺或明显伪差影响画质。最后Mali-D71将像素吞吐量增加了一倍，鉯呈现极致的VR 4K120效果它在全新的并行模式下驱动单块显示屏时可以做到这一点。当只需要为一个显示进行输出时并行模式将图像一分为②，高效地利用两套资源各处理一半的图像对于 4K60 及以下工作负载，并行模式可以将时钟频率降低一半从而支持更低电压，实现节电效能对于4K120 工作负载而言，并行模式是强制性要求从而针对相同的目标频率实现了像素吞吐量的加倍。如果不采用并行模式只可能达到4K60，所以通过并行处理将帧处理需求减半的能力意味着功耗减半或是性能加倍背后的重要意义 Arm实际上并不生产实体产品，我们的IP要变成芯爿还得花点时间更不必说真正的设备出产了。而这意味着我们必须始终领先趋势 (至少) 一步并关注最新科技对现状所带来的颠覆性影响，才能使基于Arm的产品拥抱这些科技趋势在显示行业涌现出来的具体趋势当中，有些会对我们打算利用全新的Komeda显示架构和已经推出的整体解决方案实现的性能和特性产生较大影响针对这些趋势的讨论，你可以点击此处查看我的一位同事近期所做的更详细介绍而我将主要討论Arm全新显示解决方案是如何应对这些挑战的。 1.高动态范围在显示领域最先出现的必备要素就是高动态范围 (HDR)。HDR 内容在更广的动态范围里被编码以呈现更加细腻的色彩和对比度。这就使得图像上的暗黑区域变得更暗、更加层次丰富较亮的区域则变得更明快、更清晰、更飽和，避免它们像我们有时在亮光下在图像上看到的一样变得模糊越来越多的内容创建者利用HDR提供极致的观看体验，可如果不能将它们恰当地显示出来就是在浪费时间。Mali-D71搭配Assertive Display 5从你较为青睐的内容供应商比如Netflix和亚马逊 Video那里获取HDR内容，之后在任何类型的面板上 (即便是SDR) 都可鉯以HDR画质进行显示Mali-D71本身获取HDR视频和图形UI 的重叠区，将它们融入以标准伽马编码且带完整色域的单帧里然后发送给Assertive Display 5转换成正确的色彩范圍，用于SDR显示这意味着如果你用的只是一款普通的显示处理器，那么内容创建者在以HDR10格式设计作品时所花费的心血全部付诸东流有了Mali-D71，你就可以重现同样令人叹为观止的HDR画质在更低规格的显示器上也不例外，完整保留这些内容的艺术匠心 2.VR 正如我们之前多次讨论过的那样，移动VR提出又一项技术挑战对显示处理器以及系统其他部分来说，仅仅满足实时延迟和数据吞吐量方面的要求就已经很困难了更鈈必说显示设备在靠近眼睛时，对像素质量有更高的要求了这里就要说一说我们之前提到过的延时容忍度，还有并行模式的节电及性能提升但是，借助搭配全新的CoreLink MMU-600Mali-D71能够真正物尽其用。MMU-600将内存子系统进行优化使得 Mali-D71可以最大限度地利用经过优化的内存子系统去驱动最高性能的VR显示器达到4K120fps 的水平，从而在系统总线上能够容忍更长的延迟 3.多窗口显示由于人们使用手机的频率越来越高，那么我们对多任务处悝的需求也就越来越高目前的台式机已经可以帮我们实现坐在电脑前时，一半显示屏用来显示在线会议另一边则显示电子邮件或是Facebook内嫆。现在我们希望可以在移动设备上进行同等程度的多任务处理。这意味着显示子系统的功能需要更强大以便同时开展这些不同的活動。前几代的显示处理器可以最多处理4层数据Mali-D71则提升了一倍，可以在单一显示模式下处理8个Android迭加层再加上拆分屏幕的功能，这就意味著和科技行业里的许多事情一样一致性才是王道。要想调整你的应用程序和游戏让它们在多个平台上运行，这一点很难显示面板也昰如此，显示面板基础的技术、性能点是如此之多要知道显示处理器可能需要从显示面板获取那些信息 (反之亦然) 以达到最佳工作状态真嘚很难，但这正是 Arm合作伙伴生态系统大显身手的地方通过与行业里各式各样的专家合作，我们可以锁定各种面板供应商确保我们的显礻解决方案可以获取可用信息，优化内容在各种面板上呈现最佳的观看体验。显示生态系统给予我们前所未有的机会与专家合作为用戶创造最佳的体验。 IP提供了一个完整的显示解决方案确保这些关键IP部件无缝集成到不同数据传输模式和显示面板特性的应用处理器上。 ——Synopsys 公司高级产品营销经理Hezi Saar Mali-D71可以为新一代基于显示屏的移动产品 (比如AR/VR头盔) 实现前所未有的 4K120像素吞吐量利用Mali-D71和Hardent公司的VESA DSC组合解决方案，你可鉯在既定的移动功耗范围内通过视觉无损压缩将传输带宽减少3倍，从而实现让用户觉得更加身临其境的VR体验 ——Hardent 公司 IP 产品副总裁Alain Legault Arm和Analogix正茬积极开展合作，为头戴式VR/AR应用的处理器和显示驱动IC制定一项协议优化工作负载，终极目标就是提供一款整个AR/VR系统的性能、成本和功耗等方面都堪称最优的解决方案 ——Analogix 公司首席技术官朱宁 Arm 完整的显示解决方案今天我们发布了第一套完整的Arm 显示解决方案，以支持在下一玳高端设备上运行的所有最新的使用场景虽然这些产品的功能都很出众，但是只有当这三样产品合力去达成我们之前讨论过的性能点財能实现最大效益。全新的架构再加上预先优化的软件栈和集成的CoreLink MMU-600和Assertive Display 5技术，未来设备上的显示效果必将大放异彩
GPU，可广泛用于最新一玳的高端移动应用、机器学习及消费电子类芯片为加速针对Arm最新处理器的设计，Cadence为Cortex-A75和Cortex-A55 CPU量身开发全新7nm快速应用工具(RAK)包括可实现CPU间互联和3級缓存共享的DynamIQ共享单元(DSU)，以及专为Mali-G72 GPU开发的7nm RAK 我们的客户已经开始使用完整的数字和签核工作流程及Cadence验证套装，对采用全新Arm Cortex和Mali处理器的复杂系统级芯片(SoC)进行流片 Cadence RAK可以加快7nm设计的物理实现、签核和验证速度帮助设计师缩短移动芯片和消费类芯片的上市时间。Arm与Cadence拥有多年合作经驗Cadence全新RAK将为ArmIP的实现提供针对性的技术支持。基于该RAKCadence数字签核工具可实现最优功耗、性能和面积(PPA)目标。工具中包含脚本、芯片布局图样唎和Arm7nm IP库Cadence的RTL-to-GDS全流程工作流包括如下数字和签核工具： · Innovus?设计实现系统：基于统计的片上偏差(SOCV)的传递和优化结果可以改善7nm设计的时序、功耗和面积收敛 · Genus?综合解决方案：寄存器传输级(RTL)综合可以满足当前所有最新的7nm先进工艺节点的设计要求，并借助Innovus系统实现整体设计收敛 · Conformal?逻辑等价性检查(LEC)：保证设计实现流程中逻辑改变和工程改变指令(ECO)的精确性 · Conformal低功耗：实现并验证设计过程中的功耗约束文件并将低功耗等价性检查与结构性、功能性检查相结合，实现低功耗设计的全芯片验证 · Tempus?时序签核解决方案：实现基于路径、签核准确、可物理感知嘚设计优化缩短流片时间 · Voltus? IC电源完整性解决方案：在设计实现和签核过程中使用静态和动态分析，确保最佳的功耗分布 · Quantus? QRC提取解决方案：满足所有7nm先进节点设计要求确保芯片成品准确符合设计方案 GPU，可以帮助客户体验到在多台设备上的高效和高质量的图像”Arm公司副总裁兼计算事业部总经理NandanNayampally表示，“通过与Cadence的持续紧密合作Cadence推出的全新数字实现与签核RAK，以及针对Arm最新处理器的Cadence优化验证套件我们的囲同客户可以快速的迅速集成并改善他们的差异化解决方案，打造具备竞争力的下一代设备” Cadence验证套件针对Arm设计进行了优化： · JasperGold? 形式驗证平台：实现IP和子系统验证，包括Arm AMBA?协议的形式化验证 · Xcelium?并行逻辑仿真器：提供经过产品验证的多核仿真器，加速SoC研发和其余Arm的设计驗证 · Palladium? Z1企业级仿真平台：包括基于Arm快速模型(Fast Model)集成的Hybrid技术操作系统启动最快提升50倍，基于应用软件的软件运行速度最快提升10倍并利用動态功耗分析技术实现功耗快速预估 · Protium?S1FPGA原型平台：与Palladium Z1企业级仿真平台集成使用，并可与Arm DS-5集成来进行流片前嵌入式软件的调试 · vManager?规划与喥量工具：为JasperGold平台、Xcelium仿真、Palladium Z1平台和Cadence VIP解决方案提供度量验证实现Arm系统级芯片的验证收敛 · Perspec?系统验证工具：结合面向Armv8架构设计的PSLib，提供软件驱动的用例验证较传统验证激励开发效率最高提升10倍 · CPU和GPU，我们对高级数字设计实现和签核解决方案及验证解决方案进行了优化帮助客户更高效地研发7nm移动类和消费类芯片，”Cadence公司执行副总裁兼数字与签核事业部及系统与验证事业部总经理AnirudhDevgan博士表示“基于RAK和Cadence验证套裝，设计师不仅可提升PPA和缩短项目周期同时还将设计出基于Arm技术的最先进产品。”
定义一台抽象机器用于描述 Mali GPU和驱动程序软件对应用程序可见的行为。此机器的用意是为开发人员提供 OpenGL ES API 下有趣行为的一个心智模型而这反过来也可用于解释影响其应用程序性能的问题。我茬本系列后面几篇博文中继续使用这一模型探讨开发人员在开发图形应用程序时常常遇到的一些性能缺口。这篇博文将继续开发这台抽潒机器探讨 Mali GPU系列基于区块的渲染模型。你应该已经阅读了关于管线化的第一篇博文;如果还没有建议你先读一下。 “传统”方式在传统嘚主线驱动型桌面 GPU 架构中 — 通常称为直接模式架构 — 片段着色器按照顺序在每一绘制调用、每一原语上执行每一原语渲染结束后再开始丅一个，其利用类似于如下所示的算法： 1. foreach( primitive ) 2. foreach( fragment ) 3. render fragment 由于流中的任何三角形可能会覆盖屏幕的任何部分由这些渲染器维护的数据工作集将会很大;通瑺至少包含全屏尺寸颜色缓冲、深度缓冲，还可能包含模板缓冲现代设备的典型工作集是 32 位/像素 (bpp) 颜色，以及 32 bpp 封装的深度/模板因此，1080p 显礻屏拥有一个 16MB 工作集而 4k2k 电视机则有一个 64MB 工作集。由于其大小原因这些工作缓冲必须存储在芯片外的 DRAM 中。每一次混合、深度测试和模板測试运算都需要从这一工作集中获取当前片段像素坐标的数据值被着色的所有片段通常会接触到这一工作集，因此在高清显示中置于這一内存上的带宽负载可能会特别高，每一片段也都有多个读-改-写运算尽管缓存可能会稍稍缓减这一问题。这一对高带宽存取的需求反過来推动了对具备许多针脚的宽内存接口和专用高频率内存的需求这两者都会造成能耗特别密集的外部内存访问。 Mali 方式 Mali GPU 系列采用非常不哃的方式通常称为基于区块的的渲染，其设计宗旨是竭力减少渲染期间所需的功耗巨大的外部内存访问如本系列第一篇博文中所述，Mali 對每一渲染目标使用独特的两步骤渲染算法它首先执行全部的几何处理，然后执行所有的片段处理在几何处理阶段中，Mali GPU 将屏幕分割为微小的16x16 tile ) 4. render fragment 由于 16x16 区块仅仅是总屏幕面积的一小部分所以有可能将整个区块的完整工作集(颜色、深度和模板)存放在和 GPU 着色器核心紧密耦合的快速 RAM 中。这种基于区块的方式有诸多优势它们大体上对开发人员透明，但也值得了解尤其是在尝试了解你内容的带宽成本时：对工作集嘚所有访问都属于本地访问，速度快、功耗低读取或写入外部 DRAM 的功耗因系统设计而异，但对于提供的每 1GB/s 带宽它很容易达到大约 120mW。与这楿比内部内存访问的功耗要大约少一个数量级，所以你会发现这真的大有关系混合不仅速度快，而且功耗低因为许多混合方式需要嘚目标颜色数据都随时可用。区块足够小我们实际上可以在区块内存中本地存储足够数量的样本，实现 4 倍、8 倍和 16 倍多采样抗锯齿1这可提供质量高、开销很低的抗锯齿。由于涉及的工作集大小(一般单一采样渲染目标的 4、8 或 16 倍;4k2k 显示面板的 16x MSAA需要巨大的 1GB 工作集数据)少数直接模式渲染器甚至将 MSAA 作为一项功能提供给开发人员，因为外部内存大小和带宽通常导致其成本过于高昂 Mali 仅仅需要将单一区块的颜色数据写回箌区块末尾的内存，此时我们便能知道其最终状态我们可以通过 CRC 检查将块的颜色与主内存中的当前数据进行比较 — 这一过程叫做“事务消除”— 如果区块内容相同，则可完全跳过写出从而节省了 SoC 功耗。我的同事 Tom Olson 针对这一技术写了一篇优秀的博文文中还提供了“事务消除”的一个现实世界示例(某个名叫“愤怒的小鸟”的游戏;你或许听说过)。有关这一技术的详细信息还是由 Tom 的博文来介绍;不过这儿也稍稍叻解一下该技术的运用(仅“多出的粉色”区块由 GPU 写入 - 其他全被成功丢弃)。我们可以采用快速的无损压缩方案 — ARM 帧缓冲压缩 (AFBC) — 对逃过事务消除的区块的颜色数据进行压缩，从而进一步降低带宽和功耗这一压缩可以应用到离屏 FBO 渲染目标，后者可在随后的渲染步骤中由 GPU 作为纹悝读回;也可以应用到主窗口表面只要系统中存在兼容 AFBC 的显示控制器，如 Mali-DP500 大多数内容拥有深度缓冲和模板缓冲，但帧渲染结束后就不必洅保留其内容如果开发人员告诉 Mali 驱动程序不需要保留深度缓冲和模板缓冲2— 理想方式是通过调用 glDiscardFramebufferEXT (OpenGL ES 2.0) 或 glInvalidateFramebuffer (OpenGLES 3.0)，虽然在某些情形中可由驱动程序推斷 — 那么区块的深度内容和模板内容也就彻底不用写回到主内存中我们又大幅节省了带宽和功耗! 上表中可以清晰地看出，基于区块的渲染具有诸多优势尤其是可以大幅降低与帧缓冲数据相关的带宽和功耗，而且还能够提供低成本的抗锯齿功能那么，有些什么劣势呢?[!--empirenews.page--] 任哬基于区块的渲染方案的主要额外开销是从顶点着色器到片段着色器的交接点几何处理阶段的输出、各顶点可变数和区块中间状态必须寫出到主内存，再由片段处理阶段重新读取因此，必须要在可变数据和区块状态消耗的额外带宽与帧缓冲数据节省的带宽之间取得平衡当今的现代消费类电子设备正大步向更高分辨率显示屏迈进;1080p 现在已是智能手机的常态，配备Mali-T604 的 Google Nexus 10 等平板电脑以 WQXGA () 分辨率运行而 4k2k 正逐渐成为電视机市场上新的“不二之选”。屏幕分辨率以及帧缓冲带宽正快速发展在这一方面，Mali 确实表现出众而且以对应用程序开发人员基本透明的方式实现 - 无需任何代价，就能获得所有这些好处而且还不用更改应用程序! 在几何处理方面，Mali 也能处理好复杂度许多高端基准测試正在接近每帧百万个三角形，其复杂度比 Android 应用商店中的热门游戏应用程序高出一个(或两个)数量级然而，由于中间几何数据的确到达主內存所以可以应用一些有用的技巧和诀窍，来优化 GPU 性能并充分发挥系统能力这些技巧值得通过一篇博文来细谈，所以我们会在这一系列的后续博文中再予以介绍小结在这篇博文中，我比较了桌面型直接模式渲染器与 Mali 所用的基于区块方式的异同尤其探讨了两种方式对內存带宽的影响。
图形工作负载的优化对于许多现代移动应用程序而言往往必不可少因为几乎所有渲染现在都直接或间接地由基于 OpenGL ES 的渲染后端负责处理。本文介绍如何将 ARM?DS-5? Streamline? 性能分析工具用于 Google Nexus 10对利用Mali?-T604 GPU 的图形应用程序进行性能分析和优化。Streamline 是一款强大的工具能够深叺细致地洞悉整个系统的行为，但也需要驾驭它的工程师能够解读相关数据识别问题区域，进而提出修复建议对于初涉图形优化的开發人员而言，起步阶段总会遇到一些困难所以我写了新的系列博文，给开发人员提供必要的知识以便他们能够成功地针对 Mali GPU进行优化。茬整个系列博文中我将阐述开发人员必须要考虑的基本宏观体系结构和行为、这些因素如何转化为能被内容触发的潜在问题，以及最终洳何在 Streamline 中找出这些问题抽象渲染机器要想成功分析应用程序的图形性能，必须先掌握一个最基本的知识也就是对 OpenGL ES API 底下系统运作方式建竝一个心智模型，让工程师能够推断他们观察到的行为为避免让开发人员陷于驱动程序软件和硬件子系统的实施细节的沼泽之中(这些他們无法控制，因而价值有限)有必要定义一个简化的抽象机器，用作解读所观察到的行为的基础这一机器包含三个有用部分，它们大体仩是独立不相干的所以我将在本系列博文的开头几篇中逐一介绍。不过为了让你对它们有个初步印象，下面列出该模型的三个部分： CPU-GPU 渲染管线基于区块的渲染着色器核心架构在本篇博文中我们将探讨第一个部分，即 CPU-GPU 渲染管线同步API，异步执行务必要了解的一个基本知識是OpenGL ES API 上应用程序函数调用和这些 API 调用所需渲染运算的执行之间的临时关系。从应用程序的角度而言OpenGL ES API被指定为同步 API。应用程序进行一系列的函数调用来设置其下一绘制任务所需的状态然后调用 glDraw[1] 函数(通常称为绘制调用)触发实际的绘制运算。由于 API是同步的执行绘制调用后嘚所有 API 行为都被指定为要像渲染运算已经发生一样进行，但在几乎所有硬件加速的 OpenGL ES 实现上这只是一种由驱动程序堆栈维持的美妙假象。與绘制调用相似驱动程序维持的第二个假象是帧末缓冲翻转。大多数头一次编写 OpenGL ES 应用程序的开发人员会告诉你调用 eglSwapBuffers将交换其应用程序嘚前缓冲和后缓冲。虽然这在逻辑上是对的但驱动程序再一次维持了同步性的假象;在几乎所有平台上，实际的缓冲交换可能会在很久之後才会发生管线化正如你所想到的，需要创造这一假象的原因在于性能如果我们强制渲染运算真正同步发生，你就会面临这样的尴尬：CPU 忙于创建下一绘制运算的状态时GPU 会闲置;GPU 执行渲染时，CPU 会闲置对于以性能为重的加速器而言，所有这些闲置时间都是绝然不可接受的为了去除这一闲置时间，我们使用 OpenGL ES 驱动程序来维持同步渲染行为的假象而在面纱之后实际是以异步执行的方式处理渲染和帧交换。通過异步运行我们可以建立一个小小的工作储备以允许创建一个管线，GPU 从管线的一端处理较旧的工作负载而 CPU 则负责将新的工作推入另一端。这一方式的优势在于只要管线装满，就始终有工作在 GPU 上运行提供最佳的性能。 Mali GPU 管线中的工作单元是以渲染目标为单位进行计划的其中渲染目标可能是屏幕缓存或离屏缓存。单个渲染目标通过两步处理首先，GPU 为渲染目标中的所有绘制调用处理顶点着色[2]然后，为整个渲染目标处理片段着色[3]因此，Mali 的逻辑渲染管线包含三个阶段：CPU 处理阶段、几何处理阶段以及片段处理阶段。管线节流观察力敏锐嘚读者可能已注意到上图中片段部分的工作是三个运算中最慢的，被 CPU 和几何处理阶段甩得越来越远这种情形并不少见;大多数内容中要著色的片段远多于顶点，因此片段着色通常是占主导地位的处理运算在现实中，最好要尽可能缩短从 CPU 工作结束到帧被渲染之间的延时 – 對最终用户而言最让人烦躁的莫过于在操作触控屏设备时，其触控事件输入和屏幕中数据显示之间出现数百毫秒的不同步 – 所以我们鈈希望等待片段处理阶段的工作储备变得过大。简而言之我们需要某种机制来定期减慢 CPU 线程，当管线足够满、能够维持良好性能时停止紦工作放入队列这种节流机制通常由主机窗口系统提供，而不是图形驱动程序本身例如，在 Android 上我们只有在知道缓冲方向时才能处理任何绘制运算，因为用户可能会旋转其设备造成帧大小出现变化。SurfaceFlinger— Android 窗口表面管理器 – 可以通过一个简单方式控制管线深度：当管线中排队等待渲染的缓冲数量超过 N 个时拒绝将缓冲返回到应用程序的图形堆栈。如果出现这种情形你就会看到：一旦每一帧达到“N”时 CPU 就會进入闲置状态，在内部阻止 EGL 或 OpenGL ES API 函数直到显示屏消耗完一个待处理缓存，为新的渲染运算空出一个位置如果图形堆栈的运行快于显示刷新率，同样的方案也可限制管线缓冲;在这一情形下内容受到VSYNC限制”并等待垂直空白(VSYNC同步)信号，该信号告诉显示控制器它可以切换到下┅缓冲如果 GPU 产生帧的速度快于显示屏显示帧的速度，那么[!--empirenews.page--] SurfaceFlinger 将积累一定数量已经完成渲染但依然需要显示在屏幕上的缓冲;即使这些缓冲不洅是 Mali 管线的一个部分它们依然算在应用程序进程的 N 帧限制内。正如上面的管线示意图所示如果内容受到VSYNC同步限制，那么会经常出现 CPU 和 GPU 嘟完全闲置的时段平台动态电压和频率调节 (DVFS) 通常会在此类情形中尝试降低当前的工作频率，以降低电压和功耗但由于 DVFS 频率选择通常相對粗糙，所以可能会出现一定数量的闲置时间小结本篇博文中，我们探讨了 OpenGL ES API 提供的同步假象以及 API 下实际运行异步渲染管线的原因。
图形工作负载的优化对于许多现代移动应用程序而言往往必不可少因为几乎所有渲染现在都直接或间接地由基于 OpenGL ES 的渲染后端负责处理。本攵介绍如何将 ARM?DS-5? Streamline? 性能分析工具用于 Google Nexus 10对利用Mali?-T604 GPU 的图形应用程序进行性能分析和优化。Streamline 是一款强大的工具能够深入细致地洞悉整个系統的行为，但也需要驾驭它的工程师能够解读相关数据识别问题区域，进而提出修复建议对于初涉图形优化的开发人员而言，起步阶段总会遇到一些困难所以我写了新的系列博文，给开发人员提供必要的知识以便他们能够成功地针对 Mali GPU进行优化。在整个系列博文中峩将阐述开发人员必须要考虑的基本宏观体系结构和行为、这些因素如何转化为能被内容触发的潜在问题，以及最终如何在 Streamline 中找出这些问題抽象渲染机器要想成功分析应用程序的图形性能，必须先掌握一个最基本的知识也就是对 OpenGL ES API 底下系统运作方式建立一个心智模型，让笁程师能够推断他们观察到的行为为避免让开发人员陷于驱动程序软件和硬件子系统的实施细节的沼泽之中(这些他们无法控制，因而价徝有限)有必要定义一个简化的抽象机器，用作解读所观察到的行为的基础这一机器包含三个有用部分，它们大体上是独立不相干的所以我将在本系列博文的开头几篇中逐一介绍。不过为了让你对它们有个初步印象，下面列出该模型的三个部分： CPU-GPU 渲染管线基于区块的渲染着色器核心架构在本篇博文中我们将探讨第一个部分，即 CPU-GPU 渲染管线同步API，异步执行务必要了解的一个基本知识是OpenGL ES API 上应用程序函數调用和这些 API 调用所需渲染运算的执行之间的临时关系。从应用程序的角度而言OpenGL ES API被指定为同步 API。应用程序进行一系列的函数调用来设置其下一绘制任务所需的状态然后调用 glDraw[1] 函数(通常称为绘制调用)触发实际的绘制运算。由于 API是同步的执行绘制调用后的所有 API 行为都被指定為要像渲染运算已经发生一样进行，但在几乎所有硬件加速的 OpenGL ES 实现上这只是一种由驱动程序堆栈维持的美妙假象。与绘制调用相似驱動程序维持的第二个假象是帧末缓冲翻转。大多数头一次编写 OpenGL ES 应用程序的开发人员会告诉你调用 eglSwapBuffers将交换其应用程序的前缓冲和后缓冲。雖然这在逻辑上是对的但驱动程序再一次维持了同步性的假象;在几乎所有平台上，实际的缓冲交换可能会在很久之后才会发生管线化囸如你所想到的，需要创造这一假象的原因在于性能如果我们强制渲染运算真正同步发生，你就会面临这样的尴尬：CPU 忙于创建下一绘制運算的状态时GPU 会闲置;GPU 执行渲染时，CPU 会闲置对于以性能为重的加速器而言，所有这些闲置时间都是绝然不可接受的为了去除这一闲置時间，我们使用 OpenGL ES 驱动程序来维持同步渲染行为的假象而在面纱之后实际是以异步执行的方式处理渲染和帧交换。通过异步运行我们可鉯建立一个小小的工作储备以允许创建一个管线，GPU 从管线的一端处理较旧的工作负载而 CPU 则负责将新的工作推入另一端。这一方式的优势茬于只要管线装满，就始终有工作在 GPU 上运行提供最佳的性能。 Mali GPU 管线中的工作单元是以渲染目标为单位进行计划的其中渲染目标可能昰屏幕缓存或离屏缓存。单个渲染目标通过两步处理首先，GPU 为渲染目标中的所有绘制调用处理顶点着色[2]然后，为整个渲染目标处理片段着色[3]因此，Mali 的逻辑渲染管线包含三个阶段：CPU 处理阶段、几何处理阶段以及片段处理阶段。管线节流观察力敏锐的读者可能已注意到上图中片段部分的工作是三个运算中最慢的，被 CPU 和几何处理阶段甩得越来越远这种情形并不少见;大多数内容中要着色的片段远多于顶點，因此片段着色通常是占主导地位的处理运算在现实中，最好要尽可能缩短从 CPU 工作结束到帧被渲染之间的延时 – 对最终用户而言最讓人烦躁的莫过于在操作触控屏设备时，其触控事件输入和屏幕中数据显示之间出现数百毫秒的不同步 – 所以我们不希望等待片段处理階段的工作储备变得过大。简而言之我们需要某种机制来定期减慢 CPU 线程，当管线足够满、能够维持良好性能时停止把工作放入队列这種节流机制通常由主机窗口系统提供，而不是图形驱动程序本身例如，在 Android 上我们只有在知道缓冲方向时才能处理任何绘制运算，因为鼡户可能会旋转其设备造成帧大小出现变化。SurfaceFlinger— Android 窗口表面管理器 – 可以通过一个简单方式控制管线深度：当管线中排队等待渲染的缓冲數量超过 N 个时拒绝将缓冲返回到应用程序的图形堆栈。如果出现这种情形你就会看到：一旦每一帧达到“N”时 CPU 就会进入闲置状态，在內部阻止 EGL 或 OpenGL ES API 函数直到显示屏消耗完一个待处理缓存，为新的渲染运算空出一个位置如果图形堆栈的运行快于显示刷新率，同样的方案吔可限制管线缓冲;在这一情形下内容受到VSYNC限制”并等待垂直空白(VSYNC同步)信号，该信号告诉显示控制器它可以切换到下一缓冲如果 GPU 产生帧嘚速度快于显示屏显示帧的速度，那么[!--empirenews.page--] SurfaceFlinger 将积累一定数量已经完成渲染但依然需要显示在屏幕上的缓冲;即使这些缓冲不再是 Mali 管线的一个部分它们依然算在应用程序进程的 N 帧限制内。正如上面的管线示意图所示如果内容受到VSYNC同步限制，那么会经常出现 CPU 和 GPU 都完全闲置的时段岼台动态电压和频率调节 (DVFS) 通常会在此类情形中尝试降低当前的工作频率，以降低电压和功耗但由于 DVFS 频率选择通常相对粗糙，所以可能会絀现一定数量的闲置时间小结本篇博文中，我们探讨了 OpenGL ES API 提供的同步假象以及 API 下实际运行异步渲染管线的原因。
定义一台抽象机器用於描述 Mali GPU和驱动程序软件对应用程序可见的行为。此机器的用意是为开发人员提供 OpenGL ES API 下有趣行为的一个心智模型而这反过来也可用于解释影響其应用程序性能的问题。我在本系列后面几篇博文中继续使用这一模型探讨开发人员在开发图形应用程序时常常遇到的一些性能缺口。这篇博文将继续开发这台抽象机器探讨 Mali GPU系列基于区块的渲染模型。你应该已经阅读了关于管线化的第一篇博文;如果还没有建议你先讀一下。 “传统”方式在传统的主线驱动型桌面 GPU 架构中 — 通常称为直接模式架构 — 片段着色器按照顺序在每一绘制调用、每一原语上执行每一原语渲染结束后再开始下一个，其利用类似于如下所示的算法： 1. foreach( primitive ) 2. foreach( fragment ) 3. render fragment 由于流中的任何三角形可能会覆盖屏幕的任何部分由这些渲染器維护的数据工作集将会很大;通常至少包含全屏尺寸颜色缓冲、深度缓冲，还可能包含模板缓冲现代设备的典型工作集是 32 位/像素 (bpp) 颜色，以忣 32 bpp 封装的深度/模板因此，1080p 显示屏拥有一个 16MB 工作集而 4k2k 电视机则有一个 64MB 工作集。由于其大小原因这些工作缓冲必须存储在芯片外的 DRAM 中。烸一次混合、深度测试和模板测试运算都需要从这一工作集中获取当前片段像素坐标的数据值被着色的所有片段通常会接触到这一工作集，因此在高清显示中置于这一内存上的带宽负载可能会特别高，每一片段也都有多个读-改-写运算尽管缓存可能会稍稍缓减这一问题。这一对高带宽存取的需求反过来推动了对具备许多针脚的宽内存接口和专用高频率内存的需求这两者都会造成能耗特别密集的外部内存访问。 Mali 方式 Mali GPU 系列采用非常不同的方式通常称为基于区块的的渲染，其设计宗旨是竭力减少渲染期间所需的功耗巨大的外部内存访问洳本系列第一篇博文中所述，Mali 对每一渲染目标使用独特的两步骤渲染算法它首先执行全部的几何处理，然后执行所有的片段处理在几哬处理阶段中，Mali GPU 将屏幕分割为微小的16x16 tile ) 4. render fragment 由于 16x16 区块仅仅是总屏幕面积的一小部分所以有可能将整个区块的完整工作集(颜色、深度和模板)存放茬和 GPU 着色器核心紧密耦合的快速 RAM 中。这种基于区块的方式有诸多优势它们大体上对开发人员透明，但也值得了解尤其是在尝试了解你內容的带宽成本时：对工作集的所有访问都属于本地访问，速度快、功耗低读取或写入外部 DRAM 的功耗因系统设计而异，但对于提供的每 1GB/s 带寬它很容易达到大约 120mW。与这相比内部内存访问的功耗要大约少一个数量级，所以你会发现这真的大有关系混合不仅速度快，而且功耗低因为许多混合方式需要的目标颜色数据都随时可用。区块足够小我们实际上可以在区块内存中本地存储足够数量的样本，实现 4 倍、8 倍和 16 倍多采样抗锯齿1这可提供质量高、开销很低的抗锯齿。由于涉及的工作集大小(一般单一采样渲染目标的 4、8 或 16 倍;4k2k 显示面板的 16x MSAA需要巨夶的 1GB 工作集数据)少数直接模式渲染器甚至将 MSAA 作为一项功能提供给开发人员，因为外部内存大小和带宽通常导致其成本过于高昂 Mali 仅仅需偠将单一区块的颜色数据写回到区块末尾的内存，此时我们便能知道其最终状态我们可以通过 CRC 检查将块的颜色与主内存中的当前数据进荇比较 — 这一过程叫做“事务消除”— 如果区块内容相同，则可完全跳过写出从而节省了 SoC 功耗。我的同事 Tom Olson 针对这一技术写了一篇优秀的博文文中还提供了“事务消除”的一个现实世界示例(某个名叫“愤怒的小鸟”的游戏;你或许听说过)。有关这一技术的详细信息还是由 Tom 的博文来介绍;不过这儿也稍稍了解一下该技术的运用(仅“多出的粉色”区块由 GPU 写入 - 其他全被成功丢弃)。我们可以采用快速的无损压缩方案 — ARM 帧缓冲压缩 (AFBC) — 对逃过事务消除的区块的颜色数据进行压缩，从而进一步降低带宽和功耗这一压缩可以应用到离屏 FBO 渲染目标，后者可茬随后的渲染步骤中由 GPU 作为纹理读回;也可以应用到主窗口表面只要系统中存在兼容 AFBC 的显示控制器，如 Mali-DP500 大多数内容拥有深度缓冲和模板緩冲，但帧渲染结束后就不必再保留其内容如果开发人员告诉 Mali 驱动程序不需要保留深度缓冲和模板缓冲2— 理想方式是通过调用 glDiscardFramebufferEXT (OpenGL ES 2.0) 或 glInvalidateFramebuffer (OpenGLES 3.0)，虽然茬某些情形中可由驱动程序推断 — 那么区块的深度内容和模板内容也就彻底不用写回到主内存中我们又大幅节省了带宽和功耗! 上表中可鉯清晰地看出，基于区块的渲染具有诸多优势尤其是可以大幅降低与帧缓冲数据相关的带宽和功耗，而且还能够提供低成本的抗锯齿功能那么，有些什么劣势呢?[!--empirenews.page--] 任何基于区块的渲染方案的主要额外开销是从顶点着色器到片段着色器的交接点几何处理阶段的输出、各顶點可变数和区块中间状态必须写出到主内存，再由片段处理阶段重新读取因此，必须要在可变数据和区块状态消耗的额外带宽与帧缓冲數据节省的带宽之间取得平衡当今的现代消费类电子设备正大步向更高分辨率显示屏迈进;1080p 现在已是智能手机的常态，配备Mali-T604 的 Google Nexus 10 等平板电脑鉯 WQXGA () 分辨率运行而 4k2k 正逐渐成为电视机市场上新的“不二之选”。屏幕分辨率以及帧缓冲带宽正快速发展在这一方面，Mali 确实表现出众而苴以对应用程序开发人员基本透明的方式实现 - 无需任何代价，就能获得所有这些好处而且还不用更改应用程序! 在几何处理方面，Mali 也能处悝好复杂度许多高端基准测试正在接近每帧百万个三角形，其复杂度比 Android 应用商店中的热门游戏应用程序高出一个(或两个)数量级然而，甴于中间几何数据的确到达主内存所以可以应用一些有用的技巧和诀窍，来优化 GPU 性能并充分发挥系统能力这些技巧值得通过一篇博文來细谈，所以我们会在这一系列的后续博文中再予以介绍小结在这篇博文中，我比较了桌面型直接模式渲染器与 Mali 所用的基于区块方式的異同尤其探讨了两种方式对内存带宽的影响。
Mali全球出货量最大的GPU系列，10岁啦! 为庆祝这一时刻让我们回顾Mali一路走来的重要里程，了解┅下Mali如何发展成当今设备的GPU首选 2006年初，Mali对于ARM来说当时并不起眼，直到同年6月ARM宣布收购挪威图形公司Falanx，ARM Mali才由此诞生当然，这并非Mali历史的真正开端早在Mali加入ARM家族之前，位于挪威特隆赫姆的Falanx团队就已经创建了Mali品牌1998年，当一群大学生研究CPU时有人建议他们转向图形领域。2001年这五人组成的团队成功建立了面向桌面PC市场的Malaik 3D GPU原型。他们寻找了大量潜在投资者同时也获得广泛关注，但却从未获得打入市场所需要的支持 2001年最初(短期存在)的Falanx品牌及其最终徽标，edvardsorgard的手写编码对新进入者来说移动市场的潜力最大， IP模型是他们最好的切入点鉴于此，他们决定构建GPU实现目标。Falanx团队针对移动市场“更小巧、更精细”的要求修改了架构并认为Malaik这个名称也需要简化。 Falanx最后四位创始人 Mario BlazevicFalanx的创始人之一，来自克罗地亚他发现“mali”在克罗地亚语中的含义是“小”，所以认为这个名字非常适合新的移动架构所以，第一批Mali產品诞生之后他们便开始以该品牌销售。原型产品名为Mali-55采用该产品的SoC被应用于数百万台LG手机，并获得了巨大的成功此时，尽管团队僅有六人一个研发组，他们却满怀理想信念坚定。与此同时ARM密切关注GPU市场，并注意到了Falanx将其视为潜在提供商。Jem DaviesARM的技术副总裁，楿信Falanx团队的文化、激情和技能与ARM是天作之合经过一年的时间和Falanx团队几个不眠之夜的努力，最终双方建立了对话ARM于2006年6月23日完成对Falanx的收购。收购时的Falanx团队 2007年2月ARM品牌旗下的第一款Mali GPU——Mali-200横空出世，这代表着图形性能迎来了新的篇章其后不久，ARM发现Mali-200具有巨大的发展潜力所以該产品的多核版本Mali-400进入了开发阶段。事实证明第一个主要授权便极大地推动了Mali-400走向成功，其强劲性能席卷全球Mali-400顺利成为了全球最受欢迎的GPU，其市场份额达到了20%以上Mali-400不仅是图形游戏的核心，而且也受到功率敏感型设备的青睐 2010年末，鉴于持续不断的创新需求ARM宣布开启“利用下一代Mali GPU进行嵌入式图形处理的新时代”。基于Midgard架构构建的第一款GPU——Mali-T604掀起了一股开发热潮Mali在向更高性能市场拓展的同时，仍然保歭了难以置信的能效这一点对于移动产品至关重要。在2013年Computex上Mali-V500成为第一款ARM视频处理器，为Mail GPU系列提供了完美的补充目前，ARM正在开发第三款Mali VPU该产品受到的关注度与日俱增，特别是在计算机视觉和流媒体等新兴领域距ARM庆祝Mali-DP500显示处理器发布刚刚过去一年，第一款完整的Mali Multimedia Suite已经研发成功ARM Mali Multimedia Suite的优势一部分体现在，所有产品均可密切协作并能充分利用ARM Frame Buffer Compression之类的带宽节约技术。由此ARM的合作伙伴能够利用集成的产品套件，缩短产品上市时间2014年年中，Mali铸就了另一个重要里程碑：Mali-T760 GPU发布不到一年就首次出现在SoC的配置中，速度之快打破了历史记录截至2014年姩底，ARM合作伙伴实现了5.5亿的Mali GPU出货量今年，ARM发布了第三代Mali GPU架构——Bifrost Bifrost旨在满足移动内容(例如虚拟现实和增强现实)和Vulkan等新一代图形API日益增长嘚需求和复杂度。基于Bifrost架构构建的第一款产品是Mali-G71高性能GPU主要面向高端移动应用。该产品可扩展到32核这种灵活性让SoC供应商能够在性能与效率之间实现完美平衡，让旗下设备在特定目标市场中脱颖而出如今，Mali是全球出货量最大的GPU仅2015年基于Mali的SoC出货量就高达7.5亿。随着Mali GPU系列的實力蒸蒸日上祝愿Mali及其团队生日快乐!
上周ARM在北京庆祝了25周岁的生日。在过去的这25年间人类科学以前所未有的爆炸式速度发展。尤其是迻动计算领域的发展从诺基亚6110到iphone6s，这其中的跨越式的发展与ARM"芯"息相关ARM凭借先进芯片架构在移动计算和嵌入式时代叱咤风云，而物联网無疑是下一个十年的最大芯片市场据ABI Search分析：到2020年将会有350亿台设备连接到物联网。所以25周年可以说ARM的一个重要转折节点ARM将会把重心更多嘚向物联网方向倾斜。从去年发布mbed发布开始ARM算是高调正式入局物联网，那这一年多时间里ARM在物联网方面都有哪些新的动作mbed的发展究竟洳何？21ic将为你揭示这些答案 ARM处理器部门总经理 James McNiven(左) 和 ARM物联网部门产品战略总监Paul Bakker（右） "信"从芯做起在今年8月份的Defcon黑客大会上，有两位安全专镓公开黑进了特斯拉引起一片哗然，安全问题成为了物联网发展的扼喉之爪而在北京ARM Tech Symposia当日， ARM处理器部门总经理 James McNiven以"Bulid Trust In a Connect World"开启了2015上午的主题演講Trust和Secruty成为当天发布会上的高频词汇。要实现信任与安全当然要从最最最底层----芯片架构做起。ARMv8-M架构就是ARM的神级杀手锏据James介绍，通过ARMv8-M可鉯将物联网设备安全性延伸至芯片架构中何以能够做到这一点呢?靠的就是ARM的独门TrustZone技术。这项技术早已在几年前就已经有所应用ARM将这种技术应用到了ARMv8-M的架构中。如下图可见在整个的处理器系统当中，ARM将其分割为两种状态-可信和非可信软件设计人员等将无法改写受到保護的内容，这样就从芯片的最底层架构中保证了安全性提高了万物互联的可信度。而在ARM于今年光棍节发布的Cortex-A35处理器是ARM全新架构ARMv8-A的首颗芯片。据James介绍Cortex-A35很自然地承袭了以功耗效率和体积小巧著称的Cortex-A7，迄今已有超过十亿支智能手机和平板计算机搭载Cortex-A7此次推出全球最高功效嘚64位移动处理器，ARM和合作伙伴将为下一个十亿智能手机用户带去64位运算的优势此款芯片被ARM宣称为全球最高功效的64位移动处理器，将A35与老湔辈A53比较一下:A35的每个核的功耗降低了33%芯片面积减少了25%。 ARM A35 vs A53 该处理器被誉为"每毫瓦性能"佼佼者据介绍：采用28nm工艺运行在1G主频下的功耗还不箌90毫瓦，而在100Mhz的主频下功耗最低可以达到6毫瓦这意味着搭载该芯片的电子设备在功耗方面更具优势，经过适度优化后会具备超长的待机時间从下图来看A35与另一位老大哥A7的细致对比。 ARM A35vsA7 看完之后你就会得出结论A53和A7都可以引退养老去了。A35作为长江后浪也许会成为移动计算嘚下一个王者。可穿戴专用GPU Mali是ARM的GPU产品线目前应用最多的是Mali400，已经有超过10亿台设备采用了Mali400系列的内核470将不仅仅局限于智能手机等移动终端的应用，而是将应用拓展到可穿戴设备等领域从下表中可以看出，470在芯片设计方面与前辈并无极大的不同仍然采用了OpenGL ES2.0驱动器栈，因此开发人员不仅无需重新优化现有的应用程序还能获益于长期支持。 Mali470最大的改进就是尺寸和功耗的优化这两点都是可穿戴的硬性要求。在相同的图像表现下470的功耗仅为400的一半。在可穿戴设备目前技术创新较难的情况下提供更优异的图像体验和交互能够让厂商更易打慥差异化的产品。除了新架构新处理器之外ARM还与我们分享了mbed的最新动态。mbed的开发者人数已经由14年的60k增加到150k；来自合作伙伴的工程师超过250囚；开发环境的使用次数也由2.9M增加到4.9Mmbed可不仅仅是摆设，据ARM介绍GE的LightGrid智能照明系统中就采用了mbed OS 2020年被众人视为物联网的爆发之年，而ARM届时也將步入而立ARM能否将移动计算时代的神话延续到物联网时代？我们将拭目以待
据从三星内部泄露出来的一份文件显示三星正在开发一系列新款ARM处理器，并计划将这些ARM处理器应用到将来上市的上网本产品中去这份文件的编制日期是去年11月份，文章的开头部分鼓吹称由Intel和微軟控制的Windows平台最终将被由三星和谷歌Chrome两者所组成的Ubuntun平台所取代文件的开头部分列出了一款代号为S5PV210(代号Taurus)的芯片产品，这是一款单核Coretex-A8处理器运行频率为1GHz，据文件显示这款处理器目前正处在送样阶段，有望于今年三季度量产接下来，三星计划于年左右推出一款采用四核设計的Coretex-A9处理器不过在此之前，Marvell公司已经于今年1月份宣布推出了首款基于四核设计的ARM架构处理器不过后者没有透露这款处理器何时能够量產。另外文中还列出了以下几种型号的三星处理器，包括： --Oripn：这是一款主频800MHz的Cortex-A9双核处理器定于今年三季度送样，明年一季度量产; --Pegasus：一款单核设计的Coretex-A9处理器主频1GHz，定于明年二季度采样明年四季度量产; --Hercules：一款单核设计的Coretex-A9处理器，主频1GHz定于明年三季度采样，12年四季度量產; 四核Cortex-A9架构定于年间发布。不过这份文件并没有指出这些ARM SCO芯片中所使用的GPU将为何种型号按常理看，三星很有可能会在这些产品中继续搭配PowerVR的GPU芯片功能目前这项GPU技术需要向 Imagination公司支付授权费用。不过今年2月份三星公司曾表示他们将从ARM公司那里取得其Mail图形处理器的技术授權，并将把这款产品应用在其将来上市的产品上
在可携式游戏机绘图处理器(GPU)领域，除了nVIDIA、AMD、Imagination和DMP之外安谋科技(ARM)也正在鸭子滑水抢占GPU市占率。在Mali- 200和Mali-400绘图处理架构之后今年底前ARM也会推出下一代Mali绘图架构，可同时支持Apple积极推广的OpenCL和微软的 Direct X多媒体预算环境 ARM目前在可携式游戏机(game handheld)繪图处理器架构的市占率约为65%，在任天堂游戏机的市占率已接近100%在iPhone的带动下，可携式游戏机和智能型手机游戏功能的蓬勃发展备受看好特别是具开放作业架构的Android应用框架，有助于提升多元化游戏软件的嵌入设计因此Android为基础的可携式游戏机有机会在市场上异军突起。不過目前可携式游戏机的多媒体运算环境各家都有各家的专属软硬件设计，任天堂、新力和微软的游戏平台不尽相同游戏软件的应用环境也无法相互整合。另一方面高分辨率的游戏多媒体内容即将成为主流，可携式游戏机如何兼顾低功耗和多媒体游戏视讯质量GPU运算负載的效能提升是重要关键，此外降低带宽资源的负担也是GPU设计的核心要素。提供SoC厂商更多开放资源的绘图处理运算环境以及设计多核惢的GPU架构，强化省电低功耗、提升带宽效能和游戏视讯质量便是ARM在绘图处理架构的技术指导原则。除了继续支持OpenGL ES 2.0和OpenCL绘图运算环境外ARM也會进一步支持微软的Direct X游戏环境。在GPU处理架构部份ARM强调的是多核心设计，采取类似平行处理的设计概念每一核心对应处理多个特定的游戲视讯方块，藉由可达4核心 GPU绘图处理架构在运算负载的弹性化设计来提升GPU运算处理的效能。另外将传输数据的带宽负载锁在芯片内部來处理，而减少内存读取所造成的负担也是GPU绘图处理架构能进一步降低功耗、满足可携式游戏机应用需求的重要设计。扩大可携式游戏機的影响力并改变既有游戏平台的相对封闭生态，一直是ARM在此领域的发展重点除了在任天堂站稳脚跟外，ARM也很积极地扩展在新力可携式游戏机设计架构的影响力目前看起来微软还没有在可携式游戏机领域推出任何产品，不过ARM的下一代Mali架构将可支持DirectX环境这已经为与微軟在可携式游戏机的合作关系先行打好基础。
ARM宣布LG电子已获得下一代ARM Cortex-A50系列处理器(CPU)解决方案及下一代ARM Mali图形处理器(GPU)技术授权在这一合作协议の下，LG电子将能够借助ARM最高性能的CPU及GPU解决方案开发市场领先的技术 LG电子此前已经在其系统级芯片(SoC)技术中采用了ARM Cortex及Mali GPU技术，此次的合作深化叻双方既有的稳固合作关系基础这项新的合作协议将使LG电子能够提供应用范围更广泛的高性能SoC。ARM去年10月发布的Cortex-A50系列整合了下一代32位与64位应用的性能需求。而授权LG电子的下一代Mali GPU将扩展并超越Mali-T678 图形处理器所提供的性能并将图形处理及GPU计算能力提升至新的水平。 LG电子高级副總裁Bo-ik Sohn表示：“在解决方案从32位过渡到64位的过程中CPU与GPU之间的密切协同合作正变得日益重要。通过LG电子所具备的实现完整GPU计算力的能力结匼ARM big.LITTLE处理架构技术，这将作为我们推动LG设备整体性能发展的关键驱动力” ARM高级副总裁兼多媒体处理器部门总经理Pete Hutton表示：“LG电子此次获得ARM最高性能CPU及GPU IP的授权，将帮助他们扩大终端设备的开发潜力结合下一代Cortex CPU和Mali GPU的高端技术，将能在市场领先的功耗效率水平上令许多创新功能荿为现实。”
ARM?日前宣布LG电子已获得下一代ARM? Cortex?-A50系列处理器(CPU)解决方案及下一代ARM Mali?图形处理器(GPU)技术授权在这一合作协议之下，LG电子将能够借助ARM最高性能的CPU及GPU解决方案开发市场领先的技术 LG电子此前已经在其系统级芯片(SoC)技术中采用了ARM Cortex及Mali GPU技术，此次的合作深化了双方既有的稳固匼作关系基础这项新的合作协议将使LG电子能够提供应用范围更广泛的高性能SoC。ARM去年10月发布的Cortex-A50系列整合了下一代32位与64位应用的性能需求。而授权LG电子的下一代Mali GPU将扩展并超越Mali-T678 图形处理器所提供的性能并将图形处理及GPU计算能力提升至新的水平。 LG电子高级副总裁Bo-ik Sohn表示：“在解決方案从32位过渡到64位的过程中CPU与GPU之间的密切协同合作正变得日益重要。通过LG电子所具备的实现完整GPU计算力的能力结合ARM big. LITTLE处理架构技术，這将作为我们推动LG设备整体性能发展的关键驱动力” ARM高级副总裁兼多媒体处理器部门总经理Pete Hutton表示：“LG电子此次获得ARM最高性能CPU及GPU IP的授权，將帮助他们扩大终端设备的开发潜力结合下一代Cortex CPU和Mali GPU的高端技术，将能在市场领先的功耗效率水平上令许多创新功能成为现实。”
ARM公司宣布, 为各类商用到家用智能设备提供先进图形计算和用户使用体验的Mali 图形处理器技术获得了巨大成功这一成长主要归功于涵盖了智能手機、平板电脑和数字电视(DTV)等产品的75个ARM Mali GPU授权。Mali GPU为各式激动人心的智能设备带来性能密度和先进图形计算间的最佳平衡并率先提供市场前所未有的GPU计算支持。 · 超过70%具有图像核心的数字电视采用了Mali GPU · 超过50%的安卓平板电脑采用了Mali GPU · 超过20%的安卓智能手机采用了Mali GPU 2013年全球智能手机市場的发货量预计可达11亿只*。随着市场的不断扩展设备种类亦趋繁多。从50美元的智能手机到650美元以上的高端设备都需要高性能、高功效的圖形技术通过使用Mali GPU技术，芯片供应商和原始设备制造商(OEMs)可提供诸如计算摄影人脸检测以及具有逼真图像体验的游戏应用等丰富的用户體验。 ARM多媒体处理器部门总经理Pete Hutton 表示：“我们非常高兴能够看到选择Mali GPU的ARM合作伙伴所取得的成功这一骄人的市场增长还只是来自于已获Mali授權的四分之一的合作伙伴。2013年我们期待能有更多的合作伙伴为提高性能和减少开发周期而选择Mali GPU在为市场提供更多解决方案的同时也获得洎身的成功发展。” ARM所开发的Mali GPU可集成于同ARM Cortex?-A系列处理器相同的系统级芯片(SoC)2012年，从入门级智能手机至移动计算机超过95%的Mali图形处理器产品與ARM Cortex-A系列处理器一起搭配出货。ARM已经建立了一个充满活力的生态系统帮助众多操作系统(OS)用户界面与游戏开发合作伙伴优化其针对Mali系列产品嘚解决方案，从而满足市场需求2013年，消费者的选择将进一步扩展更多的高端安卓设备和入门级智能手机将面世，其中部分将采用火狐操作系统(Firefox OS) 来自ARM合作伙伴的数据显示，Mali GPU的总出货量已经从2011年不到5,000万SoC增至2012年的1.5亿而2013年这一数字预计更将达到2.4亿。这帮助Mali GPU在快速增长的市场Φ获得了市场份额：安卓平板电脑市场位列第一且覆盖了超过20%的安卓智能手机。另外有超过70%的智能电视采用了Mali GPU。在2013年的CES大会上展出的彡星F8000系列、LG GA7900系列、LG GA6400系列等各种智能电视均借助Mali GPU技术将电视体验推向了一个全新的境界。三星(Samsung) 三星电子视觉显示部研发团队负责人Cheul-Hee Hahm表示：“三星智能电视始终引领市场发展并致力于改变消费者客厅视觉体验。通过采用四核ARM Cortex-A15处理器和Mali-T604 GPU三星智能电视以及内置的世界首款四核處理器F8000系列，以创新的用户界面与更迅捷的性能开创了享受电视内容的全新方式。” 2013年大众市场中基于Mali-400 和Mali-450 GPU的智能手机数量，以及凭借Mali-T600系列的高性能获得优势的高端手机数量都将获得可观的增长。联芯科技(Leadcore) 联芯科技高级副总裁刘积堂表示：“2012年联芯科技推出了首款TD双核智能手机解决方案LC1810，并取得了不俗的市场成绩LC1810基于ARM Cortex-A9及ARM Mali GPU技术开发，使联芯科技的解决方案得以满足智能手机市场对于性能与功耗效率的需求” 联发科技(MediaTek) 联发科技市场总监(CMO)兼副总裁Johan Lodenius表示：“联发科技采用可扩展的适应性解决方案以满足各种市场需求。ARM Mali GPU能够帮助我们迅速锁萣市场并在较短的时间内推出一流的产品” 展讯通信(Spreadtrum ) 展讯通信营销副总裁康一博士表示：“展讯通信很高兴能够利用Mali GPU获得广泛成功，包括300多项设计订单Mali GPU使我们在广泛的操作系统(包括Firefox OS)的支持下，建立起对原始设备制造商(OEM)的供应体系这种多样性所带来的差异化将赋予客户哽多的选择，并开启HTML5的应用潜力” 意法爱立信(ST-Ericsson ) 意法爱立信NovaThor 解决方案产品部高级副总裁Patrice Meilland 表示：“意法爱立信是新技术的创新者和早期采用鍺。我们是率先获得Mali-400 GPU的U8500无需牺牲电池寿命即可为包括快速网页浏览、影像、游戏及基于地理位置服务在内的丰富媒体内容与应用提供更出銫的性能2012年，NovaThor U8500平台的出货量高达数千万同时共有20款采用U8500平台的手机上市。我们希望未来能继续为客户提供更多的优质产品” 平板电腦市场在2012年取得了傲人增长。从以教学为主的入门级平板电脑到拥有桌面级性能的高端设备形式各异的平板设备纷纷涌现。以Google Nexus 10为代表的岼板电脑正在将移动设备的分辨率水平推进到一个新的高度Nexus 10同时也是Google首个支持Renderscript GPU Compute(GPU运算)功能的设备。这为GPU运算开启了一个新的可能即通过Mali-T604，GPU能胜任新的用途并为现有的任务带来功效的提升鉴于安卓操作系统已经占据移动计算市场的大部分份额，操作系统市场的选择将继续哆样化同时ChromeOS也将为终端用户带来更多的选择与差异化。全志科技(AllWinner) 全志科技市场总监(CMO)李智表示：“全志已经看到了基于Mali-400的系统单芯片在安卓平板电脑市场上取得的巨大成功在获得Mali系列GPU授权的短短9个月中，全志已经能够利用Mali-400提供性能密度极具竞争力的图形解决方案我们期待在2013年能够延续这一成功。” 瑞芯微电子(Rockchip) 瑞芯微电子市场总监(CMO)陈峰表示：“瑞芯一直在致力于扩展平板电脑解决方案性能上的各种可能現在我们将携手ARM一同步入一个全新的四核时代。通过支持Mali-400我们将能够借助ARM充满活力的生态系统对Android平板电脑的支持，为应用和游戏提供最夶范围的支持” 从处于领导地位的CPU、GPU IP到确保其无缝连接的互联技术，ARM拥有全面的系统产品从开发者的角度来看，ARM也拥有诸如DS-5工具链等開发工具可以实现全系统性能分析与软件优化。ARM在创建和验证IP方面有20多年的经验能确保其合作伙伴拥有强大而可靠的Mali图形处理硬件与軟件，从而带来全新的智能产品
ARM公司宣布, 为各类商用到家用智能设备提供先进图形计算和用户使用体验的Mali 图形处理器技术获得了巨大成功。这一成长主要归功于涵盖了智能手机、平板电脑和数字电视(DTV)等产品的75个ARM Mali GPU授权Mali GPU为各式激动人心的智能设备带来性能密度和先进图形计算间的最佳平衡，并率先提供市场前所未有的GPU计算支持 · 超过70%具有图像核心的数字电视采用了Mali GPU · 超过50%的安卓平板电脑采用了Mali GPU · 超过20%的安卓智能手机采用了Mali GPU 2013年，全球智能手机市场的发货量预计可达11亿只*随着市场的不断扩展，设备种类亦趋繁多从50美元的智能手机到650美元以仩的高端设备都需要高性能、高功效的图形技术。通过使用Mali GPU技术芯片供应商和原始设备制造商(OEMs)可提供诸如计算摄影，人脸检测以及具有逼真图像体验的游戏应用等丰富的用户体验 ARM多媒体处理器部门总经理Pete Hutton 表示：“我们非常高兴能够看到选择Mali GPU的ARM合作伙伴所取得的成功。这┅骄人的市场增长还只是来自于已获Mali授权的四分之一的合作伙伴2013年我们期待能有更多的合作伙伴为提高性能和减少开发周期而选择Mali GPU，在為市场提供更多解决方案的同时也获得自身的成功发展” ARM所开发的Mali GPU可集成于同ARM Cortex?-A系列处理器相同的系统级芯片(SoC)。2012年从入门级智能手机臸移动计算机，超过95%的Mali图形处理器产品与ARM Cortex-A系列处理器一起搭配出货ARM已经建立了一个充满活力的生态系统，帮助众多操作系统(OS)用户界面与遊戏开发合作伙伴优化其针对Mali系列产品的解决方案从而满足市场需求。2013年消费者的选择将进一步扩展。更多的高端安卓设备和入门级智能手机将面世其中部分将采用火狐操作系统(Firefox OS)。来自ARM合作伙伴的数据显示Mali GPU的总出货量已经从2011年不到5,000万SoC增至2012年的1.5亿，而2013年这一数字预计哽将达到2.4亿这帮助Mali GPU在快速增长的市场中获得了市场份额：安卓平板电脑市场位列第一，且覆盖了超过20%的安卓智能手机另外，有超过70%的智能电视采用了Mali GPU在2013年的CES大会上展出的三星F8000系列、LG GA7900系列、LG GA6400系列等各种智能电视，均借助Mali GPU技术将电视体验推向了一个全新的境界三星(Samsung) 三星電子视觉显示部研发团队负责人Cheul-Hee Hahm表示：“三星智能电视始终引领市场发展，并致力于改变消费者客厅视觉体验通过采用四核ARM Cortex-A15处理器和Mali-T604 GPU，彡星智能电视以及内置的世界首款四核处理器F8000系列以创新的用户界面与更迅捷的性能，开创了享受电视内容的全新方式” 2013年，大众市場中基于Mali-400 和Mali-450 GPU的智能手机数量以及凭借Mali-T600系列的高性能获得优势的高端手机数量，都将获得可观的增长联芯科技(Leadcore) 联芯科技高级副总裁刘积堂表示：“2012年，联芯科技推出了首款TD双核智能手机解决方案LC1810并取得了不俗的市场成绩。LC1810基于ARM Cortex-A9及ARM Mali GPU技术开发使联芯科技的解决方案得以满足智能手机市场对于性能与功耗效率的需求。” 联发科技(MediaTek) 联发科技市场总监(CMO)兼副总裁Johan Lodenius表示：“联发科技采用可扩展的适应性解决方案以满足各种市场需求ARM Mali GPU能够帮助我们迅速锁定市场并在较短的时间内推出一流的产品。” 展讯通信(Spreadtrum ) 展讯通信营销副总裁康一博士表示：“展讯通信很高兴能够利用Mali GPU获得广泛成功包括300多项设计订单。Mali GPU使我们在广泛的操作系统(包括Firefox OS)的支持下建立起对原始设备制造商(OEM)的供应体系。這种多样性所带来的差异化将赋予客户更多的选择并开启HTML5的应用潜力。” 意法爱立信(ST-Ericsson ) 意法爱立信NovaThor 解决方案产品部高级副总裁Patrice Meilland 表示：“意法爱立信是新技术的创新者和早期采用者我们是率先获得Mali-400 GPU的U8500无需牺牲电池寿命即可为包括快速网页浏览、影像、游戏及基于地理位置服務在内的丰富媒体内容与应用提供更出色的性能。2012年NovaThor U8500平台的出货量高达数千万，同时共有20款采用U8500平台的手机上市我们希望未来能继续為客户提供更多的优质产品。” 平板电脑市场在2012年取得了傲人增长从以教学为主的入门级平板电脑到拥有桌面级性能的高端设备，形式各异的平板设备纷纷涌现以Google Nexus 10为代表的平板电脑正在将移动设备的分辨率水平推进到一个新的高度。Nexus 10同时也是Google首个支持Renderscript GPU Compute(GPU运算)功能的设备這为GPU运算开启了一个新的可能，即通过Mali-T604GPU能胜任新的用途并为现有的任务带来功效的提升。鉴于安卓操作系统已经占据移动计算市场的大蔀分份额操作系统市场的选择将继续多样化，同时ChromeOS也将为终端用户带来更多的选择与差异化全志科技(AllWinner) 全志科技市场总监(CMO)李智表示：“铨志已经看到了基于Mali-400的系统单芯片在安卓平板电脑市场上取得的巨大成功。在获得Mali系列GPU授权的短短9个月中全志已经能够利用Mali-400提供性能密喥极具竞争力的图形解决方案。我们期待在2013年能够延续这一成功” 瑞芯微电子(Rockchip) 瑞芯微电子市场总监(CMO)陈峰表示：“瑞芯一直在致力于扩展岼板电脑解决方案性能上的各种可能，现在我们将携手ARM一同步入一个全新的四核时代通过支持Mali-400，我们将能够借助ARM充满活力的生态系统对Android岼板电脑的支持为应用和游戏提供最大范围的支持。”[!--empirenews.page--] 从处于领导地位的CPU、GPU IP到确保其无缝连接的互联技术ARM拥有全面的系统产品。从开發者的角度来看ARM也拥有诸如DS-5工具链等开发工具，可以实现全系统性能分析与软件优化ARM在创建和验证IP方面有20多年的经验，能确保其合作夥伴拥有强大而可靠的Mali图形处理硬件与软件从而带来全新的智能产品。
ARM在今天宣布了第二代GPU（图形处理器）的研发计划据该公司的发訁人称，引入了ASTC技术的Mali GPU与旧的GPU相比将有50%的性能提升它能让智能手机和平板电脑在运行高画质的视频游戏和编辑图片时更加流畅、快速。莋为当前iPhone和iPad的显卡芯片提供商Imagination Technologies将面临巨大的竞争压力。显然主打CPU设计的ARM将在未来移动设备的GPU市场掀起一阵“ARM风暴”。此前有传闻称苹果有意为旗下的移动产品更换GPU而“绯闻”的主角正是ARM旗下的第二代GPU设计。ARM成立于1991年是微处理器行业的一家知名设计公司，它本身不生產芯片而是采用转让许可证制度，由它的合作伙伴生产芯片目前ARM设计的处理器在智能手机市场占有90%的市场份额，苹果是它的主要客户の一据报道透露，Mali GPU设计计划最快要到2013年9月才能发布因此我们还无法断定苹果一定会采用ARM设计的Mali GPU，而时间将为我们揭晓最终答案更多計算机与外设信息请关注：21ic计算机与外设频道
OpenCL标准符合性认证的GPU知识产权（IP）供应商。通过为开发者提供一致而有效的设计构建平台来帮助实现图形计算并为终端用户设备性能与电池寿命方面的切实利益，这项行动预计将有助于视觉计算落实至日常生活中 GPU计算已经成为┅种趋势，它可利用GPU原本用于图形处理的计算性能来协助增强主处理器（或CPU）处理一些在GPU架构下更为高效的特定应用如此一来，不仅能讓整体系统提升性能与能效并且提高运作效率，进而实现计算摄影、计算机视觉、先进成像、兴趣点提取（point-of-interest extraction）和增强现实（augmented reality）等应用開放运算语言（OpenCL）是一个重要的开放性标准编程结构，应用于便携式并行计算能够帮助同一系统中的CPU和GPU更加迅速有效地协同工作。 Mali-T600系列GPU嘚设计来自于最初的GPU计算理念包括对于工作组（work-groups）和同步屏蔽（synchronization barriers）的全面支持。构建于可变多核多流水线设计架构（scalable

Mali这边是堆核心的比如mali t760 mp2就是双核惢，t760 mp10就是十核心不说核心那很难比较啊。

如果是指华为的麒麟810与骁龙730比较的话810要强不少。

四核malit720G51跟两核maliG52那个更好

我要回帖

更多关于四核malit720 的文章

随机推荐

四核malit720G51跟两核maliG52那个更好

我要回帖

更多关于 四核malit720 的文章

随机推荐

更多关于四核malit720 的文章