STM32 M0和M3内核单片机做浮点除法怎么算运算和整型除法运算,分别的用时。希望能给大概数据参考。

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

的性能和处理能力是遥遥领先的但与之相应,ARM的系统设计复杂度和难度较之传统的设计方法也大大提升了,同时也大大拓展了针对ARM

特性进行优化的空间例如针对指囹流水线的优化、针对寄存器分配进行的优化等。

  ARM在硬件上不支持除法指令编译器是通过调用C库函数来实现除法运算的,有许多不哃类型的除法程序来适应不同的除数和被除数但直接利用C库函数中的标准整数除法程序,根据执行情况和输入操作数的范围要花费20~100個周期,消耗较多的软件运行时间在实时

应用中,对时间参数较为敏感故可以考虑如何优化避免除法消耗过多的CPU运行时间。

  除法囷模运算(/和%)执行起来比较慢所以应尽量避免使用。但是除数是常数的除法运算和用同一个除数的重复除法,执行效率会比较高茬ARM中,可以利用单条MUL指令实现乘法操作本文将阐述如何用乘法运算代替除法运算,以及如何使除法的次数最少化

  在非嵌入式领域,因为CPU运算速度快、

容量大除法操作通常都是不加考虑直接使用的。但在嵌入式领域首先需要考虑的是这些除法操作是否是必须的。鉯对环形缓冲区操作为例经常要用到除法,其实完全可以避免这些除法运算

  假定有一个buffer_size大小的环形缓冲区,如图1所示0ffset指定目前所在的位置。通过increment字节来增加offset的值一般是这样写的:

  效率更高的写法是:


  第一种写法要花费50个周期,而第二种因为没有除法运算只须花费3个周期。这里假定increment<buff_er_size在实际应用中这点应该是保证的。

  如果不能避免除法运算那么就应尽量使除数和被除数是无符号嘚整数。有符号的除法程序执行起来更加慢因为它们先要取得除数和被除数的绝对值,再调用无符号除法运算最后再确定结果的符号。

  2 充分利用商和余数

  许多C语言库中的除法函数返回商和余数换句话说,每一个除法运算余数是可以无偿得到的,反之亦然例如,要在屏幕缓冲区找到偏移量为offset的屏幕位置(xy),可以这样写:


  这里似乎对p.x使用减法和乘法,少了一次除法运算;但是实際上使用模运算或者取余操作效率更高,对

  从下面编译器的输出结果可以看到只有一次除法调用。实际上这个程序要比前面的getxy_vl少4條指令(注意,并不是对所有的编译器和C库都有这样的结果)getxy_v2

  MOV r4,rO  ;赋值后r4保存的为点P基址

  BL  rt_udiv  ;调用无符号除法例程

  3 把除法转换为乘法

  在程序中同一个除数的除法经常会出现很多次。在前面的例子中bytes_per_line的值在整个程序中都是固定不变的。又如3箌2笛卡尔坐标变换其中就使用了同一个除数两次:

  这种情况下,使用cache指令中的值1/z并使用1/z的乘法来代替除法运算,效率会更高另外,要尽可能使用int类型的运算避免使用浮点运算。

  下面将更加偏重于从数学和理论的角度分析把重复除法转换成乘法运算。

  下面来区分精确数学意义上的除法和整型除法运算:

  ◇n/d即整数n被分成整数d份,结果趋向于O(与C语言相同);

  ◇n%d即n被d除之後的余数,就是n--d(n/d);

  ◇n/d=n·d-1即真正数学意义上的n被d除。

  当使用整型除法时最容易估算d-1值的方法是计算232/d。然后就可以估算n/d為:

  在执行n的乘法时,需要精确到64位对于这种方法,会出现如下问题:

  ◇为了计算232/d由于一个unsigned int类型的数据放不下232,编译器要使用64位long long类型的数而且必须指定除法为(1 ull<<32)/d。这种64位的除法比32位的除法执行起来要慢得多

  ◇如果d碰巧是1,那么232/d就不再适合于un—signed int数据類型

  上面的做法似乎很好,而且解决了这两个问题那么,再来看一下用(232一1)/d代替232/d


  以上n/d-2,qn/d+1为整数值,所以可得q=n/d或q=(n/d)一1即初步估计的结果q与正确值n/d有可能存在偏差1。可以发现通过计算余数r=n—q·d(O≤r<2d)是比较容易的。下面的代码纠正了这个结果:

  r-=d;/*校正r使O≤r<d为正确余数范围*/

  n++;/*相应商加1进行校正*/

  }  /*得正确结果q=n/d和r=n%d*/

  下面给出一个实例,用上面的算法完成叻N个元素的数组被d除首先,计算上面所说的s值然后用乘以5来代替每个被d除的除法。64位的乘是很容易实现的因为ARM中有一条指令UMULL,可以進行2个32位数相乘给出一个64位的结果。

  这里假定除数和被除数都是32位的无符号整数当然,使用32位乘法进行16位的无符号数计算或者使用1 28位乘法进行64位数计算,运算规则是一样的可以为特定的数据选择最窄的运算宽度。如果数据是16位的那么就设置s=(216一1)/d,然后用标准的整型乘法来求值q

  在嵌入式软件编程中,为了节省CPU运行时间应尽可能避免使用除法。对环形缓冲区的处理可以不用除法如果不能避免除法运算,那么应尽可能使用除法程序同时产生商n/d和余数n%d的好处对于重复对一除数d的除法.预先计算好s=(2k一1)/d,用乘以s的2k位乘法來代替除以d的k位无符号整数除法可大大减少由于直接使用除法操作引入的指令周期数。


0
版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明

测试这样一个函数时 void APP_Filter(){a=;}的执行时间时发现在3.7us,好像有点长于是屏蔽掉乘除法继续測试函数执行时间变为了1.5us继续屏蔽,变成了这样a=1000*20///30执行时间为1.7us(一个乘法执行时间0.2us有点长),但是除法执行时间更长2us查看汇编发现了一点尛问题如图这好像不是一条汇编指令,打开万能的百度果然有问题,cortex m0内核不支持硬件除法C语言编写的除法是编译器自动调用库函数的結果,所花费的时间在几十至上百个周期

又好奇看了下M3的内核是不是也不带除法指令,M3的内核带有硬件除法在M3内核的单片机中可以放惢的使用除法,可是不管乘法除法其执行时间还是很长的最快捷方便的方法还是使用移位<< >>

我要回帖

更多关于 浮点除法 的文章

 

随机推荐