新闻  |   论坛  |   博客  |   在线研讨会
浮点数解析
fengvspiao | 2013-05-07 15:41:23    阅读:3382   发布文章

  第1章 背景

在IEEE标准754之前,业界并没有一个统一的浮点数标准,相反,很多计算机制造商都设计自己的浮点数规则,以及运算细节。那时,实现的速度和简易性比数字的精确性更受重视。
  直到1985年Intel打算为其的8086微处理器引进一种浮点数协处理器的时候,聪明地意识到,作为设计芯片者的电子工程师和固体物理学家们,也许并不能通过数值分析来选择最合理的浮点数二进制格式。于是Intel在请加州大学伯克利分校的 William Kahan教授──最优秀的数值分析家之一来为8087 FPU设计浮点数格式; 而这个家伙又找来两个专家来协助他,于是就有了KCS组合(Kahn, Coonan, and Stone)。 他们共同完成了Intel的浮点数格式设计,而且完成地如此出色,以致于IEEE组织决定采用一个非常接近KCS的方案作为IEEE的标准浮点格式。目前,几乎所有计算机都支持该标准,大大改善了科学应用程序的可移植性。

第2章 浮点与定点概述 2.1         浮点与定点的定义

定点数:通俗的说,小数点固定的数。如123.23、343.23,小数后面有两位小数。

浮点数:一般来说,小数点不固定的数。比较容易理解的方式是,用科学记数法。如12.345101、1.2345102、0.12345103……,为了表示一个数,小数点的位置发生改变。

2.2         定点数与浮点数对比

(1)      表示的精度与范围不同

例如,我们用4个十进制来表达一个数字。对于定点,我们能表示的区间[0000,9999]中的任何一个数字,但是如果我们要想表示类似1234.3的数值就无能为力了,因为此时的表示精度为1/100=1;如果采用浮点数来表示(以归整的科学记数法,即小数点前有一位有效位),则可以表示[0.000,9.999]之间的任何一个数字,表示的精度为1/103=0.001,精度比上一种方式提高了很多,但是表示的范围却小了很多。

也就是说,一般的,定点数表示的精度较低,但是表示的数值范围较大;而浮点数恰恰相反。

(2)      计算机中运算的效率不同

一般来说,定点数的运算在计算机中实现比较简单,效率较高;浮点数的运算在计算机中实现起来比较复杂,效率相对较低。

(3)      硬件依赖性

一般来说,只有硬件提供运算部件,就会提供点数运算的支持,但不一定支持浮点数的运算。

第3章 浮点数存储格式 3.1         表示形式

IEEE标准从逻辑上用三元组{S,E,M}表示一个数N,如图 3.1所示:

图 3.1 浮点数表现形式



  N的实际值n由下列式子表示:n=(-1)sm2e

其中:

(1)      n,s,e,m分别为N,S,E,M对应的实际数值,而N,S,E,M仅仅是一串二进制位。

(2)      S(sign)表示N的符号位。对应值s满足:n>0时,s=0; n<0时,s=1。

(3)      E(exponent)表示N的指数位,位于S和M之间的若干位。对应值e值也可正可负。

(4)      M(mantissa)表示N的尾数位,恰好,它位于N末尾。M也叫有效数字位(sinificand)、系数位(coefficient), 甚至被称作“小数”。

3.1.1    浮点数格式

IEEE标准754规定了三种浮点数格式:单精度、双精度、扩展精度。前两者正好对应C语言里头的float、double或者FORTRAN里头的real、double精度类型。限于篇幅,本文仅介绍单精度、双精度浮点格式。

(1)      单精度:N共32位,其中S占1位,E占8位,M占23位。

(2)      双精度:N共64位,其中S占1位,E占11位,M占52位。

值得注意的是,M虽然是23位或者52位,但它们只是表示小数点之后的二进制位数,也就是说,假定 M为“010110011...”, 在二进制数值上其实是“.010110011...”。而事实上,标准规定小数点左边还有一个隐含位,这个隐含位绝大多数情况下是1,那什么情况下是0呢?答案是N对应的n非常小的时候,比如小于 2^(-126)(32位单精度浮点数)。不要困惑怎么计算出来的,看到后面你就会明白。总之,隐含位算是赚来了一位精度,于是M对应的m最后结果可能是“m=1.010110011…”或者“m=0.010110011…”。

3.1.2    计算e、m

首先将提到令初学者头疼的“规格化(normalized)”、“非规格化(denormalized)”。噢,其实并没有这么难的,跟我来!掌握它以后你会发现一切都很优雅,更美妙的是,规格化、非规格化本身的概念几乎不怎么重要。请牢记这句话:规格化与否全看指数E!

下面分三种情况讨论E,并分别计算e和m:

(1)      规格化。

当E的二进制位不全为0,也不全为1时,N为规格化形式。此时e被解释为表示偏置(biased)形式的整数,e值计算公式为:

e=|E|-bias

bias=2k-1-1

|E|表示E的二进制序列表示的整数值,例如E为"10000100",则|E|=132,e=132-127=5 。 k则表示E的位数,对单精度来说,k=8,则bias=127,对双精度来说,k=11,则bias=1023。

此时m的计算公式为:m=|1.M|

标准规定此时小数点左侧的隐含位为1,那么m=|1.M|。如M="101",则|1.M|=|1.101|=1.625;即 m=1.625。

(2)      非规格化。

当E的二进制位全部为0时,N为非规格化形式。此时e,m的计算都非常简单。

e=1-bias

m=|0.M|

注意,此时小数点左侧的隐含位为0。为什么e会等于(1-bias)而不是(-bias),这主要是为规格化数值、非规格化数值之间的平滑过渡设计的。后文我们还会继续讨论。

有了非规格化形式,我们就可以表示0了。把符号位S值1,其余所有位均置0后,我们得到了 -0.0; 同理,把所有位均置0,则得到 +0.0。非规格化数还有其他用途,比如表示非常接近0的小数,而且这些小数均匀地接近0,称为“逐渐下溢(gradually underflow)”属性。

(3)      特殊数值。

当E的二进制位全为1时为特殊数值。此时,若M的二进制位全为0,则n表示无穷大,若S为1则为负无穷大,若S为0则为正无穷大; 若M的二进制位不全为0时,表示NaN(Not a Number),表示这不是一个合法实数或无穷,或者该数未经初始化。

3.1.3    C语言范例

将正负浮点数与整数对比,规格化与非规格化对比。

int main(void)

{

         float i1=0.5;

         float i2=-0.5;          /* 规格化 */

         float i3=0.000001;      /* 非规格化 */

         int m1=1;

         int m2=-1;

         int x1=*(int *)(&i1);     /* 先取地址,再得到所在地址上的值 */

         int x2=*(int *)(&i2);

         int x3=*(int *)(&i3);

         printf("0x%x\n",x1);

         printf("0x%x\n",x2);

         printf("0x%x\n",x3);

         printf("0x%x\n",m1);

         printf("0x%x\n",m2);

         return 0;

}

*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
最近文章
FPGA时序
2013-05-07 15:46:44
浮点数解析
2013-05-07 15:41:23
推荐文章
最近访客