文章插图
图灵机
这个假想的机器使用纸带作为输入输出,纸带是无限长的,并且机器每次只能读取并处理纸带上的一个符号,然后基于一定的规则,这个机器就能表达一切事物并能处理所有计算!

文章插图
图灵机的纸带和控制
为了简单起见,图灵使用的符号也是二进制的0和1 。图灵机的构想,奠定了电子计算机的理论基础,也证明了二进制正好也是最适合计算机系统的 。

文章插图
二进制码流
并且,二进制也是最简单有效的机器语言,可以用电路的通断,高电平和低电平等状态非常方便地表示0和1,因此二进制成为了行业的标准 。
2019年7月15日,英国央行英格兰银行宣布,图灵将成为英国50英镑新钞人物,以表彰其对今天人们生活方式产生的巨大影响 。这一殊荣堪比英国女王 。

文章插图
图灵荣登50英镑纸币
三、比特的力量
在多位科学巨人的努力下,这些由0101组成的二进制符号串也就理所当然地成为了信息传输,处理以及存储的最小计量单位,其中每一位就是一个比特(bit),简写为小写的b 。
实际使用中比特这个单位还是太小了,因此,以2的10次方 (也就是1024)为步长,又定义了以下的一些单位:
Kbit—千比特,也就是1024bit
Mbit—兆比特,也就是1024Kbit
Gbit—吉比特,也就是1024Mbit
……
后面还有更大的单位,每一级乘以1024就可以了 。但我们的生活中最常用的就是上述的这些,而且常人也已经无法直观地感受到这些单位能大到什么让人吃惊的程度 。
我们经常挂在嘴边的一些话,比如5G的小区峰值速率可达20Gbps,这里面的Gbps就是Gbit每秒,含义也相当直观:每秒可以传输20Gbit的信息数据!
在信息储存和处理时,业界一般都是以8位为一组进行存储或者处理,这就叫做8位组,或者字节 。字节的英文名为Byte,一般简写作大写的B 。
和比特类似,实际使用中字节这个单位也太小,因此,也以2的10次方 (也就是1024)为步长,又定义了以下的一些单位:
KB—千字节,也就是1024B
MB—兆字节,也就是1024KB
GB—吉字节,也就是1024MB
TB—太字节,也就是1024GB
PB—皮字节,也就是1024TB
EB—艾字节,也就是1024PB
ZB—泽字节,也就是1024EB
YB—尧字节,也就是1024ZB
下面我们来看看,一些我们常见的事物,到底含有多少信息,占用多少数据量 。
1、文字
众所周知,英文字母有26个,理论上5比特就可以全部表示 。且慢,我们刚才说的是小写字母,那大写字母,阿拉伯数字,标点符号怎么办?正好,一个字节有8个比特,含有256种组合,也就可以表示所有的英文大小写,数字,标点和控制字符了!
这就是著名的ASCII码表,如下图所示:

文章插图
ASCII码表
中文的情况要比上面的英文复杂一些 。因为中文并不是基于字母的拼音文字,而是由大量各不相同的字组成 。
康熙字典共收录汉字47035个,实际汉字总体数量达到了惊人的近10万个!这种情况下,用8个比特来编码汉字显然是远远不够的 。
实际使用中,常用汉字在UTF-8编码下,一个汉字占用3个字节(Byte),也就是用24比特来表示 。不常用汉字甚至占到了4个字节 。

文章插图
字母“A”和汉字“中”的编码
红楼梦共有731,017个汉字,算下来就有2193051个Byte,在不考虑存储压缩算法的情况下,约有2MB大小 。
这个数据在今天看起来很小,在曾经一块软盘只有1.4MB大小的时代也是庞然大物 。

文章插图
泱泱巨著《红楼梦》
2、图片
那么图片呢?最主流的图片格式是位图 。什么叫位图呢?我们只需要把图片放大即可看出端倪 。如下图所示,美女细腻的脸庞不再光滑,而是呈现为一个一个不同颜色的小方格 。

文章插图
位图是由像素组成的
所谓位图,也叫bitmap,实际上是由很多“带有颜色的点”组成的 。这些点就是图像显示的基本单位,也就是我们放大图像之后看到的小方格,称为“像素” 。
推荐阅读
- 濒临灭绝的十大动物 因为人类灭绝的动物有哪些
- 梦见老人瘫痪了 梦见瘫痪的老人忽然之间好起来了
- 适合与家人起看的茶文化电影
- 正山小种在欧洲历史上成为中国红茶的象征
- 罐罐茶:甘肃定西人的茶俗
- 点茶 送茶与斗茶的历史演变
- 北苑茶是福建最早的贡茶
- 走进信阳 感受不样的茶文化
- 传奇故事之乌龙茶的名字
- 玳玳花茶,花茶家族中的枝新秀
