大数据定义及其特征
大数据顾名思义就是数量极其庞大的数据资料。从上世纪80年代开始,每隔40个月世界上储存的人均科技信息量就会翻倍 (Hibert & Lopez, 2011)。2012年,每天会有2.5EB量的数据产生 (Andrew & Erik, 2012)。现在,2014年,每天会有2.3ZB量的数据产生 (IBM, 2015)。这是一个什么概念? 现在一般我们电脑的硬盘大小都以GB,或者TB为单位了。1GB的容量可以储存约5.4亿的汉字,或者170张普通数码相机拍摄的高精度照片,或者300-350首长度为5-6分钟的MP3歌曲。 那GB和TB, EB,ZB的关系又是怎样?
1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一台1TB硬盘容量的电脑,那1ZB就是大致等于10亿台电脑的容量,远远超出了我们一般的想象。
早期,IBM定义了大数据的特性有3个:大量性( Volume), 多样性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后来又有学者把价值(Value)加到大数据的特性里。随着时间的推移和人们思考的进一步完善,又有三个大数据的特性被提出: 易变性(Variability),准确性(Veracity)和复杂性(Complexity)。
作者认为价值本质上是数据被分析后体现出来的有用信息知识的程度,和其他几个特性有根本区别。其他几个特性可以说是数据工作者具体实践中面临的挑战,而价值则是征服这些挑战后获得的回报。