详解大数据的4个基本特征

时间：2014-09-12 文章来源：马海祥博客访问次数：

从某种程度上说，大数据是数据分析的前沿技术。简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术，明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。

详解大数据的4个基本特征-马海祥博客

2001年，高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出，数据增长有三个方向的挑战和机遇：量（Volume），即数据多少；速（Velocity），即资料输入、输出的速度；类（Variety），即多样性。

在莱尼的理论基础上，IBM提出大数据的4V特征？得到了业界的广泛认可。第一，数量（Volume），即数据巨大，从TB级别跃升到PB级别；第二，多样性（Variety），即数据类型繁多，不仅包括传统的格式化数据，还包括来自互联网的网络日志、视频、图片、地理位置信息等；第三，速度（Velocity），即处理速度快；第四，真实性（Veracity），即追求高质量的数据。

虽然不同学者、不同研究机构对大数据的定义不尽相同，但都广泛提及了这4个基本特征。

1、大容量

据马海祥了解，天文学和基因学是最早产生大数据变革的领域，2000年，斯隆数字巡天项目启动时，位于新墨西哥州的望远镜，在短短几周内搜集到的数据已经比天文学历史上总共搜集的数据还要多；在智利的大型视场全景巡天望远镜一旦于2016年投入使用，其在5天之内搜集到的信息量将相当于前者10年的信息档案。

2003年，人类第一次破译人体基因密码时，用了10年才完成了30亿对碱基对的排序；而在10年之后，世界范围内的基因仪15分钟就可以完成同样的工作量。

伴随着各种随身设备、物联网和云计算、云存储等技术的发展，人和物的所有轨迹都可以被记录，数据因此被大量生产出来。

移动互联网的核心网络节点是人，不再是网页，人人都成为数据制造者，短信、微博、照片、录像都是其数据产品；数据来自无数自动化传感器、自动记录设施、生产监测、环境监测、交通监测、安防监测等；来自自动流程记录，刷卡机、收款机、电子不停车收费系统，互联网点击、电话拨号等设施以及各种办事流程登记等。

大量自动或人工产生的数据通过互联网聚集到特定地点，包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构，形成了大数据之海（具体可查看马海祥博客《大数据技术到底能帮企业做些什么》的相关介绍）。

我们周围到底有多少数据？数据量的增长速度有多快？许多人试图测量出一个确切的数字。

2011年，马丁·希尔伯特和普里西利亚·洛佩兹在《科学》上发表了一篇文章，对1986——2007年人类所创造、存储和传播的一切信息数量进行了追踪计算。其研究范围大约涵盖了60种模拟和数字技术：书籍、图画、信件、电子邮件、照片、音乐、视频（模拟和数字）、电子游戏、电话、汽车导航等。

据他们估算：2007年，人类大约存储了超过300EB的数据；1986——2007年，全球数据存储能力每年提高23%，双向通信能力每年提高28%，通用计算能力每年提高58%；预计到2013年，世界上存储的数据能达到约1.2ZB。

这样大的数据量意味着什么？

据估算，如果把这些数据全部记在书中，这些书可以覆盖整个美国52次。如果存储在只读光盘上，这些光盘可以堆成5堆，每堆都可以伸到月球。

在公元前3世纪，希腊时代最著名的图书馆亚历山大图书馆竭力搜集了当时其所能搜集到的书写作品，可以代表当时世界上其所能搜集到的知识量。但当数字数据洪流席卷世界之后，每个人都可以获得大量数据信息，相当于当时亚历山大图书馆存储的数据总量的320倍之多。

2、多样性

随着传感器、智能设备以及社交协作技术的飞速发展，组织中的数据也变得更加复杂，因为它不仅包含传统的关系型数据，还包含来自网页、互联网日志文件（包括点击流数据）、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。

在大数据时代，数据格式变得越来越多样，涵盖了文本、音频、图片、视频、模拟信号等不同的类型；数据来源也越来越多样，不仅产生于组织内部运作的各个环节，也来自于组织外部。

例如，在交通领域，北京市交通智能化分析平台数据来自路网摄像头/传感器、公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业，还有问卷调查和地理信息系统数据。4万辆浮动车每天产生2000万条记录，交通卡刷卡记录每天1900万条，手机定位数据每天1800万条，出租车运营数据每天100万条，电子停车收费系统数据每天50万条，定期调查覆盖8万户家庭等等，这些数据在体量和速度上都达到了大数据的规模。

发掘这些形态各异、快慢不一的数据流之间的相关性，是大数据做前人之未做、能前人所不能的机会。

大数据不仅是处理巨量数据的利器，更为处理不同来源、不同格式的多元化数据提供了可能。

例如，为了使计算机能够理解人的意图，人类就必须要将需解决的问题的思路、方法和手段通过计算机能够理解的形式告诉计算机，使得计算机能够根据人的指令一步一步工作，完成某种特定的任务。

在以往，人们只能通过编程这种规范化计算机语言发出指令，随着自然语言处理技术的发展，人们可以用计算机处理自然语言，实现人与计算机之间基于文本和语音的有效通信，为此，还出现了专门提供结构化语言解决方案的组织—语言数据公司。

自然语言无疑是一个新的数据来源，而且也是一种更复杂、更多样的数据，它包含诸如省略、指代、更正、重复、强调、倒序等大量的语言现象，还包括噪声、含混不清、口头语和音变等语音现象。

苹果公司在iPhone手机上应用的一项语音控制功能Siri就是多样化数据处理的代表。用户可以通过语音、文字输入等方式与Siri对话交流，并调用手机自带的各项应用，读短信、询问天气、设置闹钟、安排日程，乃至搜寻餐厅、电影院等生活信息，收看相关评论，甚至直接订位、订票，Siri则会依据用户默认的家庭地址或是所在位置判断、过滤搜寻的结果。

为了让Siri足够聪明，苹果公司引入了谷歌、维基百科等外部数据源，在语音识别和语音合成方面，未来版本的Siri或许可以让我们听到中国各地的方言，比如四川话、湖南话和河南话。

多样化的数据来源正是大数据的威力所在，例如交通状况与其他领域的数据都存在较强的关联性。据马海祥博客收集的数据研究发现，可以从供水系统数据中发现早晨洗澡的高峰时段，加上一个偏移量（通常是40-45分钟）就能估算出交通早高峰时段；同样可以从电网数据中统计出傍晚办公楼集中关灯的时间，加上偏移量估算出晚上的堵车时段。

3、快速度

在数据处理速度方面，有一个著名的“1秒定律”，即要在秒级时间范围内给出分析结果，超出这个时间，数据就失去价值了。

例如，IBM有一则广告，讲的是“1秒，能做什么”？1秒，能检测出台湾的铁道故障并发布预警；也能发现得克萨斯州的电力中断，避免电网瘫痪；还能帮助一家全球性金融公司锁定行业欺诈，保障客户利益。

在商业领域，“快”也早已贯穿企业运营、管理和决策智能化的每一个环节，形形色色描述“快”的新兴词汇出现在商业数据语境里，例如实时、快如闪电、光速、念动的瞬间、价值送达时间。

英特尔中国研究院首席工程师吴甘沙认为，快速度是大数据处理技术和传统的数据挖掘技术最大的区别。大数据是一种以实时数据处理、实时结果导向为特征的解决方案，它的“快”有两个层面。

一是数据产生得快。有的数据是爆发式产生，例如，欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生PB级的数据；有的数据是涓涓细流式产生，但是由于用户众多，短时间内产生的数据量依然非常庞大，例如，点击流、日志、射频识别数据、GPS（全球定位系统）位置信息。

二是数据处理得快。正如水处理系统可以从水库调出水进行处理，也可以处理直接对涌进来的新水流。大数据也有批处理（“静止数据”转变为“正使用数据”）和流处理（“动态数据”转变为“正使用数据”）两种范式，以实现快速的数据处理。

为什么要“快”？

第一，时间就是金钱。如果说价值是分子，那么时间就是分母，分母越小，单位价值就越大。面临同样大的数据“矿山”，“挖矿”效率是竞争优势。

第二，像其他商品一样，数据的价值会折旧，等量数据在不同时间点？价值不等。NewSQL（新的可扩展性/高性能数据库）的先行者VoltDB（内存数据库）发明了一个概念叫作“数据连续统一体”：数据存在于一个连续的时间轴上，每个数据项都有它的年龄，不同年龄的数据有不同的价值取向，新产生的数据更具有个体价值，产生时间较为久远的数据集合起来更能发挥价值。

第三，数据跟新闻一样具有时效性。很多传感器的数据产生几秒之后就失去意义了。美国国家海洋和大气管理局的超级计算机能够在日本地震后9分钟计算出海啸的可能性，但9分钟的延迟对于瞬间被海浪吞噬的生命来说还是太长了。

越来越多的数据挖掘趋于前端化，即提前感知预测并直接提供服务对象所需要的个性化服务，例如，对绝大多数商品来说，找到顾客“触点”的最佳时机并非在结账以后，而是在顾客还提着篮子逛街时。

电子商务网站从点击流、浏览历史和行为（如放入购物车）中实时发现顾客的即时购买意图和兴趣，并据此推送商品，这就是“快”的价值（具体可查看马海祥博客《浅谈大数据时代的大数据技术与应用》的相关介绍）。

4、真实性

在以上3项特征的基础上，我归纳总结了大数据的第四个特征——真实性。

数据的重要性就在于对决策的支持，数据的规模并不能决定其能否为决策提供帮助，数据的真实性和质量才是获得真知和思路最重要的因素，是制定成功决策最坚实的基础。

追求高数据质量是一项重要的大数据要求和挑战，即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性，例如，人的感情和诚实性、天气形势、经济因素以及未来。

在处理这些类型的数据时，数据清理无法修正这种不确定性，然而，尽管存在不确定性，数据仍然包含宝贵的信息。我们必须承认、接受大数据的不确定性，并确定如何充分利用这一点，例如，采取数据融合，即通过结合多个可靠性较低的来源创建更准确、更有用的数据点，或者通过鲁棒优化技术和模糊逻辑方法等先进的数学方法。

业界还有人把大数据的基本特征从4V扩展到了11V，包括价值密度低（Value）、可视化（Visualization）、有效性（Validity）等。例如，价值密度低是指随着物联网的广泛应用，信息感知无处不在，信息海量，但在连续不间断的视频监控过程中，可能有用的数据仅一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是大数据时代亟待解决的难题。

国际数据公司报告里有一句话，概括出了大数据基本特征之间的关系：大数据技术通过使用高速的采集、发现或分析，从超大容量的多样数据中经济地提取价值（具体可查看马海祥博客《如何通过大数据来获取商业价值》的相关介绍）。

除了上述主流的定义，还有人使用3S或者3I描述大数据的特征。

3S指的是：大小（Size）、速度（Speed）和结构（Structure）。

3I指的是：

（1）、定义不明确的（Ill-de.ned）：多个主流的大数据定义都强调了数据规模需要超过传统方法处理数据的规模，而随着技术的进步，数据分析的效率不断提高，符合大数据定义的数据规模也会相应不断变大，因而并没有一个明确的标准。

（2）、令人生畏的（Intimidating）：从管理大数据到使用正确的工具获取它的价值，利用大数据的过程中充满了各种挑战。

（3）、即时的（Immediate）：数据的价值会随着时间快速衰减，因此为了保证大数据的可控性，需要缩短数据搜集到获得数据洞察之间的时间，使得大数据成为真正的即时大数据，这意味着能尽快地分析数据对获得竞争优势至关重要。

马海祥博客点评：

大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神话它或对它保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。

本文发布于马海祥博客文章，如想转载，请注明原文网址摘自于http://www.mahaixiang.cn/sjfx/803.html，注明出处；否则，禁止转载；谢谢配合！

相关标签搜索： 大数据大数据特征

上一篇：聚类分析的方法及应用
下一篇：数据分析的流程及分析方法

您可能还会对以下这些文章感兴趣！

零基础学习数据地图的制作与分析

有时在实际工作中会碰到这种情况，即数据与地名有关，这时虽然也能用Excel的图表来表现，但如果能将数据和地图结合起来，将会收到更加好的效果，应用地图来分析和展示与位置相关的数据，要比在Excel中单纯的数字更为明确和直观，让人一目了然，数据地图就是解决此类问题……【查看全文】

阅读：1884关键词：数据地图地图制作数据分析 日期：2016-07-14
解读2014年中国移动互联网用户行为洞察研究报告

2014中国移动互联网用户行为洞察报告旨在协助行业上下游相关人士了解用户行为的最新动向，全面透析用户的媒体使用习惯、新媒体使用方式、对移动广告的接受程度以及移动广告如何影响用户的购买决策。更多移动互联网用户将手机作为他们首选或唯一的上网工具。……【查看全文】

阅读：1648关键词：解读报告中国互联网移动互联网用户行为研究报告 日期：2014-01-14
分析解读数据的真正目的是什么？

最近我在马海祥博客上新开了一个数据分析专栏，主要是通过平时的一些数据解析来合理科学的提高网站的各项指标的。可能一说到数据，可能就会立马让人想到是数字、图表、模型、方程等容易让人怯步的词语。其实做数据分析的真正目的和意义，是躲在背后的那些人。在营销学……【查看全文】

阅读：1002关键词：分析数据解读数据解读数据目的 日期：2013-08-26
数据分析的流程及分析方法

数据分析是指通过建立审计分析模型对数据进行核对、检查、复算、判断等操作，将被审计单位数据的现实状态与理想状态进行比较，从而发现审计线索，搜集审计证据的过程，在实用中，数据分析可帮助人们作出判断，以便采取适当行动，数据分析的目的是把隐没在看来杂乱无章……【查看全文】

阅读：11073关键词：数据分析数据分析流程分析方法 日期：2014-09-19
大数据时代下的第三方数据公司和甲方公司的差异

现在是一个大数据时代，人人嘴边都挂着数据创造价值、数据挖掘等一些热词。各公司内部也逐渐认识到数据的重要性，纷纷成立数据部门，期待数据可以真正的为业务服务。另外，也有一些专做数据服务的第三方公司不断涌现，希望能帮助产生数据的甲方分担数据分析的担子，挖掘……【查看全文】

阅读：1062关键词：大数据大数据时代第三方数据数据公司 日期：2014-02-23
关于用户调研数据分析中常见的一些误区

近期和一些做用户研究的人员进行了交流，发现很多做这个行业的人都对自己所做的工作有些迷茫，报告写了很多，数据也分析了很多，但是却感觉对产品的实际运营帮助不大，甚至分析出来的结果和实际情况比偏差很大。其实用户研究并不是一个新兴的领域，在很多传统行业，用户……【查看全文】

阅读：813关键词：眼球追踪眼球追踪技术用户调研调研误区调研探讨数据分析 日期：2013-12-24
大数据环境下衍生出的营销思路或策略

“大数据”的概念距问世已经有39年了，而大数据营销的时代在前几年才得以到来，这种基于数据协同和深度计算的个性化营销正在用其巨大而全面的影响力改变着营销的格局和战略方向。淘宝每天处理数以万计的交易数据，Facebook每天接待40亿访客，在互联网这种领域，……【查看全文】

阅读：671关键词：大数据营销思路营销策略大数据营销 日期：2019-05-03
分类型数据可视化的操作方法及案例分析

在当前互联网，各种数据可视化图表层出不穷，本文尝试对数据可视化的方法进行归纳，数据可视化可以将海量数据通过图形、表格等形式直观反映给大众，降低数据读取门槛，可以让企业通过形象化方式对自身产品进行营销。数据可视化技术的基本思想，是将数据库中每一个数据项……【查看全文】

阅读：1876关键词：数据分析案例分析 日期：2016-09-28
如何以客户为中心进行数据挖掘与分析

数据挖掘与分析可以说是信息领域发展最快的技术，很多不同领域的专家都从中获得了发展的空间，使得数据挖掘成为企业界讨论的热门话题，随着信息技术的发展，人们采集数据的手段越来越丰富，由此积累的数据日益膨胀，数据量达到GB甚至TB级，而且大数据也成为数据分析主流……【查看全文】

阅读：7628关键词：数据挖掘数据分析分析数据 日期：2014-12-27
预测2020年数据中心行业发展的10个趋势分析

岁末年初正是对未来一年数据中心行业发展进行预测的时候，人们将会看到一些事情的到来：云计算的兴起、SSD硬盘的发展，以及其他问题，例如许多企业将业务从云平台遣返回到内部部署数据中心。而专家对数据中心行业的预测可能偶尔会带来一些惊喜。随着大数据行业和技术的发展，企业需要改善内部部署数据中心和云计算资源之间的平衡，在服务器上采用人工智能技术，并努力有效地管理数据蔓延。行业媒体通常会对未来一年进行预测，像往常一……【查看全文】

阅读：33关键词： 2020年数据中心行业发展趋势分析 日期：2019-12-26

↓ 点击查看更多 ↓

热点推荐

互联网更多>>

HTTP与HTTPS的区别超文本传输协议HTTP协议被用于在Web浏览器和网站服务器之间传递信息，HTTP协议以明文方式发送内容，不提供任何方式……
如何破解互联网思维的误区互联网正在成为现代社会真正的基础设施之一，就像电力和道路一样。互联网不仅仅是可以用来提高效率的工具，它……
如何开启苹果系统的两步验证机制，避免iCloud帐号遭到攻击首先，你需要登录至苹果的网页版Apple ID管理系统，你需要点击“管理你的Apple ID”，随后输入帐号密码信息。在登录……

网络营销更多>>

直播引流的常见技巧策略	怎样给老板写一份百度竞价投放策划案？
社群商业运营的核心点	营销简史：一文读完百年营销史