统。而存储子系统的改变将影响数据管理和数据处理的各个方面,包括数据分布、数据复制、负载平
衡、查询算法、查询调度、一致性控制、并发控制和恢复方法,等等。
2.多样
数据的多样性通常是指异构的数据类型、不同的数据表示和语义解释。现在,越来越多的应用所
产生的数据类型不再是纯粹的关系数据,更多的是非结构化、半结构化的数据,如文本、图形、图像、
音频、视频、网页、推特和博客(4等。现代互联网应用呈现出非结构化数据大幅增长的特点,至
年末非结构化数据占有比例达到整个数据量的 <以上。
对异构海量数据的组织、分析、检索、管理和建模是基础性的挑战。例如,图像和视频数据虽具
有存储和播放结构,但这种结构不适合进行上下文语义分析和搜索。对非结构化数据的分析在许多应
用中成为一个显著的瓶颈。传统的数据分析算法在处理同构数据方面比较成熟,是否将各种类型的数
据内容转化为同构的格式以供日后分析?此外,考虑到当今大多数数据是直接以数字格式生成的,是
否可以干预数据的产生过程以方便日后的数据分析?在数据分析之前还要对数据进行清洗和纠错,还
必须对缺失和错误数据进行处理等。因此,针对半结构化、非结构化数据的高效表达、存取和分析技
术,需要大量的基础研究。
3.快变
大数据的快变性也称为实时性,一方面指数据到达的速度很快,另一方面指能够进行处理的时间
很短,或者要求响应速度很快,即实时响应。
许多大数据往往以数据流的形式动态、快速地产生和演变,具有很强的时效性。流数据来得快,
对流数据的采集、过滤、存储和利用需要充分考虑和掌控它们的快变性。加上要处理的数据集大,数
据分析和处理的时间将很长。而在实际应用需求中常常要求立即得到分析结果。例如,在进行信用卡
交易时,如果怀疑该信用卡涉嫌欺诈,应该在交易完成之前做出判断,以防止非法交易的产生。这就
要求系统具有极强的处理能力和妥当的处理策略,例如,事先对历史交易数据进行分析和预计算,再
结合新数据进行少量的增量计算便可迅速做出判断。对于大数据上的实时分析处理,大数据查询和分
析中的优化技术具有极大的挑战性,需要借鉴传统数据库中非常成功的查询优化技术以及索引技术等。
4.价值
大数据的价值是潜在的、巨大的。大数据不仅具有经济价值和产业价值,还具有科学价值。这是
大数据最重要的特点,也是大数据的魅力所在。
现在,人们认识到数据就是资源,数据就是财富,认识到数据为王的时代已经到来,因此对大数
据的热情和重视也与日俱增。例如, 年 , 月,美国奥巴马政府启动“大数据研究和发展计划”,这
是继 , 年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来
的新石油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。 年
月,英国政府注资建立了世界上第一个大数据研究所。同年,日本也出台计划重点关注大数据领域的
研究。 年 月,中国计算机学会成立了 22; 大数据专家委员会,科技部也于 , 年启动了
“,”、“ ".,”大数据研究项目。
一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控
制也将成为国家与国家、企业与企业间新的争夺焦点。
大数据价值的潜在性,是指数据蕴含的巨大价值只有通过对大数据以及数据之间蕴含的联系进行
复杂的分析、反复深入的挖掘才能获得。而大数据规模巨大、异构多样、快变复杂,隐私等自身的问
题,以及数据孤岛、信息私有、缺乏共享的客观现实都阻碍了数据价值的创造。其巨大潜力和目标实
现之间还存在着巨大的鸿沟。
大数据的经济价值和产业价值已经初步显现出来。一些掌握大数据的互联网公司基于数据交易、
数据分析和数据挖掘,帮助企业为客户提供更优良的个性化服务,降低营销成本,提高生产效率,增
加利润;帮助企业优化管理,调整内部机构,提高服务质量。大数据是未来产业竞争的核心支撑。大
数据价值的实现需要通过数据共享、交叉复用才能获得。因此,未来大数据将会如基础设施一样,有
数据提供方、使用方、管理者、监管者等,从而使得大数据成为一个大产业。
大数据研究的科学价值还没有引起足够的重视,本章文献/0提出要把数据本身作为研究目标,关