8
专题
李国杰
中国科学院计算技术 研究所
大数据研究的科学价值
近年来,“大数据”已经成为科技界和企业界
关注的热点。2012年3月,美国奥巴马政府宣布投
资2亿美元启动“大数据研究和发展计划”,这是
继1993年美国宣布“信息高速公路”计划后的又一
次重大科技发展部署。美国政府认为大数据是“未
来的新石油”,将“大数据研究”上升为国家意
志,对未来的科技与经济发展必将带来深远影响。
一个国家拥有数据的规模和运用数据的能力将成为
综合国力的重要组成部分,对数据的占有和控制也
将成为国家间和企业间新的争夺焦点。
与大数据的经济价值相比,大数据研究的科学
价值似乎还没有引起足够的重视。本文试图对基于
大数据的科学研究(包括自然科学、工程科学和社
会科学)谈几点粗浅的认识,希望引起有关领域科
技人员的争鸣。
推动大数据的动力主要是企业
经济效益
数据是与自然资源、人力资源一样重要的战略
资源,隐含巨大的经济价值,已引起科技界和和企
业界的高度重视。如果有效地组织和使用大数据,
将对经济发展产生巨大的推动作用,孕育出前所未
有的机遇。奥莱利(O
’
Reilly)公司断言:“数据是
下一个‘Intel inside’,未来属于将数据转换成产品
的公司和人们。”
基因组学、蛋白组学、天体物理学和脑科学
等都是以数据为中心的学科。这些领域的基础研究
关键词:大数据 数据科学 第四范式
产生的数据越来越多,例如,用电子显微镜重建大
脑中的突触网络,1立方毫米大脑的图像数据就超
过1PB。但是,近年来大数据的飙升主要还是来自
人们的日常生活,特别是互联网公司的服务。据
IDC公司统计,2011年全球被创建和被复制的数据
总量为1.8ZB(10
21
),其中75%来自于个人(主要
是图片、视频和音乐),远远超过人类有史以来所
有印刷材料的数据总量(200PB)。谷歌公司通过
大规模集群和MapReduce软件,每个月处理的数据
量超过400PB;百度每天大约要处理几十PB数据;
Facebook注册用户超过10亿,
每月上传的照片超过
10亿张,每天生成300TB以上的日志数据;淘宝网
会员超过3.7亿,在线商品超过8.8亿,每天交易数
千万笔,产生约20TB数据;雅虎的总存储容量超
过100PB。传感网和物联网的蓬勃发展是大数据的
又一推动力,各个城市的视频监控每时每刻都在采
集巨量的流媒体数据。工业设备的监控也是大数据
的重要来源。例如,劳斯莱斯公司对全世界数以万
计的飞机引擎进行实时监控,每年传送P B量级的
数据。
数据为王的大数据时代已经到来,战略需求也
发生了重大转变:企业关注的重点转向数据,计算
机行业正在转变为真正的信息行业,从追求计算速
度转变为大数据处理能力,软件也将从编程为主转
变为以数据为中心。采用大数据处理方法,生物制
药、新材料研制生产的流程会发生革命性的变化,
可以通过数据处理能力极高的计算机并行处理,同
时进行大批量的仿真、比较和筛选,大大提高科研