没有合适的资源?快使用搜索试试~ 我知道了~
首页2018年中国电信IT企业信息化任职能力—数据挖掘与应用序列应知应会手册(初级)
资源详情
资源评论
资源推荐

第一篇 通用知识篇
第一章 大数据
第一节 大数据的定义
大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚
至主流软件工具,在合理时间内处理的海量、高增长率和多样化的信息资产。因此大
数据的核心是价值,数据量大只是大数据的表象,这也是为什么大数据引起业界广泛
关注的重要原因。由此可见,对于大数据的研究和应用主要集中于两点:一、从技术
层面研究大数据的模型及处理算法、开发相应的处理工具等;二、从商业模式层面寻
找大数据的商业模型、盈利模式、产业发展等。
大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有价值的数据进
行专业化处理。换言之,如果把大数据比作一种产业,初级或者粗糙的大数据产业主
要是提高对数据的“加工能力”,通过“加工”实现数据的“增值”;而更高层次的
大数据产业将数据信息产生的价值应用到具体的行业,发挥行业价值,从而实现数据
信息价值的倍增,这样才能真正体现大数据的价值所在。
第二节 大数据与海量数据的关系
海量数据仅仅是从数据量上进行界定,海量数据指数据量巨大,用 普 通的方法和
工具处理起来相对困难,其计算时间和运算量较大,需要开发新的存储、处理和挖掘
等技术才可以进行快速处理。大数据的数据量明显远大于海量数据,当然二者没有严
格的区分门限,通常意义上讲,大数据的数据量要大于海量数据。海量数据的很多分
析处理技术可以用于大数据的分析与处理,同样大数据的相关理论和方法同样可以用
于海量数据。大数据不仅仅从量上进行了分析,而且从本质上进行了定义,突出了其
核心价值。因此可以说大数据是海量数据的升级,大数据更突出了数据的本质。
既然谈到数据量的问题,这里有必要介绍关于数据量的一些常见数量单位。
数据的最小的基本单位是 bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、
TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率 1024(2
10
)来计算:
1 Byte= 8bit
1 KB = 1,024 Bytes
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
当前用的最多的关于大数据描述的数量级是 TB 和 PB,一般行业或者政府机构的
数据基本在 PB 级上。因此,如此大量的数据用传统的数据库存储、查询和处理方式
无法实现数据的实时处理,导致时效性大打折扣,甚至不可用,例如在追击逃犯的时

数据挖掘与应用序列应知应会手册
1
候,需要快速查出犯罪分子的行动路线、推测他可能去的地方等,如果数据处理速度
较慢,很容易错过机会。同样在商业领域,每天的电子商务交易记录、顾客浏览记录
等都是大量的数据,因此这些数据的处理都需要快速。
第三节 大数据的来源与特点
随着电子信息技术和互联网的飞速发展,各种电子设备和数据终端迅速走入寻常
百姓家庭,以移动通信发展为代表的手机等客户端产生大量的数据;以 PC 为代表的
微机时代产生了大量的计算机数据;以数码相机为代表的电子设备产生大量的视频、
图片数据;以 互联网为代表的网络应用产生大量的 web 数据。因此大数据的产生是源
于信息技术的发展和普及。所以遍布全球的物联网、云计算、移动互联网、车联网、
手机、平板电脑、PC 以及各种各样的传感器,无一不是数据来源或者承载的方式。
大数据的存在形式多种多样,这也决定了大数据的处理非常困难,需要运用数学、
统计学、物理学等知识进行全方位的研究。比如大数据可以是包括网络日志,RFID,
传感器网络,社会网络,社会数据,互联网文本和文件;互联网搜索索引;呼叫详细
记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学
科的科研,军事侦察,医疗记录;摄影档案馆视频档案;大规模的电子商务等等。
大数据的特点可以总结为 4V:Volume(大量)、Velocity(高速)、Variety(多
样)、Value(价值)。
Volume:数据体量巨大,并且以超快的速度和规模在增长,从 TB 级别跃升到 PB
级别。
Velocity:处理速度快,极短的时间可从各种类型的数据中快速获得具有较高价
值的信息。
Variety:数据类型变得多种多样,不再是单一的文本格式,图像、视频、日志
同样也成为大数据的一部分。
Value:海量的数据带来了大量不相关的信息,只要合理利用数据并对其进行正
确、准确的分析,将会带来很高的价值回报。
随着资讯科技不断地往前推进,数据量的复杂程度愈来愈高,4V 已经不足以形容
新时代的大数据,在原本的 4V 上又增加「可视性」(Visualization)与「合法性」
(Validity),形成 6V 特点。
从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数
据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是
这一点使该技术引起众多企业的关注。
大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他
技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。
第四节 大数据的用途
一、对大数据的处理分析正成为新一代信息技术融合应用的结点。
移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应
用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和
运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用
中,将创造出巨大的经济和社会价值。大数据具有催生社会变革的能量。但释放这种
能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境。
二、大数据是信息产业持续高速增长的新引擎。
面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成

数据挖掘与应用序列应知应会手册
2
设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理
服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数
据挖掘技术和软件产品的发展。
三、大数据利用将成为提高核心竞争力的关键因素。
各行各业的决策正在从“业务驱动” 转变“数据驱动”。对大数据的分析可以
使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策
略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,
可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、
维护社会稳定等方面的重要作用。
四、大数据时代科学研究的方法手段将发生重大改变。
抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研
究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出
研究结论和对策。
第五节 数据价值
众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进
行区分会是一个棘手的问题。
一个企业的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数
据也拥有转化为价值的力量。一 段记录人们如何在商店浏览购物的视频、人们 在 购买
服务前后的所作所为、如何通过社交网络联系客户、吸引合作伙伴加盟、客户如何付
款以及供应商喜欢的收款方式……所有这些场景都提供了很多指向,将它们抽丝剥茧,
透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就
能让企业的行事方式发生天翻地覆的转变。但是屡见不鲜的是,很多公司仍然只是将
信息简单堆在一起,仅将其当作为满足公司治理规则而必须要保存的信息加以处理,
而不是将它们作为战略转变的工具。毕竟,数据和人员是业务部门仅有的两笔无法被
竞争对手复制的财富。在善用的人手中,好的数据是所有管理决策的基础,带来的是
对客户的深入了解和竞争优势。数据是业务部门的生命线,必须让数据在决策和行动
时无缝且安全地流到人们手中。未来将属于那些能够驾驭所拥有数据的公司,这 些 数
据 与 公 司自身的业务和客户相关,通过对数据的利用,发现新的洞见,帮助他们找出
竞争优势。
关于 DIKW 体系
DIKW 体系是关于数据、信息、知识及智慧的体系,可 以追 溯 至 托马斯·斯 特尔那
斯·艾 略 特 所 写 的 诗 --《岩石》。在 首段,他写道:“我们在哪里丢失了知识中的智慧?
又在哪里丢失了信息中的知识?”(Where is the wisdom we have lost in knowledge?
/ Where is the knowledge we have lost in information?)。1982 年 12 月,美国
教育家哈蓝·克利夫兰引用艾略特的这些诗句在其出版的《未来主义者》一书提出了
“信息即资源”(Information as a Resource)的主张。其后,教育家米兰·瑟兰尼、
管理思想家罗素·艾可夫进一步对此理论发扬光大,前者在 1987 年撰写了《管理支
援系统:迈向整合知识管理》(Management Support Systems: Towards Integrated
Knowledge Management ),后者在 1989 年撰写了《从数据到智慧》(“From Data to
Wisdom”,Human Systems Management )。
DIKW 体系将数据、信息、知识、智慧纳入到一种金字塔形的层次体系,每一层比下
一层都赋予的一些特质。原 始 观 察 及量度获得了数据、分析数据间的关系获得了信息。

数据挖掘与应用序列应知应会手册
3
在行动上应用信息产生了知识。智慧关心未来,它含有暗示及滞后影响的意味。
数据、信息、知识与智慧的关系
通过 DIKW 模型分析,可以看到数据、信息、知识与智慧之间既有联系,又有区
别。数据是记录下来可以被鉴别的符号。它是最原始的素材,未被加工解释,没有回
答特定的问题,没有任何意义;信息是已经被处理、具有逻辑关系的数据,是对数据
的解释,这种信息对其接收者具有意义。
知识是从相关信息中过滤、提炼及加工而得到的有用资料。特殊背景/语境下,
知识将数据与信息、信息与信息在行动中的应用之间建立有意义的联系,它体现了信
息的本质、原则和经验。此外,知识基于推理和分析,还可能产生新的知识。最后来
看智慧,智慧,是人类所表现出来的一种独有的能力,主要表现为收集、加工、应用、
传播知识的能力,以及对事物发展的前瞻性看法。在知识的基础之上,通过经验、阅
历、见识的累积,而形成的对事物的深刻认识、远见,体现为一种卓越的判断力。
整体来看,知识的演进层次,可以双向演进。从噪音中分拣出来数据,转化为信
息,升级为知识,升华为智慧。这样一个过程,是信息的管理和分类过程,让信息从
庞大无序到分类有序,各取所需。这就是一个知识管理的过程。反过来,随着信息生
产与传播手段的极大丰富,知识生产的过程其实也是一个不断衰退的过程,从智慧传
播为知识,从知识普及为信息,从信息变为记录的数据。

数据挖掘与应用序列应知应会手册
4
知识的内涵与价值
应用 DIKW 体系基于对数据、信息、知识进行对比分析,可以得出知识内涵的主
要内容,即知识来源于信息,但又不是信息的子集,它是经过“理解”后,关联了具
体情境的、可以指导“如何”行动的信息,它具有如下几个特征:
1、隐性特征:需要从信息中进行归纳、总结、提炼;
2、行动导向特征:知识是信息的具体应用,能够直接推动人的决策和行为,加速
行动过程;
3、资本特征:是企业重要资产,可以通过应用获得价值;
4、情境特征:在规定的情境下起作用;
5、延展生长特征:知识在应用、交流的过程中,被不断丰富和拓展;
6、生命特征:知识是有产生、发展、衰退的生命周期。
这种内涵下,知识的价值又是什么呢?如前所述,数据是数字、文字、图像、符
号等,在没有被处理之前,本身不代表任何潜在的意义。而当通过某种方式对数据进
行组织和分析时,数据的意义才显示出来,从而演变为信息,信息可以对某些简单的
问题给予解答,譬如:谁?什么?哪里?什么时候?知识是在对信息进行了筛选、综
合、分析等等过程之后产生的。它不是信息的简单累加,往往还需要加入基于以往的
经验所作的判断。因此,知识可以解决较为复杂的问题,可 以 回 答“如何?”的问题,
能够积极地指导任务的执行和管理,进行决策和解决问题。
综上,在 当 今 海量数据、信息爆炸时代下,知识起到去伪存真、去粗存精的作用。
知识使信息变得有用,可以在具体工作环境中,对于特定接收者解决“如何”开展工
作的问题,提高工作的效率和质量。同时,知识的积累和应用,对于启迪智慧,引领
未来起到了非常重要的作用。
最后,有一点需要补充说明的是,数据、信息、知识依赖于语境、依赖于接收者
本身,三者之间的区别并非泾渭分明。某个经过加工的数据对某个人来说是信息,而
对另外一个人来说则可能是数据;一个系统或一次处理所输出的信息,可 能是 另 一 个
系 统 或 另 一次 处理的原始数据。同时,在 某个语境下是知识的内容,在 另 外 的 语 境 中,
可能就是信息,甚至是无意义的数据。因此,在进行数据、信息与知识的研究与应用
时,要与特定语境(即人、任务等)进行结合才有意义。
剩余61页未读,继续阅读


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0