没有合适的资源?快使用搜索试试~ 我知道了~
数据科学与管理1(2021)32研究文章数据科学:内涵、方法、技术与发展徐宗本a,*,唐念生b,陈旭c,程学奇daXi交通大学数学与统计学院b云南大学数学与统计学院,中国昆明650091c渥太华大学数学与统计系,渥太华,K1N 6N5,加拿大d中国科学院计算技术研究所,北京,100190A R T I C L E I N F O保留字:数据科学数据科学方法论大数据技术方向A B S T R A C T大数据的快速发展孕育了数据科学。了解和掌握大数据价值生成的内在规律,对于推进数字化,促进数据科学与管理科学、计算机科学等学科的融合具有重要意义。在这项研究中,我们讨论了数据科学对科学技术发展和社会进步的重要性在阐释数据科学内涵的基础上,介绍了数据科学的定义,并通过总结相关学科的主要进展回顾了数据科学的形成我们还讨论了数据科学的研究方法,发展模式最后,提出了数据科学促进数据科学技术发展的建议。1. 介绍大数据的产生和发展是推动数据科学形成的最直接、最重要、最核心的动力这里的“大”字,因此,数据量是非常大和全面的,“只从这些碎片化的数据中阅读数据背后的故事”是可能的除了海量数据集之外,“复杂性”通常指的是复杂的特征,例如数据异构性、时变性、分布性、相关性大数据的重要性在于它为数字经济(包括数字实体经济、虚拟经济和网络经济)、基于数据的科学发现和社会治理提供了基础。大数据至少可以在管理创新、产业发展、科学发现和学科发展等四个方面为我们带来前所未有的机遇。然而,实现大数据的巨大价值,特别是将大数据转化为现实的生产力仍然是一个巨大的挑战。 挑战主要体现在科学基础、核心技术、法律制度、人才需求等方面。对于大数据而言,数据科学意味着新的原理、理论、技术和方法。这是一种新的方法和解决问题的方法来实现大数据的价值数据科学奠定了大数据科学的基础它构成了大数据分析和处理的核心技术,包含了实现大数据价值的有效途径人类社会、物理空间和信息空间是当今社会的三元世界。三个世界的相互联系和相互作用决定了社会发展的技术特征(图1)。作为一种大数据方法,数据科学的海量处理能力(特别是分布式处理能力、流处理能力、并行计算能力、边缘计算能力)完成了大数据从量变到质变的过程其融合分析处理能力(特别是基于虚拟集成与区块链相结合的互操作技术、基于最优传输的异构数据集成与转换技术等) 实现大数据的关联和聚合;理论上可证明的正确性(TPC)、可解释的、可推广的、并行的和可扩展的分析算法使大数据分析成为可能。这些发现表明,数据科学可以支持大数据原理的实现,从而为大数据赋能,并将其转化为实际生产力,产生巨大价值。同行评议由Xi交通大学负责* 通讯作者。电子邮件地址:zbxu@X jtu.edu.cn(Z. Xu).https://doi.org/10.1016/j.dsm.2021.02.002接收日期:2021年2月7日;接受日期:2021年在线预订2021年2666-7649/©2021 Xi'an Jiaotong University.出版社:Elsevier B.V.代表科爱通信有限公司公司这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表数据科学与管理杂志主页:www.keaipublishing.com/en/journals/data-science-and-managementZ. Xu等人数据科学与管理1(2021)3233图1.一、三个世界理论与科学技术。2. 数据科学理论与方法2.1. 数据科学数据科学的产生有其必然性,其发展具有极端的紧迫性和重要性。 数据科学是以数据为基础的,尤其是大数据。所涉及的问题、所使用的方法和所取得的成果以各种形式或术语出现在广泛的学科中,如数学、统计学、计算机科学和人工智能(AI)。 数据科学利用这些相关学科的理论和方法,在此基础上进行整合、创新和发展。数据是物理世界和人类社会活动的数字化记录,是以编码形式存在的信息载体常见的数据形式包括表格、曲线、图形、图像、视频、文本、音频、网络、地图和生物序列。 信息是具有语义解释的数据,在对数据进行一定的抽象和处理后,它们对决策有价值。 信息不同于物质和能量。它们是“用来消除不确定性的”。知识是通过对信息的综合、关联、演绎、推理而获得的,并已被证明是准确的,为人们所普遍相信知识往往是用语言和文字来描述的,它往往具有系统化、结构化的特点,往往是用语言和文字来描述的。在知识工程领域,一个著名的数据-信息-知识-智慧(DIKW)层次图描述了从数据到信息,到知识,再到智慧的层次关系(Rowley,2007)。数据从采集、聚合、传输、存储、处理、分析到应用,形成了一条完整的数据链,如图所示。 二、这一过程伴随着从数据到信息、从信息到知识、从知识到决策的数据增值过程数据价值链的主要环节包括数据收集/汇聚、数据存储/治理、数据处理/计算、数据分析和数据应用。 任何数据驱动的科学和技术都实现了特定类型的数据价值链。2.2. 数据科学的定义数据科学的社会学解释是关于大数据时代的科学,旨在揭示大数据时代的新挑战、新机遇、新思维、新模式它是由大数据时代的新理论、新方法、新模型、新技术、新平台、新工具、新应用、新实践等构成的一套知识体系(Li and Cheng,2012)。这种解释具有社会学意义,但它很复杂,缺乏对数据科学应该包括什么的实质性描述。这门学科至少应该从研究对象、方法论和科学任务/科学目标三个维度来界定。在此基础上,对数据科学的定义作如下介绍数据科学是实现数据价值链的基础理论和方法论。它通过建模、分析、计算、学习等手段,研究数据到信息、信息到知识、知识到决策的转化,实现对现实世界的认知和操纵在数据科学中,图二. 数据价值链。Z. Xu等人数据科学与管理1(2021)3234þþ比“以数据为研究对象”更准确、更有针对性。也可以突出大数据作为研究对象的主观性数据科学的目标是实现对现实世界的认知和控制,数据科学的科学任务是在数据空间完成从数据到信息、从信息到知识、从知识到决策的转化,概括为“三个转化一个实现”。这不仅限制了它的主要内涵,而且强化了它对背景相关学科的强烈依赖。数据科学的学科方法论被概括为“建模、分析、计算和学习的混合体”,是一种方法论创新。它不仅确认了数据科学的多学科相关性,而且避免了将数据科学简单定义为多学科的总称。2.3. 数据科学概念的发展数据科学萌芽于20世纪60年代,发展于20世纪90年代至本世纪初但是,作为一门学科,它是在当前的大数据时代形成的胚胎阶段(1960-1990年)。“数据逻辑”一词出现于1960-1990年。1966年,丹麦计算机科学家、图灵奖获得者Naur提出用术语“数据逻辑”来定义“数据逻辑概念的出现为数据处理提供了一种科学的地位,也是其概念的起源。多视角形成阶段(1990-2010年)。 Naur首先提出了数据科学的概念,并且很长一段时间没有讨论过。然而,不同的学科相继使用不同的术语,并提供各自学科的解释。新学科建设阶段(2010-)。本世纪以来,大数据推动了数据科学的快速发展,使其成为一门被广泛接受的新兴学科。2.4. 数据科学与其他学科数学和数据科学是不同的。前者只研究抽象数据(以向量、矩阵和图形的形式),而后者则关注实体数据(如文本、图像和视频)。 无论如何,数据科学的研究是基于元科学的,比如数学。统计学和数据科学在研究对象、研究目标和应用范式上几乎是相同的。统计学不仅是数据科学成功的典范,也是数据科学发展的基础。然而,统计学并不是一门完整的数据科学,它们之间的差异是显著的。首先,统计学并不关注复杂的数据类型(如图像、文本、视频和其他非结构化数据),其相关应用关注数据科学。第二,统计学的研究仍然基于模型假设,仍然属于第三范式。第三,统计学对计算科学的深度融合关注较少,很少产生广泛、实用、高效的问题解决算法,如机器学习和AI中的深度学习第四,也是最重要的一点,面对数据科学的挑战,如复杂的数据分析、真假判断、大数据分析处理等,统计学也无能为力。计算机科学是数据科学的重要基础和工具它是数据科学的理论基础人工智能是关于模拟生物智能解决问题的理论、方法和技术数据是实现智能的基础,实现智能的模式就是数据科学模式。狭义的AI是数据科学的主要内容之一对于数据科学来说,描绘真实世界的相关学科是基础,它不仅是理解数据的基础研究问题的来源,也是数据科学研究的归宿领域相关学科应使用数据科学方法,数据科学应注重从领域相关学科中发现模式,发现共性,实现从从方法论到本体论。纵观计算机科学的发展历史,数据和计算作为计算机处理的两大主体,一直是相互促进、耦合发展的。此外,计算机技术(特别是互联网、云计算、物联网)的快速发展,极大地促进了大数据价值链的实现。计算机逐渐从以计算为中心转变为“计算数据网络”的新体系结构,促进了数据科学的形成和发展。其发展是从传统统计学到计算统计学,以及探索性的数据分析,从生物信息学到高维统计研究,从数据到分布式统计推断。在计算机科学中,“数据”和“计算”是重要的研究对象和理论基础。特别是随着大数据技术的发展,以“数据”为核心的理论、技术和应用更加受到关注。它的基本追求是:利用统计学是一门研究如何有效地收集、组织和分析数据的学科 它以数据为研究对象,对数据进行统计描述、统计建模和统计推断等分析和处理。它是数据科学最重要的理论基础和机器学习是从AI中的模式识别和计算学习理论发展而来的(Mohri etal., 2018年)。 它主要是指研究和构建一种算法,使其能够从数据中学习,并在没有数据的情况下预测属性。因此,机器学习克服了传统的和严格的静态程序指令,这使得程序能够通过使用输入样本来做出决策随着人工智能研究的重点从传统的机器学习有一个核心问题没有很好地解决,即数据/问题的特征必须人工预设,也就是说问题的特征不能自动提取。深度学习就是为了解决这个问题而开发的。深度学习本质上是一种特征学习方法。 通过深度学习,将原始数据从一些浅层的模型表示转化为更深层、更复杂、更抽象的神经网络表示,实现自动特征提取,完成相应的机器学习任务。深度学习的网络结构设计一直是AI应用的核心。它决定了深度网络训练的难度和成功率,以及应用的成功。人工智能的主要目标之一是创建完全自主的代理,通过与周围环境的自动交互学习来优化自己的行为并提高自己的能力。强化学习是为实现这一目标而开发的机器学习范式。联邦学习的目标是在分布式环境中与多个计算节点协作构建和训练机器学习模型每个计算节点都有自己不同的数据,在训练过程中不允许交换样本数据2.5. 数据科学方法论在数据科学中,数据的描述需要建模,例如概率论中的随机变量或概率分布。对于数据科学来说,建模是客观对象和处理方法的形式化。分析是判断在数据空间中完成“三个变换”运算的可行性、准确性、复杂性和效率等理论性质的过程对于数据科学来说,分析就是使用元知识进行推理收集/收集数据,存储/管理数据,搜索/查询/Z. Xu等人数据科学与管理1(2021)3235þ分类/推荐数据、挖掘/分析数据以及基于数据进行科学发现都是由计算机执行的计算机是数据科学的基本工具。对于数据科学来说,算法是核心。数学/统计学解决了数据科学基础和建模的问题,计算机可以做到“精确快速计算”,AI帮助数据科学解决应用问题,达到“一次实现”的目的。对于数据科学来说,学习是数据赋权的工具数据科学的主要方法不是建模、分析、计算和学习的简单综合或集成,而是这些方法相互借鉴、相互作用、相互渗透、相互融合后形成的具有理论准确性和应用有效性的数据处理和分析的新工具和新方法。这种新方法整合了各自的思维方式、表达体系、价值追求和核心方法,具有协同性的特点协同是创造一个整体,它大于部分的简单总和它代表元素之间的 这种“协同”的数据科学方法论具有并显示出巨大的力量,并开辟了新的学科。2.6. 数据科学总的来说,数据科学是“在多学科中成长(发展),在大数据中成名(声望),在强基础中形成(灵魂)”。统计学是接受和争取数据科学最快的学科。计算机科学是第一个从更广阔的角度定义数据科学的学科虽然AI是基于大数据,但与数据科学的本质联系以及数据科学可能产生的积极反应无关只有用科学的方法理解以下问题,才能将其视为数据科学的(1)数据范式是否比知识范式更有效?(2)第四范式与其他范式的区别是什么?(3)更好的算法还是更多的数据?(4)因果分析和相关分析哪个更重要(5)在大数据应用中,查询能否代替推理?(6)大数据可以被视为样本人群吗?总之,需要严格的数据科学,而不是似是而非的数据主题数据科学在各个领域取得了非凡的成就。然而,从根本上说,这些成就更多地归功于相关学科的突破,如统计学,计算机科学和机器学习。数据科学的基本依赖性和相关性仍然不足。数据科学家希望数据科学能够以其独特的视角和方法,发展和形成更多有意义的新科学理论、新认知方法和新应用技术,在推动科技进步和解决重大现实问题方面发挥其独特价值。数据科学中一些重要的科学技术基础问题亟待解决,即探索数据空间的结构和特征。数据科学的主要任务之一是如何存储和处理异构大数据,例如自然发生的图像,视频,文本和网页。当一组对象被赋予某种数学结构(运算拓扑)时,它可以成为数学意义上的空间。数学意义上的空间的内部元素可以按照特定的规则进行操作,也可以用一些特定的工具进行分析。因此,对于一类对象(如图像),只有将其放在相应的数学空间中加以考虑,才能得到规范而严格的分析,从而获得本质的认识。数学作为一门以“数”、“形”等特殊形式的数据为研究对象的学科,深入广泛地研究了各类数学空间,建立了将一套成熟的数学理论和方法扩展到数据的形式,而不局限于数字和形状。在统计过程中,有没有可能把“后测”变成当样本量接近总体时,是否还需要进行样本分析如果有必要,那么有什么区别呢?如果不需要,如何直接进行统计分析因果分析真的没有必要吗相关性分析能取代因果分析吗?近年来,这三个基本问题在认识论层面上得到了讨论,但在科学层面上的研究却很少。复杂性和不确定性是大数据最重要的特征 如何度量、描述和利用复杂性和不确定性是数据科学的基本问题,迫切需要新的工具和方法。如何使用尽可能少的样本更准确地保持整体特征、安全删除不重要的数据、处理从结构化到非结构化的转换以及在数据流环境中实时采样是必须解决的科学问题大数据恢复应遵循“目的驱动“原则,即适应不同目的的恢复可以追求不同的3. 数据科学技术3.1. 存储计算技术创新,夯实AI大数据的特征和作用从数量维度向质量维度转变因此,大数据存储和计算面临着基础理论和技术体系的革命。近年来,面对挑战,计算机科学界在计算科学的基础理论和技术创新方面做出了巨大努力,取得了一些重要进展。然而,一些重大的基础科学问题尚未解决。因此,这些基本问题制约了大数据存储、处理和计算技术的发展。总的来说,在大数据快速发展和应用的压力下,计算机科学中的计算理论、硬件架构、系统软件、应用模型都面临着严峻的挑战。在大数据场景下,数据本身的规模往往呈指数级增长,导致计算能力的增长小于数据的增长。而且,即使对于一些静态数据,当其规模大到一定程度时,简单的数据传入/传出也远远超过了计算处理的成本。在这种情况下,即使是传统的多项式可解问题(P问题),在有限的计算能力和有限的存储的情况下也不能容易地获得实际解,因为在小数据环境中可解的问题在大数据环境中可能无法解。这时,传统计算理论中没有考虑数据规模增长模式的计算复杂性理论必须认真考虑。从计算理论的角度,给出了数据规模与模型性能(上、下界)之间的依赖关系,以及模型复杂度与模型性能(上、下界)这些概念为后续的研究和应用奠定了重要基础。 在这些新的计算范式下,大数据的可计算性理论和计算复杂性理论需要重新思考。存储与计算的集成是突破传统存储墙问题的有效思路存储和计算是两个完全不同的操作符。 是否存在合理的联合优化模型?存储和计算集成的规模选择和边界在哪里? 如何将设备的物理特性和工艺无缝对接?存储和计算的集成给编程模型带来了哪些变化新的计算机体系结构必须在基本理论和体系结构上有所突破。在大数据计算问题中,如何实现云计算-边缘计算-终端的最佳协同?复杂的计算任务是如何分解的,异构仪表是如何优化调度的?如何解决数据划分和模型抽象不一致的问题?Z. Xu等人数据科学与管理1(2021)3236大数据系统软件尤其需要在基础理论和标准架构的基础上进行重构,包括大数据系统软件的理论和架构重构、大数据分析软件的分布化、分布式数据管理CAP约束的弱化等模型学习依赖于大量的训练样本。在小样本情况下如何如何使模型的结果更加稳健,以抵抗攻击和欺骗?如何回答模型推理结果的可信性和可解释性?如何在大规模环境中构建分布式和全球有效的模型如何使用本地模型来支持全局可信模型推理?模型推理的效率和准确性如何平衡?这些问题需要进一步探讨。AI是实现数据价值链并展示数据价值人工智能需要解决以下五个基本科学问题:(1)大数据分析的统计基础,(2)大数据计算的基本算法,(3)深度学习的数学原理,(4)非常规约束下的最优运输问题,(5)函数空间中的学习方法和学习理论研究。函数空间的学习理论是一个尚未被探索的领域除了上一节描述的主要基础科学问题外,数据科学还面临着大量有待解决的方法和技术问题 对这些问题的探索已经形成了一些重要的研究领域。3.2. 数据科学物联网技术。未来物联网研究需要重点在以下几个方面取得突破(1) 标准问题,(2)安全问题,(3)感知技术,(4)存储调度,以及(5)复杂网络行为。大数据互操作技术。大数据互操作技术是实现大数据价值链的必要 未来的研究重点是:(1)大数据互操作标准协议;(2)低质量、高频率、高噪声大数据下的互操作技术;(3)软件定义的大数据交换与协同互操作技术;(4)所有权保留与标签的数据互操作技术。大数据安全技术。传统的数据安全保护技术已经不能完全适用于大数据的情况。保护大数据安全可以从数据安全的几个基本特征入手,包括机密性、完整性、可用性和可控性。未来应加强以下技术的研究:(1)高效的数据加密业务适配,(2)细粒度的多级访问控制,(3)高性能的隐私保护,(4)分布式远程数据操作的可信可控计算,(5)多维度聚合计算的安全保障,(6)大数据安全评估。大数据存储技术。未来大数据存储技术的研究还需要重点关注以下几个方面:(1)优化机器学习技术引导的存储系统(AI for storage)(2) 特定领域的大数据压缩和紧凑计算,(3)擦除编码存储原生大数据生态系统,(4)低尾延迟的大数据分布式协同计算技术。 随着5G通信、物联网、大数据智能等技术的发展和应用,未来大量的计算不再局限于大规模的云计算中心,而是部署到由“云计算-边缘计算-终端”组成的一体化分布式资源和环境中。目前需要考虑的问题有:(1)异构计算资源的自适应自治问题;(2)云计算-边缘计算终端协同的决策延迟问题;(3)异构数据分布的一致性问题。新的数据库技术和系统。面对4V的特点,传统的面向结构化数据表达的关系数据库系统无法胜任大数据的组织和管理。针对特定的大数据应用场景,结合数据类型和数据分布特征设计的新型数据库技术也不断涌现,如内存数据库、流数据库、图数据库、时空数据库、众包数据库等。未来新的数据库理论和技术应着重于以下几个方面:(1)发展新的数据库理论范式;(2)促进自治数据库的发展;(3)统一存储和管理多种异构数据;(4)基于学习的数据库组织模式。大数据基础算法。在大数据应用背景的基础上,准确把握“七大难题”是大数据基础算法研究的关键。这些问题包括基本静力学、广义N体问题、图论计算、线性代数计算、最优化、积分和对准问题。基础大数据算法的研究本质上受到大数据计算理论的限制。研究人员希望找到算法来解决超低复杂度的问题(例如至少线性复杂度及以下)。然而,当我们准备放弃传统的思想,即复杂的多项式算法是好的,我们突然开始考虑大数据的基础算法的未来发展数据智能技术。数据智能技术是数据科学与应用学科结合最紧密的领域之一 其技术水平代表着数据价值链的实现水平,是衡量大数据应用的核心能力指标。目前,几乎所有的领域都在努力与深度学习相结合,以促进各自领域的智能进步。 一些具有特别潜力的重要领域包括以下智能医疗、智能健康、智能教育、智能城市和智能制造。数据智能研究的热点还包括训练数据不足下的机器学习理论与方法、与环境交互的学习理论与方法、高维特征空间中的稀疏学习理论与方法、可解释可信的机器学习理论与方法、具有隐私保护的机器学习理论与方法、面向大规模、多数据库和异构计算资源的新型分布式机器学习平台、机器学习平台可视化分析技术区块链技术区块链的核心价值如下。(1)它为弱信任环境下的交易提供了一个可信的平台,从而满足了人们寻求降低相互信任成本(2)推动现有互联网从信息互联向价值互联转变,形成价值互联网。 区块链有望实现现实世界实物资产的登记、流通和交易,从而建立一个具有现实意义的虚拟社会和平行人类社会。(3)为并行虚拟社会对现实社会的认知和操纵提供了一个可信可行的操作平台区块链技术已成功应用于数字货币和资产管理,如比特币和代币。在去中心化的互联网和社会治理中发现了大量的应用。 区块链仍是一项发展中的技术,整体发展处于开创期,呈现出技术与产业创新相互驱动的明显趋势。在基础理论、技术实现和应用方面,区块链仍面临一系列挑战。大数据可视化与交互分析技术。通常,大数据可视化和交互技术可以更直观、直接地揭示数据特征、显示数据状态、调整数据处理。这种方法是大数据分析领域的一个重要技术方向然而,可视化和交互分析类似于实验科学,在形式化描述、理论模型和客观评价方面存在许多基本缺陷以下原则决定了数据科学的主要研究方向:Z. Xu等人数据科学与管理1(2021)3237一是重要性原则,即该方向能够代表数据价值链中对数据价值最关键的技术领域;二是不冲突性原则,即其他学科(统计学、人工智能除外)中被划分为二级及以上学科的领域,或者被普遍认为是主要方向的领域,不应被具体列为数据科学方向;三是专业性原则,即需要一定规模的从业人员进行稳定、专业的研究,以促进学科的可持续发展;四是完整性原则,即所有方向都能覆盖数据价值链,支撑数据科学知识体系的构建数据收集和管理主要包括数据聚合、数据管理、数据处理、数据治理等子方向,是数据科学、管理科学和计算机科学交叉的主要部分数据存储和计算主要包括数据存储和利用新的计算工具完成科技领域的数据处理任务 数据分析和解读可以包括大数据统计、大数据机器学习、大数据算法三个子方向,是统计学和机器学习扩展的主要表现形式。数据产品和应用主要包括大数据智能、数据产品开发技术和工具、数据产品测试和包装。4. 对数据科学发展的建议应该巩固学科基础,以理解数据科学的价值和重要性数据科学研究对象要准确把握,了解研究对象的变化。要把握数据科学基本任务和基本科学目标的内涵。我们还需要了解数据科学与数字经济之间的本质联系推动数据科学重大基础问题研究取得突破;应用包括本源和归宿。The 根据学校定位、市场需求、教师专业等因素,选择合适的学科定位“特色为主、突出优势”的原则要避免“什锦菜”式的课程设置,平衡“通才”与“专才”的培养。要建立一支多学科交叉的师资队伍,采取“混合型”人才培养模式,质量优先。坚持这一方法可以为国家大数据战略的实施提供切实可行的策略。 重点应是重点行业/领域的大数据应用,推广数据科学系统解决方案。要形成国家重大研究任务,组织研究,取得突破;在科学界,要加强对数据科学、大数据、人工智能的科学内涵和方法论的讨论,形成统一认识。不同学科之间应建立共识,统一数据科学的相关概念、理论和方法,作为不同学科发展数据科学的基础。公众改革评价体系,营造学科交叉融合环境,构建良好的数据科学发展生态。我们要营造开放、合作、包容、创新的工作环境。我们不应夸大个人价值和个人主体的作用,而应提倡“成功的必然因素不在自己”的价值观。倡导“互鉴、共融、合作“的合作文化绩效考核的标准不应是“学术、排名、数量”,而应可采用“以绩效为基础,兼顾协调、连续、稳定”的分配原则造就和培养一大批“懂数据、会分析、会实施”的数据科学专业人才。需要准确理解数据科学的内涵、研究方向和方法论。可以强调数据范式,同时坚持与知识范式相结合的思维方式。既要强调数据的主动属性,又要加强数据的规范管理 要警惕“似是而非”的观点,不能盲目追随和传播。例如,我们应该关注相关性而不忽视因果关系。我们还应注重对数据和数据分析结果真实性的判断 要坚持理论准确性和应用实效性相统一的价值选择,努力提高理论素养、实践能力和科学精神。 我们应该跟踪数据科学的新趋势,获取新知识,掌握新技术,准确定位数据科学人才培养目标。竞合利益作者声明不存在利益冲突引用Li,G.,Cheng,X.,2012年。大数据的研究现状与科学思考。Bull. 下巴Acad. Sci. 27(6),647- 657。Mohri,M.,Rostamizadeh,A.,Talwalkar,A.,2018.机器学习基础,第二版,麻省理工学院出版社,剑桥。Naur,P.,1975.计算机方法简明概览。Petrocelli Books,纽约。Rowley,J.,2007年智慧等级:DIKW等级的代表J. INF.Sci. 33(2),163- 180。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功