没有合适的资源?快使用搜索试试~ 我知道了~
首页2022年AI4S科学智能发展:突破维数灾难的探索
2022年AI4S科学智能发展:突破维数灾难的探索
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 21 浏览量
更新于2024-06-26
收藏 45.18MB PDF 举报
"2022科学智能(AI4S)全球发展观察与展望》一文深度探讨了当前科技领域的关键趋势,特别是人工智能(AI)在应对"维数灾难"挑战中的角色。文章指出,随着互联网科技的热潮消退,科学本身重新成为关注焦点,科学技术的重要性被再次强调,因为它是推动经济社会发展的核心驱动力。过去几个世纪,科学经历了多次系统性危机,如保罗·狄拉克的量子力学困境、理查德·贝尔曼的控制论难题,这些危机促使科学取得了重大突破。 在这个数字化时代,科技创新面临着前所未有的挑战,即维数灾难,即随着复杂性的增加,理解和解决实际问题变得困难。计算机科学中,例如在计算机视觉、自然语言处理和自动驾驶等领域,AI展示了强大的数据处理能力,但在向更高级别的智慧迈进时,科学原理的学习和应用显得尤为重要。AI的发展依赖于算法、算力和数据的融合,它在处理高维度函数方面展现出优势,这是其取得成果的关键。 为了突破这一困境,研究者和实践者开始尝试利用AI来学习和解决科学问题,将AI应用于科学研究中。他们认识到,要想实现AI从数据处理工具向智慧型工具的转变,必须深入挖掘并利用科学方法和理论,因为这是人类智慧的瑰宝。这种结合意味着AI4S(人工智能与科学的融合)可能会成为未来科技创新的重要驱动力,帮助科学家们在复杂的世界中找到简洁而深刻的洞察,同时解决各行各业的实际问题,推动科技进步和社会经济的持续发展。"
资源详情
资源推荐
18
AI4S global outlook
2022 Edition
1.1.3 AI4S 的数学原理:机器学习对高维函数的有效拟合
近年来以机器学习,尤其是深度神经网络为代表的 AI 技术发展为上述问题的提供了解决思路[4]。AI 技术在 21
世纪得到迅猛发展,并广泛应用于包括图像识别、语音识别、推荐系统等各个领域,为人类的生产与生活带
来巨大变化。机器学习所取得的一系列成就,从其本质上是成功求解了一系列的数学问题。
我们来看机器学习两个最典型的问题:
l 监督学习(supervised learning)问题,本质是基于一个训练集 S,给出目标函数的一个高效逼近。例如
在图像分类问题中,人们假设存在一个真实函数能够将图像数据准确映射到图像的类别信息(比如将图像
进行猫狗分类)。训练数据集是该“真实函数”的准确表现,机器学习就是要通过不断训练逼近这个“真实函
数”,从而进行准确的图像分类。
l 无监督学习(unsupervised learning)问题,本质是利用有限样本逼近并采样一个未知的概率分布。例如
在人脸生成(利用 AI 算法自动生成人脸)问题中,“人脸”是随机变量,而我们不知道它的概率分布。然
而,我们有“人脸”的样本:数量巨大的人脸照片。我们便利用这些样本,近似得到“人脸”的概率分布,并
由此产生新的样本(即生成人脸)。
实际上这些问题都是计算数学领域的经典问题,这些问题之所以长时间没有解决,就是受到“维度灾难”的影
响。机器学习的成功告诉我们,高维问题中深度神经网络的表现明显优于经典算法。
对于大量的高维函数,使用深度神经网络进行逼近时,逼近误差的速率与维数无关。因此,机器学习是处理
高维问题的有效工具。我们可以使用机器学习方法处理大量传统科学计算方法无法解决的问题,比如随机控
制问题、求解非线性抛物方程问题等。将机器学习方法应用到科学研究中,将有机会系统性解决传统科学研
究中遇到的问题,AI4S 应运而生。
19
AI4S global outlook
2022 Edition
1.1.4 AI4S 的三种范式
结合机器学习拟合高维函数的强大能力,我们认为实现 AI4S 的发展在总体上会沿着 3 条主要途径:数据驱动
(处理数据的新方法);模型驱动(处理物理模型的新方法);模型驱动与数据融合方法的深度融合
Figure credit: DP Technology
I. AI4S 高效处理海量数据
AlphaFold2 模型训练过程示意图 [Source: DeepMind]
20
AI4S global outlook
2022 Edition
AI for Science 第一条实现途径是凭借处理数据的新方法 —— 即采用深度学习等 AI 的方式,来处理数据。这
个方向目前最成功的例子是 AlphaFold2 [5]。蛋白折叠问题是一个典型的高维问题,AlphaFold2 通过 AI 的方
式彻底改变了蛋白折叠的技术路线,有效的解决了这个问题。
II. AI4S 高效高精度求解复杂物理系统
AI for Science 的第二条实现途径是发现处理物理模型(基本原理)的新方法。这里最成功的例子是深度学习
分子动力学的相关工作[6]。如下图所示:
传统分子动力学在计算势函数的时候依赖经验力场,导致结果不准确;第一性原理的方法通过量子力学模型
计算,虽然可靠但是效率低,难以大规模使用。而基于机器学习的分子动力学方法,依靠量子力学模型提供
训练数据,用深度神经网络对高维势函数进行拟合,就可以同时保证算法的准确性和高效性。这种将物理模
型、机器学习和高性能计算深度结合的方法,为我们展示了非常巨大的想象空间。
III. AI4S “模型驱动”与“数据融合”的深度融合
AI for Science 的第三条实现途径是将模型驱动和数据驱动的方法深度融合。这个领域的主要挑战很多,比如
“数据同化”、“观测和模型的同步学习”、“强化学习”、“理性实验设计”等。这里的挑战更像是一个系统化的工
程。每一个场景可能都需要一个庞大的团队来完成,当然这也意味着巨大的空间和机会。
深度势能训练过程示意图 [Source: Deep Modeling]
21
AI4S global outlook
2022 Edition
22
AI4S global outlook
2022 Edition
1.2 AI4S 的组成要素:数据、模型、算法、算
力、跨学科人才协作
量子力学的广泛应用,让科学家们有机会将科学问
题转换为算法问题。这种转换的有效性取决于算法
本身的发展。
AI4S 归根结底就是算法的创新,其发展离不开 “数
据 – 模型 - 算法 - 算力 - 人才”的共同进步。
AI4S 使得过去原理驱动和数据驱动的两种范式得
以统一。在数据充足且整齐的学科问题中,AI4S
的研究者可以在“大数据”的基础上利用深度学习+
高性能计算实现远超过去的成功;而在数据缺乏而
原理相对明确的问题中,AI4S 可以利用
generative model + 第一性原理生成高质量数据,
再通过对“小数据”的高效利用实现突破。
正是过去几十年相关驱动要素的发展逐渐融合,使
AI4S 成为可能(见上页图)。
I. 高质量实验观测与模拟数据
AI4S 的第一个核心要素,是数据。
目前按照数据来源做划分,常见数据类型包括观测
数据、实验数据、记录数据、调查数据、模拟数据
等。观测数据来源于实际的观察测量,比如在环境
领域实际观测获得的数据;实验数据是通过实验所
得到的各类数据;记录数据主要是计算机自动记录
目标的一系列行动所产生的数据,如系统日志等;
调查数据是通过实际社会调查等方式获得的数据;
模拟数据是通过计算机计算模拟所产生的数据。
过去受限于数据采集、储存和处理方式的限制,人
类只拥有小规模数据。而近年来随着数据的重要性
得到广泛认可,数据的数量和质量都有非常大的提
升。在数量上,大量领域的数据集实现了几个数量
级的增长,部分领域数据集甚至实现了从 KB 级别
到 PB 级别的飞跃;在质量上,高质量、高精度、
细粒度的数据取代了原来粗粒度的数据。
除了质与量的提升以外,数据获取成本的大幅降低
也是近年来一个非常显著的特征。过去数据的获取
需要高昂的代价,比如耗时耗力的实验、昂贵的模
拟计算等。现在一方面专业的商用数据库凭借商业
力量推广普及,另一方面开源数据库(比如
ImageNet, DP-Lib)依托开源力量建设蔚然成风。
相关从业者可以用非常低的成本(甚至免费)获取
海量、高质量的数据。
海量高质的数据意味着获取海量信息、发现未知规
律的潜力;此外,获取成本的降低减小了相关研究
与生产的成本。
因此“数据”成为 AI4S 的最核心要素之一。
然而 AI4S 领域中的数据要素依然存在一系列的挑
战。比如虽然从整体上数据的质与量相比十年前有
极大提升。但是在某些领域,数据获取成本依然很
高,现有的数据量和模型训练所需要的数据量仍然
存在差距。这时候就要思考如何进一步降低数据获
取的成本以获得更充分的数据量,或者如何获得更
具有代表性的数据?当然除了上述挑战外,数据要
素方面的挑战还有很多。比如获取的海量的数据应
该如何存储,又该如何使用?开源数据库该如何建
设?这一系列问题的解决,也将进一步促进 AI4S
的发展。
剩余180页未读,继续阅读
每天读点书学堂
- 粉丝: 1023
- 资源: 1万+
下载权益
电子书特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- VMP技术解析:Handle块优化与壳模板初始化
- C++ Primer 第四版更新:现代编程风格与标准库
- 计算机系统基础实验:缓冲区溢出攻击(Lab3)
- 中国结算网上业务平台:证券登记操作详解与常见问题
- FPGA驱动的五子棋博弈系统:加速与创新娱乐体验
- 多旋翼飞行器定点位置控制器设计实验
- 基于流量预测与潮汐效应的动态载频优化策略
- SQL练习:查询分析与高级操作
- 海底数据中心散热优化:从MATLAB到动态模拟
- 移动应用作业:MyDiaryBook - Google Material Design 日记APP
- Linux提权技术详解:从内核漏洞到Sudo配置错误
- 93分钟快速入门 LaTeX:从入门到实践
- 5G测试新挑战与罗德与施瓦茨解决方案
- EAS系统性能优化与故障诊断指南
- Java并发编程:JUC核心概念解析与应用
- 数据结构实验报告:基于不同存储结构的线性表和树实现
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功