没有合适的资源?快使用搜索试试~ 我知道了~
Bfi地球科学中的人工智能1(2020)24基于变分自编码器的李坤宏a,b,*,陈松a,胡广民,博士a,ba电子科技大学资源与环境学院和信息地球科学中心,成都,611731,中国b电子科技大学信息地球科学中心,成都,611731,中国A R T I C L E I N F O保留字:深度学习变分自动编码器数据扩展A B S T R A C T有监督机器学习算法在地震勘探处理中得到了广泛的应用,但由于缺乏标注样本,使得其应用变得复杂。因此,我们提出了一种基于深度变分自编码器(VAE)的地震标记数据扩展方法。缺乏训练样本会导致网络的过度拟合。我们使用整个地震数据训练VAE,这是一个数据驱动的过程,大大降低了过度拟合的风险。编码器捕获将地震波形Y映射到潜在深度特征z的能力,并且解码器捕获将地震波形Y映射到潜在深度特征z的能力。以从潜在的深特征z重建高维波形Y。然后,将标记后的地震数据输入编码器,提取潜在的深部特征。我们可以很容易地使用高斯混合模型来拟合每个类别标记数据的深度根据高斯混合模型对大量扩展深度特征z * 进行重采样,将扩展深度特征输入解码器,生成扩展地震数据。模拟数据和实际数据的实验结果表明,该方法解决了地震相分析中缺乏标记数据的问题1. 介绍近年来,监督机器学习算法已广泛用于地震解释,例如断层检测(Wu et al., 2019),地震相(Wrona等人,2018年)。成功应用监督式机器学习的关键是标记训练。地震标记主要来自测井资料和解释资料,两者都有一定的局限性。人工判读是增加标记样本的最直接、直观、最简单的方法之一。因此,许多地震解释方法使用人工解释的结果作为训练样本。然而,人工解释需要经验,只占整个地震数据集的一小部分。此外,标记的样本数据可以通过基于人类先验知识的前向模拟来扩展上述方法仍然需要专业知识以及大量的时间,所以我们提出了一个数据驱动的地震标定数据扩展方法该方法是基于变分自编码器(VAE),这是广泛用于属性提取的无监督模型VAE是由多层神经网络组成的,它由一个编码器和一个解码器组成。编码器对高维地震数据进行编码到低维深特征空间,然后解码器映射深特征以重建地震波形。VAE的目标是最小化输入波形和重建波形之间的差异。因此,VAE不需要标记数据,图1.一、VAE 的结构。红色字体是损失函数。KL·j·是KL散度。jj·jj是2-范数,N·是高斯分布。(For关于这篇文章中颜色的解释,读者可以参考这篇文章的网络版本。*通讯作者。电子科技大学资源与环境学院,信息地球科学中心,成都,611731。电子邮件地址:lkhmoran@gmail.com(K. Li),2547546252@qq.com(S. Chen),hgm@uestc.edu.cn(G. 胡)。https://doi.org/10.1016/j.aiig.2020.12.002接收日期:2020年8月31日;接收日期:2020年11月20日;接受日期:2020年12月12日2021年1月13日在线提供2666-5441/©2021作者。出版社:Elsevier B.V.代表科爱通信有限公司公司这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表地球科学中的人工智能杂志主页:www.keaipublishing.com/en/journals/artificial-intelligence-in-geosciencesK. Li等人地球科学中的人工智能1(2020)2425图二. 给出了该方法的工作流程。K. Li等人地球科学中的人工智能1(2020)2426图三. 合成数据。见图4。 标签数据。(a)标记数据A.(b)标签数据B.一种无人监督的方式大量的地震数据可以用作训练数据,这可以大大降低过拟合的风险。VAE在收敛时捕捉到地震数据的深部特征分布。我们将标记的样本放入解码器,并获得每个类的深层特征分布对于每个类,很容易用高斯混合模型(GMM)拟合深度特征分布应该注意的是,遵循一个高斯混合的每类数据图五、深 的特征。(a)标记数据的深层特征(b)扩展深度特征。K. Li等人地球科学中的人工智能1(2020)2427b b bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb见图6。扩展标记数据。(a)扩展标记数据A。(b)扩展标记数据B。分布,而所有的类数据都遵循高斯混合分布。简而言之,每个类别的深度特征都有一个显式的高斯分布函数。随后,利用这些函数得到扩展深度特征最后将扩展后的深度特征通过解码器得到扩展标记数据。提出了一种半监督的标记数据扩展方法。网络过度拟合的主要原因之一是缺乏训练样本。该方法利用完整的地震数据进行特征提取的训练图第七章 合成数据的频谱。标记数据和扩展标记数据几乎具有相同的光谱曲线。并强调了过度拟合的问题。 我们使用这种方法对合成和真实数据,结果表明,所产生的扩展标记数据增强了地震波形分类性能。在模拟数据实验中,当信噪比为3时,分类精度提高了20%2. 理论2.1. 变分自动编码器VAE由神经网络定义,该神经网络由两部分组成,编码器E和解码器D。编码器将地震信号y2RM编码为深度特征均值zmean和偏差zdev,深度特征z=zmean+zdev,即z¼z意味着z偏差。然后,解码器D用于解码特征z以生成地震信号y,即y1/4D。VAE的目的是将生成的t输入,而特征z需要遵循先验高斯分布。因此,VAE的损失函数包括两部分,一部分是重建误差,它是通过欧氏距离来度量的损失函数的另一部分是关于特征z的,并且KL散度被用来度量z与先验高斯分布之间的差异。因此,VAE损失函数定义如下:图八、 SVM波形分类结果具有相同的参数(核函数为径向基函数,sigma为3)。(a)基于标记数据的结果(b)基于标记数据和扩展标记数据的结果K. Li等人地球科学中的人工智能1(2020)242822K22拉克斯devN.y. μ;!1/4前页-1y-μT-1。y-μ!!!(二)2k¼1K*的参数αμΣ2.2. 高斯混合模型N维高斯分布的概率密度函数定义如下:.q2π N。别这样.ffi2ðÞ其中μR是均值向量,RN×N是协方差矩阵X。由K个高斯分布组成的分布称为高斯混合模型(GMM),其概率密度函数为:F.yjΘθ θXk1/4αkNyjμk;k(三)其中,αk是权重系数,PKαk1/4。θ表示所有k;k.期望最大化算法(Dempster等人,1977)可以用来解决方程。(三)、我们选择GMM,拟合深度特征z的概率分布,因为GMM理论上可以拟合任何形状的概率分布。2.3. 标记样品扩增见图9。 分类准确度与SNR。LVAE1/4ylog1/2 yearlog1/2year log1(一)所提出的方法的工作流程如图所示。 二、其中M为维数,m为样本数,k为类别指数并且mk是k个类别标记的样本的数目该方法总共有四个步骤(2)。第一步是训练VAE,数据集Y。VAE的编码器将捕获深度分布. - 日志。z22dev zdev-1美元特征z,VAE的解码器具有产生波形的能力由于空间限制,请参考(Doersch,2016)了解方程的详细信息(一). VAE的结构如图所示。(一). 我们使用梯度下降来解决方程。(一).从深特征Z.第二步是将标记样本Yk放入编码器中,得到相应的深度特征zk,用 GMM 拟 合 每 类 深 度 特 征 分 布 我 们 得 到 每个类的 概 率 密 度 函 数 f<$zjμk;<$k<$。第三步是经由fzjμk;k重新存储伪深度特征zk,并且最后一步是将zk放入图10. 有关物理模型的信息。(a)物理模型的理论设计图(b)实物模型的照片(c)A线的地震剖面d)物理模型数据的频谱2K. Li等人地球科学中的人工智能1(2020)2429¼*见图11。 断裂识别结果。(e)裂缝段由振幅包络确定(f)基于标记数据的SVM分类结果(g)基于标记数据和扩展标记数据的SVM分类结果解码器生成伪标记样本Yk。3. 实验3.1. 合成数据我们设计了一个如图所示的合成数据集。3. 合成数据具有总共10,000道,添加了带限高斯噪声(SNR 3)。红线将合成数据分为两类,左边是数据A,右边是数据B。我们将所有数据作为训练集,并分别从数据A和B中随机选择500条迹线作为标记数据,即 A和B。 图 4显示标记数据。我们使用所提出的方法来扩展标记数据。为了更好的可视化,我们将深度潜在特征z设置为2维。图5显示了深层的潜伏特征。蓝色K. Li等人地球科学中的人工智能1(2020)2430散射点(zA)对应于标记数据A(YA),绿色散射点(zB)对应于标记数据B(YB)。我们用GMM拟合深层潜在特征扩展数据基于膨胀样本和样本数据的分类结果更接近于真实裂缝分布,表明膨胀样本对提高分类效果有一定作用**** ),如图所示。5 b. 我们可以看到,(zA;zB)很好地符合标记的深度特征分布,并且极大地**AB4. 结论扩大了体积。最后,我们得到扩展标记数据Y*; Y*,如图所示。第六章 图 7示出了标记数据和扩展标记数据的频谱曲线。生成的数据具有与标记数据相同的特征,同时具有较少的噪声。 图 8显示了通过支持向量机(SVM)的地震波形分类结果。的图8 a是基于标记的数据(YA和YB)和图。8B是基于标记数据(YA和YB)和扩展数据(YA和YB)。为了公平起见,我们提出了一种新的数据驱动的半监督标签扩展方法。我们使用全测地震数据作为VAE的训练数据,这提供了足够的训练数据,并消除了过拟合的风险。VAE编码器将地震数据投影到深层特征中,解码器从深层特征中提取地震数据。我们* *使用GMM提取标记数据的深度特征分布,然后为两个数据集设置相同的SVM参数,(核函数是径向基函数,sigma是3)。图图9显示了在不同SNR下分类的准确性。显然,基于标记的数据(YA和Y B)的结果是YB)和扩展数据(YA和YB)具有更好的准确性和鲁棒性,重采样大量的深层特征。换句话说,所提出的方法在深特征空间中扩展标记数据。我们通过地震波形分类来测试我们的方法。通过理论实际数据表明,膨胀数据可以很好地提高- -这表明扩展数据提高了分类性能。3.2. 真实数据最后,利用中国石油天然气集团公司地球物理勘探重点实验室提供的一个物理模型数据,对所提出的方法进行了应用 图 10显示了有关物理模型的信息。 图图10 a为物理模型的理论设计图, 10 b是物理模型的照片。设计该物理模型的主要目的是研究裂缝和断层。由蓝色虚线包围的区域是断裂带。该带内分布有大小、方位、倾角、密度各异的裂缝。地震资料的主频为40 Hz,地震资料的间隔为1 ms。简单地说,我们只是使用裂缝区域的数据断裂区有一条红线A,A线地震剖面如图所示。 10 c. 我们沿着一个水平线切割波形数据,窗口为40ms为了得到标记数据,我们计算振幅包络属性,然后通过阈值分割裂缝,如图所示。 11 e. 我们分别从裂缝和背景中提取了2000个样本作为标记数据,然后利用所提出的方法对标记数据进行扩展基于这些标记和扩展的数据,我们使用支持向量机分类地震波形。为了公平起见,我们为两个数据集设置相同的SVM参数(核函数是径向基函数,sigma为5)。图11显示了分类的结果。图11 f是基于标记的数据和图。 11 g基于标记数据,分类结果。竞合利益该手稿以前从未出版过,也没有考虑在其他地方出版。 所有作者都对本手稿的重要知识内容的创作做出了贡献,并阅读和批准了最终手稿。我们声明不存在利益冲突。致谢本课题得到了国家自然科学基金(41804126,41604107)的资助。感谢中国石油天然气集团公司地球物理勘探重点实验室提供的物理模型数据。引用Dempster,A.P.,Laird,N.M.,鲁宾,D.B.,1977.基于em算法的不完全数据最大似然估计。J. 罗伊Stat. Soc. B39,1- 22。Doersch,C.,2016. ArXiv预印本arXiv:1606.05908。Wrona,T.,潘岛,Gawthorpe,R.L.,Fossen,H.,2018.使用机器学习进行地震相分析。地球物理学83,O 83-O 95。Wu,X.,中国农业科学院,梁,L.,施,Y.,Fomel,S.,2019年。Faultseg3d:使用合成数据集训练端到端卷积神经网络进行三维地震断层分割。地球物理学84,IM 35
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功