没有合适的资源?快使用搜索试试~ 我知道了~
地球科学中的人工智能3(2022)28用于沟道侵蚀敏感性制图的混合机器学习方法:K折交叉验证方法Jagabandhu Roy,Sunil Saha*地理系,古尔班加大学,马尔达,732103,西孟加拉邦,印度A R T I C L E I N F O保留字:K-fold交叉验证冲沟侵蚀敏感性径向基函数神经网络混合集成算法R指数A B S T R A C T沟道侵蚀是阻碍农业发展的重要问题之一采用径向基函数神经网络(RBFnn)及其集成的随机子空间(RSS)和旋转森林(RTF)集成Meta分类器对兴罗河流域的沟蚀敏感性(GES)进行空间映射120条冲沟被标记并分为四重。有效地利用了地形、水文、岩性和土壤理化性质通过RBFnn、RSS-RBFnn和RTF-RBFnn模型构建GES图RBFnn、RTF-RBFnn和RSS-RBFnn模型的极高敏感区分别为Fold-1的6.75%、6.72%和6.57%,Fold-2的6.21%、6.10%和6.09%,Fold-3的6.26%、6.13%和6.13%,盆地第三褶皱为6.05%,第四褶皱为7%、6.975%和6.42%受试者工作特征(ROC)曲线和统计技术,如平均绝对误差(MAE),根平均绝对误差(RMSE)和相对沟壑密度面积(R指数)的方法被用来评估GES地图。ROC、MAE、RMSE和R指数法的结果表明,沟蚀敏感性模型具有较好的预测效果。基于机器学习的模拟结果是令人满意的和优秀的,可以用于预测的易受侵蚀的地区的沟蚀。1. 介绍土壤和水受到土壤侵蚀的严重威胁,这是一个世界性的大环境问题(Arabameri et al.,2020年a)。 长期侵蚀效应是可见的,但短期侵蚀效应可能不明显(Singh和Singh,2018年)。在过去的几十年里,土壤侵蚀的影响迅速增加(Gayen等人, 2019年)。由于在牧场、耕地和森林地区形成溶解和碱性,这些地区的沟蚀率过高(Gar-cía-Ruiz,2010年)。 沟壑侵蚀破坏了土壤生态系统,降低了河流和湿地水的质量(Vanmaercke等人, 2016年; Debanshi和Zhao,2020年)。根据匈牙利的分类,沟蚀是线性侵蚀过程(Ker t'esz,2009)。冲沟有两种类型,即永久性冲沟和短暂性冲沟(Casaleet al.,1999年)。永久性冲沟的定义是被集中的雨水侵蚀的宽阔而深的渠道,这些雨水清除了无法通过正常耕作作业清除的表层土壤和母质。另一方面,短暂的冲沟是由集中的地表径流造成的,可以通过定期耕作活动加以补救(CasalRuman等人,1999年)。当地表径流集中到一条河道中,随着时间的推移,细沟会在地面上形成深沟(Karuma等人, 2014年;Debanshi和Zhao,2020年)。 几个地质环境变量,包括气候、景观、土壤、地质和土地利用,是影响冲沟生长和发生的关键因素(Guerra等人,2018年)。几位研究人员使用岩性、土地利用、坡度、纵横向、平面曲率、水流动力指数、地形湿度指数和长度-坡度因子作为世界不同地区的沟 蚀 诱 发 因 素 ( Conforti 等 人 , 2011; Conoscentiet al. , 2018;Cominoet等人,2016年)。降雨、径流和渗滤的综合作用影响土壤侵蚀力,往往导致沟蚀(Lal,2001年)。 沟蚀在本质上也是三维的,受到各种环境因素的影响(Zhang等人,2015年)。通常情况下,冲沟具有陡边或垂直端墙,宽度大于0.30 m,深度大于0.60 m(Brice,1966年)。岩性、土壤质量、地形、气候、植被和土地利用等因素是形成冲沟的重要控制因素(Ogbonna等人,2011年)。土壤的几个物理化学因素 ,如 质 地 、 土 壤 体 积 、 粘 土 、 沙 子 pH 值 、 电 导 率 、 钠 吸 收 率(SAR)、钠、钙、锰、堆积密度,都影响着冲沟的形成(AsghariSar-askanroud等人,2017年:Hosseinalizadeh等人,2019年)。对于各种侵蚀剂和外力,物理化学因素有助于分离和* 通讯作者。电子邮件地址:jagabandhuroy1991@gmail.com(J. Roy),gmail.com(S. Saha)。https://doi.org/10.1016/j.aiig.2022.07.001接收日期:2022年3月26日;接收日期:2022年7月5日;接受日期:2022年7月8日2022年7月14日在线提供2666-5441/©2022作者。出版社:Elsevier B.V.代表科爱通信有限公司公司这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表地球科学中的人工智能杂志主页:www.keaipublishing.com/en/journals/artificial-intelligence-in-geosciencesJ. Roy,S.Saha地球科学中的人工29图1.一、 研究区域的位置。运输土壤(Dondofema等人, 2008年)。 电导率(EC)和SAR相互作用增加了土壤对沟蚀的敏感性(Shahrivar等人, 2012年)。此外,土壤理化性质的改变不仅会增加沟蚀的敏感性,而且会抑制土壤中植被的生长Nandi和Luffman(2012); Battaglia et al. (2002)根据土壤理化因素评估沟道侵蚀。然而,使用适当的沟道敏感性侵蚀建模(GESM)方法整合众多环境因素对于保护土壤和水是必不可少的(Shit等人,2015年)。在本十年中,机器学习集成方法已被应用于世界不同地区的自然灾害评估。 基于机器学习的模型比传统的常规方法更有效和精确。 集成技术,例如函数分类器及其与Meta、树分类器的集成、多准则决策方法及其与二元和多元统计模型的集成等。应用于沟蚀敏感性、滑坡敏感性、植被敏感性、地面沉降敏感性等制图 (Pham等人, 2019; Gayen等人, 2019;Hosseinaliza-deh等人,2019; Garosi等人,2019; Taheri等人,2019年)。目前的GESM被认为是预防和维护土壤侵蚀的资源管理方法(Roy和Saha,2019;Gayen和Saha,2017)。一些研究人员,例如。Pham等人(2019),应用REPT方法,并与混合机器学习Meta分类器Bagging,MultiBoost,Rotation Forest,Random Subspace进行集成,以绘制滑坡易感性。模型的结果表明,Meta分类器提高了REPTree模型的预测能力 Pham等人(2017)还将MLP 及 其 集 成 与 Bagging , Dagging , Random subspace , rotationforest classifiers 用 于LSM 建模,并发现了类似的结果。 Chen等人(2017)使用ANN、ME和SVM进行滑坡敏感性评估。集成ANN-SVM具有最高的预测性能的评估LSM在其研究。 Hembram等人(2021)使用了类似的方法来绘制对沟蚀的敏感性。在制图时,采用了径向基函数神经网络(RBFnn)、随机子空间(RSS)和旋转森林(RTF)混合集成Meta分类器的集成方法地理信息系统(GIS)和遥感(RS)技术与机器学习算法的结合,为不同类型的自然灾害制图奠定了良好的基础 遥感和地理信息系统是可靠和有效的技术,在预测中小规模的沟蚀方面产生了有意义的结果(Zerihun等人, 2018年)。 对于这种现象,许多地理空间和地理统计方法与GIS集成用于自然灾害建模(Choubin等人, 2019年)。k-fold cross-validation(CV)方法是用于绘制各种自然灾害的统计验证 方法 之一 。K-折叠可能有几种形式,即两重、三重、四重等。Arabameri等人(2020 b)使用四重交叉验证方法来绘制地面沉降的敏感性。 Ghorbanzadeh等人(2018)使用四重验证方法绘制土地沉降和森林火灾脆弱性。在这项研究中,我们使用了J. Roy,S.Saha地球科学中的人工30图二. 显示本工作方法的流程图。图3. 冲沟和土壤采样点的位置。四重验证方法用于绘制沟蚀脆弱性图和选择最佳集成方法。这项研究的目的是检测沟壑侵蚀易发地区在印度东部的兴洛河流域使用混合机器学习集成方法,即RBFnn,RSS和RTF。对于GESM,K-折叠交叉-采用了验证方法。受试者工作特征(ROC),平均绝对误差,均方根误差(RMSE),和相对沟密度(R指数)的方法被选择的GESMs的评价。2. 研究区从地理上看,兴罗河流域占地约442. 95平方米。km,从北纬23° 4207.0900到北纬24°0 56.7800纬度和86 °5 9032.6 80 0E到8 7°2 3031.910 0E的纬度(图1)。①的人。盆地的高度范围从平均海平面7米到235米盆地的气候条件主要受西南季风的影响。潮湿多雨的西南印度季风非常强大,与冬季印度季风相比,风暴根据印度气象部门(IMD)的观测数据,平均降雨量为1326毫米。花岗岩-片麻岩地层、Barakar地层、铁矿页岩地层、石英岩和较年轻的冲积层地质段组成了研究区域(GSI,1985年)。研究区大部分为花岗片麻岩地质建造。较新的地质冲积层非常肥沃,适合农业,水稻、小麦、玉米和甘蔗是该盆地种植的主要作物农业活动是江岸居民基本的、主要的经济活动根据美国农业部1985年给出的土壤质地分类,该盆地由细壤土混合的haplustalf、细壤土混合的plustalf、粘土、粘壤土、砂质、砂质壤土和壤土土壤质地组成(NATMO,2001)。从形态学的角度来看,J. Roy,S.Saha地球科学中的人工31¼¼图四、 照片显示了沟壑的分布:(a)Pindergaria(北纬23°5 901 400,东经8 7°00022),(b)Dainghati(23°5 705 400N,87°0 04500E),(c)Jagannathpur(北纬23°5804 200,东经87°0 104700),(d)海萨坦(北纬23°5 601200,东经8 7°0702 700),(e)西马(北纬23°5 505300,东经8 7°1 301 700),(f)卡德马(北纬23°5 70500,东经87°1303500)。研究区上段坡度较大。最大坡度为35度,位于集水区的西北部。盆地的上部正面临着巨大的沟蚀问题(Ghosh和Shah,2015年)。影响研究区景观的主要侵蚀过程与径流有关。在没有植被覆盖的地方和耕地,陆上径流过程非常活跃。在上游集水区,被红土覆盖裸露地表、赤红壤的存在和径流的共同作用是造成该地区沟蚀的主要原因 在这种情况下,为了土地的可持续管理和减少沟蚀,应考虑采取一些保护措施。 为了流域的可持续管理,首先必须绘制流域内沟蚀的潜在区域,然后应制定战略,优先考虑沟蚀的潜在水平。针对沟蚀问题,采用新的集成方法绘制了沟蚀3. 材料和方法在这项研究中,进行了以下步骤(图)。2)。1. 收集了有关沟蚀和沟蚀调节因子(GECFs)的数据2. 在GIS平台上,采用K折交叉验证(CV)方法,将沟道侵蚀数据集3. 使用多重共线性评估和信息增益比(IGR)4. 提出了一种人工智能径向基函数(RBF)神经网络及其与Meta分类器的集成。 随机子空间(RSS)和旋转森林(RTF)模型被用来产生沟蚀敏感性图(GESMs)。5. 使用随机森林(RF)模型评估GECF的显著性6. 模型的性能进行了分析,使用ROC,统计方法,如MAE,RMSE和相对沟蚀密度(R指数)的方法。3.1. 数据源ALOS PALSAR DEM由阿拉斯加卫星设施部提供。降水数据来自印度气象局最近的降雨站。目前研究区域的地质图是从印度地质调查局收集的。大地卫星8 OLI/TIRS是从美国地质调查局下载的(日期为2108年4月,路径143,第39行),用于提取土地利用图和归一化差异植被指数。土壤质地图是从NSSLUP(国家土壤调查和土地利用)部门获得的J. Roy,S.Saha地球科学中的人工32图五、 地形和水文冲沟侵蚀制约因素:(a)海拔,(b)坡度,(c)平面曲率,(d)收敛指数,(e)地形崎岖指数,(f)降雨量,(g)离河流的距离,(h)地表径流,(i)地表径流长度,(j)地形湿度指数。规划局)。通过野外调查收集土壤样品等原始数据,以评估研究区的理化性质还通过实地调查测量了宽度、深度和面积。通过室内分析测定了土壤pH、锰、磷、钾、铁、有机碳、硫、锌等化学性质。3.2. 沟蚀编目图(GEIM)GEIM是沟道侵蚀评价和模拟的基本前提。 GEIM代表GIS中绘制的沟壑位置。 GEIM是利用全球定位系统(GPS)和Google Earth图像进行实地调查后编制的。高分辨率J. Roy,S.Saha地球科学中的人工33见图6。土壤理化沟蚀调节因素:(a)土壤质地图,(b)土壤深度,(c)pH值,(d)有机碳,(e)锰,(f)氮,(g)磷,(h)钾,(i)硫,(j)锌。J. Roy,S.Saha地球科学中的人工34见图7。 岩性冲沟侵蚀的制约因素:(a)地质图,(b)与线性体的距离。见图8。 研究区域的土地利用/土地覆盖(LULC)图。表1冲沟侵蚀调节因子的多重共线性结果因子共线性分析TOLVIFTOLVIF高程0.3832.611锌0.6621.511斜率0.611.639硫0.5521.812PC0.7381.355氮0.3392.95CI0.7451.342锰0.2284.386三0.5361.866钾0.2314.329Twi0.9091.1磷0.2084.808Lof0.4272.342OC0.3352.985Dist.对河流0.6041.656pH0.2663.759Dist.到轮廓0.9681.033土壤深度0.2424.132降雨0.412.439土壤类型0.6621.511地质0.8931.12地表径流0.2354.112LULC0.9461.057图像可用于获取人类无法到达的偏远地区的沟蚀信息谷歌地球图像分辨率高,能够很好地探测偏远地区的沟壑(Arabameri等人,2020年b)。首先,本集团透过Google earth图像识别冲沟,然后利用全球定位系统(GPS)进行位置核实及宽度、深度及面积覆盖范围测量在研究区,共有120条冲沟见图9。图表显示了IGR计算的GECF的平均价值。已确认(图3)。冲沟多边形转换为点(头切割点)。 同样数量的非沟壑点也随机选择。然后将这些点用于训练和测试模型。一个k倍CV框架(图 2)被选择来消除随机性对机器学习方法的效率的负面影响。四重CV用于将GEIM分为四个折叠(F1、F2、F3和F4),用于建模GESM(图11)。 2)。然后,模型运行四次。例如,用F1、F2和F3数据集运行“t”模型,而对于每一次75%的选择沟和非沟点用于训练模型和25%用于验证训练模型。在现场勘测期间,测量了一些沟壑的几何形状。沟的最大长度为782 m,沟的最短长度为387 m。最大深度为6.5米,最小深度为两米五最大宽度为9.2米,最小宽度为3.5米。J. Roy,S.Saha地球科学中的人工35图10. 由RBFnn构建的GESM:(a)折叠-1,(b)折叠-2,(c)折叠-3和(d)折叠-4。图十一岁 通过RSS-RBFnn构建的GESM:(a)折叠-1,(b)折叠-2,(c)折叠-3和(d)折叠-4。J. Roy,S.Saha地球科学中的人工36-图12个。 通过RTF-RBFnn构建的GESM:(a)折叠-1,(b)折叠-2,(c)折叠-3和(d)折叠-4。表2ROC曲线、MAE和RMSE方法的AUC值培训数据集验证数据集折叠-2在实地测量和调查期间拍摄了一些有价值的实地照片,如图所示。 四、3.3. 有效因子的制备在本研究中,各种环境因素的模拟沟蚀敏感性(GES),包括地形,水文,岩性,土壤物理和化学特性,结合以往的文献。这些因素在GIS平台上构建为空间数据集,通过不同的集成方法进行建模3.3.1. 地形和水文因素沟壑的形成受地形因素的调节(Shit等人, 2013年)。地形因素影响径流的侵蚀力、可能的排放量、水流速度和输送效率(Claps和Rossi,1994年)。存在两种类型的地形属性,即:主要和次要属性。主要地形属性是海拔、坡度、坡向、集水区、平面和剖面的曲率,次要地形属性是SPI、STI、CI、TRI、TPI和TWI(Garosi等人, 2019年)。所有这些地形因子都是使用SAGA GIS工具从PALSAR DEM中获得的。海拔高度是一个重要的沟壑调节因素,它影响沟壑的形成(Gayen等人, 2020年)。在本研究中,盆地的海拔高度是由分辨率为12.5 m*12.5 m的PALSAR DEM得出的。因此,根据PALSAR DEM,海拔从7米到235米不等(图1)。5 a)。排水发展和地表水径流由坡度决定,坡度被认为是沟壑形成的主要解释因素 (Mar-arakanye ,N. , 2016; Hembram等人, 2020年)。在这项研究中,从PALSAR DEM中提取的地图,盆地的最大坡度为31 °(图1)。 5 b)。局部地形的平面和剖面曲率影响了地表径流、地表径流和随后的沟壑形成(Burian等人,2015年)。平面的曲率可以定义为穿过轮廓线上特定细胞的假设线(Evans和COX,1999)。从DEM中提取了该盆地的平面曲率使用SAGA GIS工具(图 5 c)。 收敛指数(CI)将地貌结构显示为一组水道和山脊。这反映了周围细胞的斜率方向与基质的理论方向之间的一致性。CI值分别为100至100(图5d)。地形粗糙度指数(TRI)在冲沟形成过程中的作用。 TRI是地形的形式,它对决定沟蚀速率的水流有影响(Claps和Rossi,1994)TRI的范围从0到82.56(图1)。 5 e)。从印度计量部门收集了各站的降水数据。基于IDW插值方法,统计技术RBFRSS-RBFRTF-RBFRBFRSS-RBFRTF-RBF1倍AUC0.9110.9240.9200.9100.9200.915Mae0.0700.0410.0580.0800.0710.075RMSE0.2650.2030.2410.2830.2660.274AUC0.9230.9390.9250.8950.9100.904Mae0.0470.0420.0420.0400.0390.040RMSE3倍AUC0.2170.9280.2050.9360.2050.9240.1990.9030.1970.9130.2000.909Mae0.0300.0250.0250.0900.0750.080RMSE0.1740.1590.1580.2990.2730.284折叠-4AUC0.9010.9380.8870.9080.9400.923Mae0.0530.0310.0410.0930.0820.083RMSE0.2290.1760.2020.3050.2860.288J. Roy,S.Saha地球科学中的人工37.Σ¼图13岁 使用受试者操作特征曲线下面积验证结果:使用(a)Fold-1,(c)Fold-2,(e)第3倍和(g)第4倍;使用(b)第1倍、(d)第2倍、(f)第3倍和(h)第4倍的验证数据集(预测率曲线)制作了该流域的降雨量图过去五年,该流域的平均降雨量为1326毫米(图1)。5 f)。地形湿度指数(TWI)描述了土壤含水量和饱和度。使用Eq.(1)考虑特定集水面积(A s)和坡度系数(β)(Mohamedou等人,2017年)(图。5 j)。Twi在As(1)谭β兴罗河水系是从SOI收集的开放系列地形图中得出的。在GIS环境下,利用欧氏距离缓冲法制作河流距离图在这个盆地中,到河流的最大距离为2.10公里(图10)。 5 g)。使用以下公式计算陆上急流的长度(2)由Horton开发Lof¼1=2Dd(2)J. Roy,S.Saha地球科学中的人工38×图14个。G E S M 模型的R指数图示:(a)第1次折叠,(b)第2次折叠,(c)第3次折叠和(d)第4次折叠。式中,Dd为排水密度,即每平方米河流的长度公里. Lof的空间分布范围分别为0 - 2.91(图1)。 5 i)。在GIS平台上,采用土壤保持服务(SoilConservation Service,1985)的表面曲线数(SCN)法估算年径流量本研究的地表径流值范围分别为667 mm-1337 mm(图1)。 5 h)。3.3.2. 土壤理化因子土壤理化性质对土壤退化和沟道形成研究区的土壤质地图来自国家土壤调查和土地利用规划局这个盆地由各种类型的土壤组成3.3.4. 土地利用/土地覆被(LULC)另一个广泛调节冲沟形成的重要因素是LULC(Galang等人, 2007年)的报告。 牧场和荒地一般最容易受到沟蚀的影响,因为它们受降水的影响最大,而且地表径流量比植被覆盖区高。植被覆盖的区域可以减少洪水的侵蚀作用(Maugnard等人, 2014年)。一般来说,植被密度和侵蚀率之间存在负相关(Collins等人, 2004年)。本研究利用Landsat 8OLI/TIRS卫星获得了有监督的LULC图。确定了五种主要的土地利用类型,包括农业用地、水根据美国农业部的分类,米X埃德机构,休耕地,植被覆盖区,和定居点或建成区haputalfs,plutalfs,粘土,粘壤土,砂,砂壤土,壤土分别(图。 6a)。在ArcGIS环境中使用IDW方法准备土壤深度(图11)。 6 b)。从土壤样品中测定土壤化学因子,包括pH值,硼,铜,锰,锌,铁,磷,钾,有机碳,氮,硫。选择了0.5 m 0.5 m的狭窄区域,从每个样品的0-20cm深度收集了约1 kg土壤 共收集了106个土壤样品(图1)。 3)。 采集土壤样品后,采用类似标准的实验室分析方法测定土壤化学性质。化学参数的专题图,即pH值,有机碳,锰,氮,磷,钾,硫和锌是在地理信息系统设置(图1)。(六)。3.3.3. 岩性因素利用数字化方法,从地质图No.1编制了地质图73米(比例尺1:50,000),获自印度地质调查局(GSI,1985年)。研究区域被花岗岩-片麻岩、barakar地层、铁矿页岩、石英岩和较新的冲积层覆盖(图7a)。盆地的大部分被花岗片麻岩覆盖。盆地上部为红土覆盖,裸露。结果表明,大部分冲沟都分布在这一地区。本研究的线性构造来自Landsat 8 OLI/TIRS的全色波段-8。利用欧氏距离缓冲法,在GIS平台上生成到线状体图的距离在本研究区,到线性构造的最大距离为1.65 km(图1)。 7 b)。地区(图)(八)。流域的最大部分被农业用地覆盖,其次是植被、水体、建设用地和休闲地。3.4. GECF的选择为了模拟兴洛河流域的沟蚀敏感性,根据以前的文献选择了第一个GECF然后,在用于训练模型之前,使用多重共线性检验和信息增益比(IGR)方法3.4.1. 多重共线性评估在多元回归模型中,线性相关的两个或多个统计变量称为多重共线性。为了消除各种地质环境因素之间高度相关和不适当的因素,以绘制各种自然灾害,广泛使用了公差(TOI)和变异系数(VIF)(Saha 2017;Roy和Saha2019; Arabmaeri等人)。 2020; Sardooi等人, 2019年;Yu等人, 2015年)。VIF和TOL的阈值是<5和> 0.1,高于这些值的因子具有共线性问题(Saha等人,2022年)。3.4.2. 信息增益比对筛选出的24个沟蚀制约因子的预测能力进行了必须从GECF中排除弱和不适当的变量有效因子的选择可为决策者提供决策依据。J. Roy,S.Saha地球科学中的人工39XnL;S nL-公司简介;M表3不同褶皱下GESM模型的R指数值表3(续)型号GES class圆周率%的否% R-模型GES级圆周率像素%沟数冲沟%R--指数皮什埃尔斯沟皮什埃尔斯沟壑指数圆周率中等37263413.15五4.172折叠1高1664615.87 97.59RBFnn非常低129219645.59000非常1975696.97 10184.1788低80450628.3832.51高中度38510013.5943.332高1616075.71411.6714RSS-RBFnn(Tien Bui等人, 2019年。)被不同的研究人员应用信息增益(IG)取决于用于衡量GECF变量重要性的信息理论 它被认为是用于在数据挖掘方法中量化GECF的预测能力的标准技术(Svoray等人, 2012年)。然而,IG有一个自然误差,倾向于支持具有许多可能值的属性,因此可能导致所得模型的可预测性较低(Al-Abadi和Al-Najar 2020)。为了解决这个问题,Quinlan(1993)开发了一种IGR方法,其中IGR值越高,表明因子的预测能力越强它有一个特定的静态公式,在下面的公式中提到,以获得本研究中的GECF训练数据S由n个输入样本组成,n(Li,S)是训练数据S中属于类别Li(山谷,非山谷)的样本的数量。分类S所需的信息(熵)使用等式(1)计算。(三)、2信息日志jSjnLi;SjSj(三)1/1使用等式(4)计算相对于沟壑确定因子A将S分解成子集(S1,S2,M信息S;Aj信息S(4)j1jS j使用Eq.(5)对于给定的冲沟,决定因素A.信息 增益比S AInfoS-InfoS; ASplitInfo的缩写;A(五)其中,SplitInfo表示通过将训练数据S划分为m个子集而生成的潜在信息。SplitInfo用Eq.(六)、SplitInfo公司; A公司-X公司。Sj。日志 .Sj。2(六)j1 jSjjSjRBFnn3.5. 冲沟侵蚀敏感性制图模型3.5.1. 径向基函数神经网络(Radius Basis Function Neural Network,RBFnn)径向基函数神经网络(RBFnn)是一种常见的非线性神经网络。RBFnn的特点是作为一个神经网络与隐藏层。此外,RBF由三层组成,即输入层、隐藏层和输出层。 对于每个单元,输入层将数据或矢量元素转换为隐藏层。中的每个单元低中度51085524169418.028.53241.673.3313隐藏层然后根据相关联的RBFnn激活。的高1191374.254.176输出层最终计算隐藏单元的线性组合非常高1819056.4210587.589激活。RBFnn模型对输入的学习性能模式x在分类情况下如下(Yavari等人,2019)(等式(7)):2非常高非常低19128114563406.7551.3899082.584模型结果的精确和适当预测(Ngo等人, 2018年)。的模糊粗糙集等各种数据挖掘方法的预测能力低72949425.7332.51套(Liu,2007.), Relief-F(Park等人, 2019年)和信息增益比中度32078811.3221.671高1418615119.1712非常1862076.5710486.6786RTF-高非常低128359245.28000RBFnn低81178728.6421.670中度38543013.632.51高1632625.761411.6714折叠-2非常高1906196.7210184.1785RBFnn非常低187894666.2821.670低44875015.8343.331中度2227207.8675.834高1081063.811714.1722RSS-非常高非常低17616820083426.2170.85903752.5720RBFnn低35487412.5254.172中度1993347.0354.173高996123.511512.521RTF-非常高非常低17252820093356.0970.8892276.671.67740RBFnn低35321912.46652中度1992247.0343.333高1000533.531714.1723折叠-3非常高1728596.19175.8372RBFnn非常低158066255.7610.830低67378623.7732.51中度2826209.97653高1201304.241613.3319RSS-非常高非常低17749218762986.2666.1994278.331.67770RBFnn低45139715.9221.671中度2328698.2143.332高1017083.591411.6719非常高1724186.089881.6778RTF-非常低190222267.1121.670RBFnn低41455314.6221.671中度2378338.39654高1062313.751512.520折叠-4非常高1738526.139579.1776RBFnn非常低126660444.6810.830低82248729.0243.331中度38112813.4543.332高1661305.86119.1711RSS-非常高非常低1983411781099762.83100483.333.33860RTF-非常低123295843.510.830RBFnn低86506730.5243.331J. Roy,S.Saha地球科学中的人工40ð Þ ¼2 f-gy2f-1;1gB---X图15. 显示全球环境安全措施百分比分布的图表:折叠-1,b. Fold-2,c.折叠-3,和d. 四倍表4使用RF模型的GECF的平均下降Gini值在下文中陈述的投票(Shirzadi等人, 2017)等式(八)、βxargmaxXδsgnCbxy(8)其中,克罗内克符号是δi;j。它源于符号Jacobi对所有实体的推广(Pham等人, 2019年)。y1; 1 被 视为 存在沟壑和非沟壑分类器,而组合分类器为Cb x;b1; 2;:;B;。样本多数表决有助于最终决策规则的形成。fixwkiθkx-αkk(7)k¼1其中m和wki是隐藏层和输出层之间的数字和集成权重,而αk和θ是RBFnn中心和高斯函数。在训练数据集上使用随机选择来识别密钥秘密单元中心。此外,网络中所有方差参数的主要值被设置为任何一对聚类中心之间的绝对欧几里德平方距离。3.5.2. 混合系综模型3.5.2.1. 随机子空间(RSS)分类器。随机子空间分类器(RSS)是一种重要的混合集成和并行学习算法。Ho(1998)提出了随机子空间(Random sub-space,RSS)。对于该算法,使用子集的优化来组合分类器的多个决策。这些函数空间子集是从训练分类器(沟壑清单数据集)中随机选择的。相比之下,随机子空间(RSS)的集成方法通过集成算法与其他方法区分开来,因为它由多个样本数组成(Pham等人, 2020年)。原始特征空间的分类在第一阶段通过子集L的q维训练完成在这项研究中,RBFnn作为基本分类器应用于该算法中的每个子集。最后,基本分类器的整合从加权多数中提取3.5.2.2. Rotation Forest(RTF)分类器。Rodriguez等人(2006)提出了一种常用的混合集成技术--旋转森林(RTF)。 它被认为是加强较弱分类器的重要技术(Ozcift 2012)。 RTF使用主成分分析(PCA)来分析大型多变量数据集,以降低其维度(Jolliffe 2002),并将原始训练数据集拆分为子集,然后用于训练分类器。它在各个分支和领域都有很大的应用,例如: 医学(Ozcift和Gulten,2012年)和遥感数据分类(Xia等人, 2014; Kavzoglu和Colkesen,2013)作为有效和强大的机器学习集成技术。 RTF还用于灾害建模,特别是滑坡敏感性建模(Pham等人,2017年)的报告。Rodriguez等人(2006)提出了旋转森林(RTF),这是一种常见的混合集成技术。它被认为是加强较弱分类器的重要技术(Ozcift 2012)。 RTF使用主成分分析(PCA)来分析大型多变量数据集,以降低其维度(Jolliffe 2002),并将原始训练数据集拆分为子集,然后用于训练分类器。 它在各个分支和领域都有很大的应用,例如: 医学(Ozcift和 Gulten,2012 年)和 遥感 数据 分类(Xia 等人 ,2014;Kavzoglu和Colkesen,2013)作为一种有效而强大的机器学习集成技术。 RTF还被用于灾害建模,特别是滑坡可预测性建模(Pham等人,2017年)的报告。3.6. 用随机森林(RF)模型RF机器学习技术是分类和回归树(CART)的修正形式Breiman(2001)介绍了RF。可作为基尼系数平均下降高程9.76锌9.136斜率6.876硫6.169PC2.559氮7.843CI4.512锰10.3三7.302钾7.436Twi10.758磷9.46Lof11.715OC6.453博士4.45pH7.472DL4.645土壤深度9.421降雨7.594土壤类型2.91地质2.013地表径流8.071LULC22.149MJ. Roy,S.Saha地球科学中的人工41联系我们¼¼公司简介¼¼¼¼Npred:X行动:解决分类和回归问题的有效模型(Kuhnert等人, 2010年)。 它是对自举聚集的重大改革,属于集合模型家族(Jaafari和Pour-ghasemi,2019)。 RF算法分两个阶段进行:1)RF模型使用自举采样技术随机地建立约所有观察值的2/3的训练集,并为每个训练集创建树(Youssef等人,2016年)。在构建训练集期间未使用的所有观察值中,约有1/3将在自助抽样期间用作测试集,称为袋外样本(OOB),可用于确定误分类错误和估计。估计预期的预测准确性(Youssef等人,2016年)。实际上,OOB中的误差可以用作泛化误差度量。(2)节点3.7.2. 统计技术对于该分析,应用MAE和RMSE等统计技术进行模型的准确性评价Garosi等人(2019 a,b); Saha等人(2020)使用这些方法分析了沟道侵蚀建模的性能。MAE定义为预测值与实际值之间的差值之和MAE的平方根称为RMSE。根据公式(14)和(15)计算MAE和RMSE。1nMAE¼. Y-Y。(十四)1/1每棵树的最优解应按最优解变量进行划分,从输入的解变量中随机选取子集。在每个节点上随机选择解释变量,RMSE¼是的,是的。ffiffiYffiffipffiffirffieffiffidffiffiffi-ffiffiffiffiffiYffiffiffiafficffiffitffiffiΣffiffi2ffiffiN(十五)森林中任何一对树木之间的影响;因此,提高了森林错误率。 关于RF模型的更多细节可以在Breiman(2001)、Palczewska et al. (2014)和Oshiro et al. (2012年)。在我们的分析中,使用R3.5.1程序中的“随机森林”包3.7. 验证技术应用ROC曲线、MAE、RMSE和相对沟道密度(R-Index)等统计方法对GESM进行了合理性和准确性评价。3.7.1. ROC曲线受试者操作特征(ROC)曲线是用于模型性能分析的公知方法(Arabameri等人,2020 b; Gayen等人, 2020年)。 曲线下面积(AUC)涉及模型的理论准确性(Youssef等人, 2016年)。因此,这项技术被应用于各种自然灾害测绘,例如沟蚀敏感性(Saha等人, 2020;Arabameri等人,2020 b; Debanshi和Kazakh,2020);地面沉降敏感性(Ghorbanzadeh等人, 2018)、地下水潜力(Saha 2017)、滑坡易感性(Meena等人,2019),细沟-间细沟易感性(Bosino等人,2020)以及对真菌的易感性(Arabameri等人, 2020a)映射。ROC曲线具有对模型性能进行分类的特定截止值(Hembram等人,2021年)。根据公式(11)-(13),通过真阳性率(灵敏度
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功