没有合适的资源?快使用搜索试试~ 我知道了~
地球科学中的人工智能2(2021)215印度尼西亚洪水敏感性评估中使用人工神经网络Stela Priscillia,*,Calogero Schillacib,Aldo Lipaniaa联合王国伦敦大学学院土木、环境和地质工程系b欧洲联盟委员会,联合研究中心,意大利A R T I C L E I N F O保留字:雷达遥感地形DEMCNN分段泛洪水A B S T R A C T洪水事件可能会严重破坏和扰乱城市经济或治理核心。然而,可以通过活动规划和全市范围的准备工作来减轻灾害风险,以减少损失。为了让政府、公司和平民做好准备,需要对疾病易感性进行预测。 为了预测食物的易感性,已经确定了九个环境相关因素。它们是海拔、坡度、曲率、地形湿度指数(TWI)、离河流的欧氏距离、土地覆盖、水流动力指数(SPI)、土壤类型和降水量。 这项工作将利用这些与环境相关的因素以及Sentinel-1卫星图像进行模型相互比较研究,以反向预测雅加达260个关键地点2020年1月历史性木材事件的木材敏感性。对于每个地点,本研究使用当前的环境条件来预测下个月的牲畜状况。考虑到在训练集上的少数类和非少数类之间的不平衡性,采用了合成少数类过采样技术(SMOTE)来平衡训练集中的两类。这项工作比较了人工神经网络(ANN),k-最近邻算法(k-NN)和支持向量机(SVM)的预测与随机基线。还通过在平衡和不平衡数据集上训练每个模型来评估SMOTE的效果人工神经网络被认为是优于其他机器学习模型。1. 介绍与其他气象驱动的自然灾害相比,洪水是最具灾难性的现象之一,因为它可能导致全球范围内的财产和死亡的大规模破坏(Hinkel,2020年;Tehrany等人, 2015年)。 印度尼西亚是一个在其大部分省份都存在重大粮食风险的国家,爪哇岛、巴厘岛和苏门答腊岛是最大的风险地区(Bappenas,2010年)。雅加达,正式称为雅加达特别首都区,是印度尼西亚的首都,位于爪哇岛。雅加达在662.2平方公里的区域拥有超过1000万居民(截至2019年),因此雅加达是印度尼西亚人口最稠密的省份(BPS雅加达,2019年)。自公元5世纪以来,雅加达就被认为是危险的(Widya-ningrum,2019),现代雅加达仍然处于危险之中,因为它位于一个三角洲平原上,13条天然河流和1400多公里的人造水道纵横交错。该市约40%的地区低于海平面,这导致了粮食风险(Baker,2012年)。包括气候变化加速海平面上升、极端气象事件以及多种原因造成的地面沉降在内的一系列因素正在恶化雅加达的粮食风险(Abidin等人, 2011年;世界银行,2019年)。2020年1月1日,雅加达遭受了自1866年有记录以来最强烈的降雨事件(峰值为377毫米/天)(BMKG,2020)。这场持续数天的降雨导致了大范围的洪水,造成16人死亡,30,000多人流离失所(BNPB,2020年)。疫情的严重程度令政府官员措手不及,大量受影响的人使印度尼西亚的主要经济和政治中心陷入瘫痪。因此,为了减少这类事件并及时做好准备,最重要的是发展预测和评估雅加达最容易发生爆炸的地区的能力。近年来,机器学习模型,特别是人工神经网络(ANN),越来越多地用于作物易感性建模。先前的研究已经使用降水和其他环境因素作为ANN的输入,并输出水位和推断的植被图(Kia等人,2012年)。虽然之前提到的洪水事件主要是由强降雨引起的(BMKG,2020),但一系列研究人员已经证明,其他几个因素也导致了该地区的灾难性洪水这些因素包括海拔、曲率、水流动力指数(SPI)、地形湿度指数(TWI)、土壤类型、与河流的距离等(Kia等人, 2012; Teh-rany等人, 2015年)。* 通讯作者。电子邮件地址:ucl.ac.uk(S. Priscillia),calogero. ec.europa.eu(C. Schillaci),aldo. ucl.ac.uk(A. Lipani)。https://doi.org/10.1016/j.aiig.2022.03.002接收日期:2022年1月6日;接收日期:2022年3月19日;接受日期:2022年3月19日2022年4月8日网上发售2666-5441/©2022作者。出版社:Elsevier B.V.代表科爱通信有限公司公司这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表地球科学中的人工智能杂志主页:www.keaipublishing.com/en/journals/artificial-intelligence-in-geosciencesS. Priscillia等人地球科学中的人工智能2(2021)215216有几个因素可能导致肥胖,这些因素已被用作固定和时间属性来预测肥胖易感性。然而,它仍然是未知的,如果这些因素相结合,并输入到一个人工神经网络模型将能够创建一个可靠的结果,可以预测雅加达的烟草易感性。因此,这项工作的作者试图开发一套机器学习模型,使用这些环境因素作为输入来预测雅加达的烟草易感性,但以一种新颖的方式与时间方面。一种新的实验方法被用来预测木材的可湿性。 常用的环境危险因素(Tehrany等人, 2015年; Shaanxi,2020年)已用于分类任务,以使用所有历史记录预测多个地区的森林易感性。新的补充是,与这些作物易感性研究不同,降雨时间序列已被包括在内,允许每个地区每个月的易感性预测。这一时间因素与Kia等人的研究相似。(2012),其在回归任务中利用相同的环境洪水风险因子和降雨时间序列,在使用ANN时预测研究区域底部的洪水过程线。这些洪水预测然后可以转换为河流水位(水位)读数,然后用于通过地理信息系统(GIS)中的“浴缸方法”推断洪水区域。由于缺乏测量数据,这种方法在雅加达研究区是不可能的(Kure等人,2013年)和基于上游水位的预测提前期不足(Miyamoto等人, 2012年)。因此,本研究使用人工神经网络和其他ML跳过对过程线的预测,直接预测一个地区是否被淹没。这项工作旨在创建一个工具,可用于优先分配城市官员的粮食防御资源,并在预测极端降雨时告知平民粮食风险。 这项研究还旨在通过比较:ANN,k-NN和SVM模型与随机基线来找到最佳模型。在自然灾害易感性建模中,鼓励采用本工作中提出的新方法(Chen等人,2019年a),因为关于什么是最好的建模工具没有普遍的共识(Chen et al.,2019年b)。伊斯兰等(2021)中概述了先前在乳腺癌易感性研究中使用的模型。这项工作包括三个主要课题:研究区域的环境粮食风险因素,用于监测粮食的Sentinel-1合成孔径雷达(SAR)图像,以及用于预测粮食易感性的2. 材料和方法2.1. 环境粮食风险因素环境粮食风险因素可按其时间上的静态性或动态性进行划分在类似研究中确定的八个静态因素(Kia等人, 2012; Tehrany等人, 2015; Vojtek,2019)是(见图。 1):海拔、坡度、曲率、水流动力指数(SPI)、地形湿度指数(TWI)、离河流的距离、土地覆盖和土壤类型。确定气候敏感性的主要时变因素是以每日时间步长记录的降水量(Bappenas,2010)。抬高。 它是决定土地是否易受森林砍伐的关键因素。 数据来源为国家DEM(详见表1). 与低海拔地区相比,高海拔地区不太可能长满树木(Botzen等人, 2012年)。在全球范围内,低洼地区的森林砍伐频率更高,对于海拔10米以上的城市,每年的大森林砍伐风险平均约为4.9%(Kocornik-Mina,2016)。这是一个更高的平均每年的机会,比城市位于10 mamsl以上,只有1.3%的机会,每年的oodbuding(Kocornik-Mina,2016)。坡度它被计算为海拔的一阶导数,是影响森林风险的另一个关键地形衍生因素(Tehrany等人, 2015年)。 随着地面坡度增加,径流更快地下坡,这导致可用于表面过滤的时间减少(Schillaci等人, 2015年)。地表渗滤的减少使更多径流进入河流和排水系统,可能是确定粮食风险的最关键因素(Vojtek,2019年)。斜率曲率。坡度的曲率是高程的二阶导数,它在确定边坡的敏感性方面起着重要作用。曲率包含水的侵蚀特征的信息,包括地形控制的径流条件,Fig. 1. FIX属性的光栅图像S. Priscillia等人地球科学中的人工智能2(2021)215217¼表1环境因素的总结。因素说明来源覆盖1公里空间分辨率的产品,可从http://earthexplorer.usgs.gov/查阅。 洪水可能性和高植被密度区域已被注意到呈负相关(Tehrany等人, 2015年)。高程地形剖面表示为参考基准面以上的高度。坡度高程的一阶导数。坡度曲率高程的二阶导数。TWI基于上游贡献面积原则的湿度可能性度量。Twilnαtanβα(m2m-1)为单位等高线长度上某一点排水的局部上坡面积。tanβ(弧度)是局部斜率梯度。(Kirkby和Beven,1979; Moore等人, 1991年)。一种衡量侵蚀过程中水流强度的指标。SPI¼α×tanβα和tanβ同上2015年雅加达DEM来自雅加达地区救灾局(BPBD)Geoportal。来自雅加达DEM。来自雅加达 DEM 。 来 自 雅 加 达DEM。来自雅加达DEM。植被覆盖区的雨水截留和过滤率较高,导致地表径流减少 相反,无植被地区往往有较高的地表径流,因此更大的植被覆盖率(李等人, 2012年)。 植被减少或城市化的情况已被证明与植被频率和损害成本呈正相关(Adnan等人, 2020年)。土壤类型根据控制径流率的相同原理,土壤类型是影响作物敏感性的另一个重要因素。数据来源是粮农组织1:5 000 000比例尺的世界土壤图该项目历时20年完成,使用土壤分类框架对土壤单元进行分类,可从https://www.fao.org/soils-portal/data-hub/soil-maps-and-databases/faounesco-soil-map-of-the-world/en/. 然而,在雅加达研究区,土壤类型的土壤沉降机制是通过不同土壤的不同沉降速率来实现的(Abidin等人, 2011年)。冲积土的自然固结加上施工产生的重荷载,导致沉降期间土壤高度压缩(Abidin等人,2011年)。除了降低海拔外,沉积物的压缩导致渗透减少(Herda Adeline等人, 2020年),因此,Dist. 欧几里得平面距离(River Euclidean planar distance)源自雅加达河图像来源:BPBD GeoportalAlcohooding(van Leeuwen等人, 2019年)。降水时间序列。与上述八种LC对研究区全球土地覆盖特征土壤类型雅加达地区的土壤单位,初始土; OXisol;Ultisol;腐植土;组织土。USGS,https://www.usgs.gov/special-topics/land-use-land-cover-modeling.粮农组织数字土壤图报告,多边形栅格化,比例尺1:5000000。降水的最终因素是一个时间因素。根据印度尼西亚国家地图集(ANI),爪哇的极端降水率高达400毫米/月(Bappenas,2010年)。如前所述,2020 年 1 月 的 暴 雨 发 生 在 该 市 自 1866 年 以 来 最 极 端 的 降 雨 期 间(BMKG,2020)。此外,降水时间序列雅加达月平均降雨量2015年11月至2020年12月。印度尼西亚通讯社气象学、气候学和地球物理学数据库。雅加达从1900年到1970年增加了100毫米 这些月增长在全年以及降雨高峰期保持一致(Bappenas,2010年)。最后,在洪积和洪积植被中,输入系统的水的速率驱动系统的响应。集水区因此,降雨强度已被纳入作为一个时间序列在类似的研究中发现与乳腺癌易感性正相关Mind'je等人, 2019年)。流功率指数。水流功率指数(SPI)是侵蚀过程中水流强度的度量。SPI由集水水文过程、水力通道几何形状和水的质量浓度、剪切应力、水位间隔、气候和基岩可蚀性等因素决定(Mrsawan等人,2021年)。SPI将根据每个位置的坡度和上游贡献面积进行地形湿度指数。地形湿度指数(TWI)是基于上游贡献面积原理的湿度可能性度量TWI是通过空间分布的地形模型或通过使用从这些模型导出的等高线来计算的。TWI也被证明是住宅开发规划中易发生火灾地区的早期指标(Pourali等人,2016年)。TWI的更高级应用包括使用最大似然估计程序的计算方法(Motevalli和Vafa-khah,2016)。在这项研究中,TWI被证明是水力建模的一种有用的轻量替代方案,因为观察到TWI与水力模型的水深之间的高度相关性(Motevalli和Vafakhah,2016)。距离河流。 在天然集水区,与河流或水体的距离已被证明是影响土壤易受污染性的最主要因素(Giovannettone等人, 2018年)。 在排水更复杂的城市化集水区,距水体的距离仍然是仅次于高程的第二重要因素(Giovannettone等人,2018年)。洪水易感性机制涉及水体必须生长以侵占土地的平面距离,其中区域越靠近河流或水体,该区域越有可能发生洪水(Glenn等人, 2012年)。土地利用土地覆盖。全球土地覆盖特征(GLCC)是另一个可能与作物易感性有关的因素数据来源是美国地质调查局(USGS)全球陆地而不是作为“静态”的年/十年平均值。研究区域的时间固定环境风险因素见图10和图11。1和2.图二、Sentinel-2020年1月1日(平均值)。S. Priscillia等人地球科学中的人工智能2(2021)215218我2. ..2≥J2- 羟丙基甲基纤维素1当yjy我1K我1L2.2. 哨兵1号卫星图像Sentinel-1 C波段雷达成像卫星的图像已被用于在2020年1月的洪水事件期间提供洪水范围信息。这种主动式遥感系统在白天和夜晚都提供定期覆盖,并且不受云层覆盖等大气过程的影响,因此已被广泛用于监测干旱 事 件 ( Conde 和 Munoz , 2019 年 ; Tsyganskaya 等 人 , 2019;Martinis等人,2018; Qiu等人, 2021年)。Sentinel-1图像来源于Google Earth Engine(GEE,Gorelick,2017)。使用GEE云平台的数据目录允许对研究区域进行快速和计算性的光访问。这些特征意味着GEE适合于紧急响应应用,并且它已经以一系列格式用于紧急响应系统中(Cheng-Chien等人, 2018; De Vries,2020; Pourghasemi等人, 2021年)。Sentinel-1影像已被纳入作为输入变量,因为可以被模型用作传感器,数据可以被映射到更高维的空间中。已经发现在许多问题领域中成功的一个这样的核是径向基函数(RBF)核(Yao等人,2008),其中,表达式γx i-x jj <$。RBF核具有可调参数(γ)控制决策边界上单个数据点的核宽度和影响范围(Chang和Lin,2011)。2.3.2. k-近邻算法k-NN模型只是根据训练过程中观察到的最相似的数据点对新数据点进行分类。 多个相邻点可以通过距离加权得分或多数投票来测量相似性(Cunningham和Delany,2007)。新实例属于类的概率对应于具有每个类标签的k个最近邻点的比例,如下所示,Ω0是x的k个最近邻点的集合(Aristizabal等人, 2020年)。PY<$yjX <$xXI. y¼yΣ水在研究领域。这是通过非城市化地区的土壤湿度,植被强度,以及2000万美元JjεΩ0开放的水体。前期土壤湿度或渠道容量条件是特别重要的,在确定的反应,在那里我。你是谁?0当yjy连续降雨事件期间的面积(Truckenbrodt等人,2019年)。每个月的Sentinel-1场景被平均,因此每个单独的pix el的值是不同的。2.3. 用于分类的机器学习(ML)是一组计算算法和统计模型,旨在从其环境中学习(Naqa和Murphy,2015)。在监督学习范式下,模型通过经验学习来提高其在给定任务中的性能 以下模型通常用于预测分类任务,并简要概述了其学习机制。这些模型是支持向量机(SVM),k-最近邻算法(k-NN)和人工神经网络(ANN)。2.3.1. 支持向量机SVM是适用于两类分类问题的模型,并且基于结构风险最小化的原理(Belousov等人, 2002年)。 SVM旨在创建一个超平面,以在n维空间中分离两个类别,如由n属性所确定的(Marjanovic等人, 2011年)。SVM可以在数学上表示为原始优化问题(Chang和Lin,2011):最小T Xε可调超参数k是要查询的相邻数据点的数量,通常通过使用N的平方根来确定,其中N是数据集中的点的数量另一个需要调整的超参数是用于查找最近数据点的距离度量。已经测试了四个距离度量。它们是欧几里得距离、曼哈顿距离、余弦距离和闵可夫斯基距离。Alfeilat et al. (2019年)。2.3.3. 人工神经网络ANN是复杂的ML模型,由互连节点(或神经元)的网络组成。 每个神经元接受一个特征值向量作为输入。然后,它将权重的列向量乘以这个输入向量,并添加一个名为bias的额外权重。最后,将该乘法的结果输入到激活函数,并将其结果作为输出返回。在连接的神经元网络中,信息在每个神经元之间从模型输入流到模型分类输出。 通过合并多个神经元来构建任意宽度和深度的网络,可以根据问题的复杂性构建任意复杂度的ANN。网络结构只是可调超参数之一(Atkinson and Tatnall,1997)。 其他超参数包括每个神经元内用于将输入组合成输出的激活函数(Kia等人,2012年)。通常使用Sigmoid函数(Bishop,1994)。其他激活功能,在超参数调整过程中进行了测试,包括:身份,逻辑,w; b; εww2我1/1ReLU和Tanh函数(Agatonovic-Kustrin和Beresford,2000)。每个神经元的权重在训练过程中通过满足yib ≥1 -εi;εi≥0;i<$1;其中,y_t响应向量可以取值1或1。Φxi将每个属性xin映射到更高维的空间。C0是误差项的惩罚参数。除了找到类之间的最大分离裕度(Pradhan,2013)之外,SVM的一个独特优势是可以为非线性可分离问题指定对错误分类的容忍度。软余量容限的宽度是可调的成本(C)参数,其中具有较窄余量的决策边界利用较少的数据点(支持向量)来分离两个类。解决非线性问题的另一种方式是通过在SVM中采用非线性内核来绘制非线性决策边界(Cao等人, 2008年)。通过将xT xj项替换为核函数kxTxj,反向传播ANN的另外两个超参数是学习率和α正则化项。学习率控制训练过程中神经元权重更新的大小(Gurney,1997)。α正则化项约束权重的大小,以防止过度拟合训练数据(Gurney,1997)。由于人工神经网络在对解释变量和目标变量之间的非线性关系进行建模方面的鲁棒能力,人工神经网络在一系列问题领域中受到青睐(Kia等人,2012年)。 ANN与其他两种ML模型不同,因为ANN在具有许多层时可以自动学习新特征(深度学习)。SVM和k-NN模型将每个数据点的属性视为具有相等权重的向量。这意味着这两个学习器可能会受到维数灾难的影响(Bellman,1958),但也不能像ANN那样进行上下文感知的预测。这就是在参数空间的不同上下文和区域中,不同属性可以具有不同级别的地方S. Priscillia等人地球科学中的人工智能2(2021)215219þ三磷酸腺苷¼-1/4对最终预测的重要性(Anderson-Bell等人,2021; James等人, 2021年)。2.4. 方法2.4.1. 实验设计该模型将每个月(T)的环境因素和粮食风险因素作为输入,并将预测下一个月(T1)某个地点是否出现粮食危机输入属性范围为2014年11月至由于计算资源有限,而不是在研究区域的每个网格单元运行模型五年,建模是在村庄的多边形行政单位进行的。 雅加达由260个行政村组成,如图所示。 3.为了证明模型比随机模型更好,将它们与随机基线进行比较,即,随机猜测一个地点是否被覆盖 该模型代表了ML模型在二进制分类任务上可以达到的理论最差性能。2.4.2. 数据准备由于只有月降水量数据可用,因此按月时间步长进行建模。 选择该单元允许包含Sentinel-1复合图像,因为每年每个月的采集日期都不同。对于2014年11月至2020年12月之间的每个日历月,可用的Sentinel-1场景已平均为每月合成。 由于雅加达季风季节(BMKG,2021年)的气象信号强烈,每个月可大致分为“旱季”(5月至9月)或“雨季”(6月至4月)。数据集的标签通过与BMKG的私人通信提供。每个行政村地区每月被划分为森林覆盖或非森林覆盖。将260个村庄的质心与静态环境风险因子进行匹配,以分配每个村庄的属性。将每个村庄质心的时间降雨量值和时空复合Sentinel-1值相加,以创建每个村庄的月时间序列。每个村庄的10个属性时间序列已合并为单个数据集,示例如下所示。由于所使用的模型无法处理缺失值,因此删除了没有完整属性值的记录 这导致了2014年的代表性不足,只有两个月(11月和12月)包含完整的数据。 这导致数据集略小(约0.08%)。我们检查了变量共线性,变量之间只有中度相关性(0.63)由于模型使用时间和固定变量进行预测,因此未评估时间自相关性由于属性之间的原始值范围很大,因此所有模型都使用了最小-最大缩放来提高模型性能,特别是对于ANN。 这是必要的,因为当实现特征缩放或归一化时,梯度下降算法收敛得更快(Ioffe,2015)。2.4.3. 模型训练最终的18,965条记录的数据集(在表2中我们显示了两个样本)被分为三组:训练集,验证集和测试集。训练集和验证集是从2014年至2019年的73个月的记录中随机抽样的,分别占完整数据集的67.93%和16.98%。测试集是根据2020年12个月的记录创建的,占完整数据集的15. 08%由于非正常情况并非每天都会发生,因此组合的训练和验证数据集包含了非正常类(91.15%)的实例明显多于正常类(8.85%)的不平衡。由于高度不平衡的训练数据集会产生有偏见的分类器(Jiawei et al.,2012)合成少数过采样技术(SMOTE)(Chawla等人, 2002年),以过抽样少数类的相同的患病率作为多数类。SMOTE首先识别属性特征空间中附近的少数类的例子其次,SMOTE在它们之间画线,并沿着这些线采样新的合成点 新的例子被生成为两个选定的例子的组合。这种方法的一个缺点是,如果两个类在属性特征空间中重叠,可能会创建模糊的示例。 更多信息请参见Chawla et al. (2002年)的报告。所有SVM和k-NN模型超参数都通过网格搜索进行了调整,使用了结合训练集和验证集的5折交叉验证由于ANN需要更长的时间来训练,因此已经通过使用验证集来执行关于调整后的超参数的详细信息,请参见表3和表42.4.4. 性能度量考虑到我们想要预测的自然现象的稀疏性-数据F1分数是精确度和召回率的调和平均值,0是最差值,1是最佳值。精密度定义为真阳性的预测阳性样本比例召回率是被正确预测为阳性类别的真阳性下面我们报告用于计算精确度、召回率和F1分数的公式,其中我们认为正类是健康情况:精度 ¼TP召回TP;TPFFNF1得分2 TP 2TP FP FP FN精确度*召回率1/42精确度和召回率;图三. 研究区域内260个村庄的分布情况。每个点都是一个多边形的质心.其中TP、FN和FP是真阳性、假阴性和假阳性。S. Priscillia等人地球科学中的人工智能2(2021)215220þ表22014年11月期间,数据集中两个不同村庄的两个示例记录长Lat年Mon.备选.斜率曲线SPITwi土壤瑞夫Dist.LULC降水量Sentinel-1洪水XXXX201411122.50.80.2893913130.613.451XXXX20141198.90.3-1.1-4431319130.616.830表3已调优超参数列表。模型调整超参数k- NN● 重量:均匀,距离● 邻居数量:范围1● 距离度量:欧几里得,曼哈顿,余弦,闵可夫斯基SVM●核函数:线性,RBF● C:范围1ANN●隐藏层大小●最大时期●激活函数●学习速率:自适应或固定表4每个模型中使用的最优超参数调整的Hyper参数实现数据集不平衡训练数据平衡训练数据k-NN●权重:距离●权重:距离● 邻居数量:1● 邻居数量:4● 距离度量:余弦●距离度量:曼哈顿SVM●核:线性,RBF●核:线性,RBF●C:9● C:10ANN● 隐藏层大小:1个隐藏层,20个节点● 最大epochs:400● 激活函数:logistic sigmoid● 优化器:Adam● α:0.01●学习率:自适应3. 结果以下结果报告了使用SMOTE在原始不平衡数据集和平衡数据集上训练的模型。这样做是为了评估SMOTE对三种模型的影响。模型结果在训练集、验证集和测试集上呈现。随机基线的结果也一并列出。在表5中,我们观察到使用不平衡数据集的所有模型的性能都很差。特别是,SVM和ANN都不能泛化,并且总是学习预测没有神经网络。当在平衡数据集上训练时,发现ANN的性能最高(0.45 F1),也是唯一一个比随机分类器(0.24F1)性能更好的模型4. 讨论SMOTE对重新平衡训练数据集的影响在预测异常时很重要。当比较用不平衡集与平衡集训练的ANN时,这种技术的效果是明显的。然而,这与SVM和k-NN模型形成鲜明对比,其中重新平衡训练数据没有任何显著影响。当在重新平衡的数据上训练时,k-NN模型在预测健康方面的表现最低限度地更好,而k-NN模型对于非健康类的得分保持不变。在SVM模型中,当在平衡数据集上训练时,两个类的得分保持不变。我们观察到的验证集和测试集之间的性能差异可能归因于验证集由2014年至2019年的数据点组成,而测试集仅由2020年另一个造成这种差异的原因是,表5模特表演。请注意,测试集永远不会过采样。不平衡集平衡集(带SMOTE)模型度量列车有效。测试列车有效。测试随机P––0.15––0.15R––0.52––0.52F1–_0.24––0.24k-NNP1.000.330.561.000.870.32R1.000.310.011.000.960.02F11.000.320.021.000.920.03SVMP0.730.920.000.770.760.00R0.030.050.000.860.860.00F10.060.090.000.810.800.00安P0.000.000.000.940.670.37R0.000.000.000.660.750.59F10.000.000.000.750.710.452020年比以往更高如果用于测试的数据分布与用于训练的数据分布不同,ML模型很难如果ML模型被用于实际场景中,重要的是要认识到这一限制并定期重新训练模型。总的来说,只有人工神经网络能够比随机更好地预测洪水,这表明通过使用这个模型,我们可以预测哪些村庄在未来一个月容易发生洪水不幸的是,这部作品的新颖性限制了它与更广泛文学的可比性 虽然所使用的环境输入因素在ML木材易感性文献中很常见(例如,Kia等人,2012年; Shaanxi,2020年; Tehrany等人, 2015年)预测随时间变化的乳腺癌易感性分类的设置是新颖的。人工神经网络的更高性能被怀疑是由于所面临的分类问题的复杂性:首先,这个问题是非线性的,适合于混合效应模型,其中输入变量和输出之间的关系在空间(每个村庄)和时间(季风周期中的月份)上都有变化。其次,当用T月的环境粮食风险因子预测T1月的粮食状况时,与下一个月的粮食状况的关系的强度将根据该月在季风循环中的位置而变化。在接近季风高峰的月份中,与接近旱季高峰的月份相比,相同的降雨量预计与更大的降雨量相关该模型可能会在未来得到改进,这项工作提供了一个概述的人工神经网络的应用程序与选定的属性是严格相关的货物在一个地区,在过去遭受类似的事件。在雅加达,每年对所有村庄的洪水风险进行预测。 数据显示,所有村庄在2020年的所有月份都有中等风险。使用一个可以每月对每个村庄进行预测的模型,政府,公司,平民可以保持警惕并准备灾难恢复计划。5. 结论雅加达研究区进行了一项比较k-NN,SVM和ANN模型的生物敏感性研究该模型基于2014-2019年的月度数据进行了训练使用原始数据集和使用SMOTE重新平衡的数据集运行两组模型组S. Priscillia等人地球科学中的人工智能2(2021)215221该分析显示了重新平衡数据集的重要性在ANN模型中获得了最佳得分SVM和k-NN模型在不平衡和平衡数据集上的表现同样不佳本研究中使用的方法的新颖性限制了其与文献的可比性,但问题中特定于上下文的空间和时间模式被理论化为ANN模型具有最高性能的原因SVM和k-NN模型被怀疑患有维数灾难。进一步的工作可以检查模型性能的空间分解,以确定一些村庄是否始终比其他村庄表现更差。同样,可以进行时间细分,以审查业绩较差的月份或季节。竞合利益作者声明,他们没有已知的竞争性经济利益或个人关系,可能会影响本文报告的工作。致谢作者感谢数据提供者,印度尼西亚区域救灾机构(BPBD)Geoportal和匿名评论者的有用意见和建议。引用阿比丁,H. Z.,例如,2011.印度尼西亚雅加达地面沉降及其与城市发展的关系。《国家危害》59,1753年。阿德南,M.S.G.,Abdullah,A.Y.M.,Dewan,A.,Hall,J.W.,2020.孟加拉国沿海地区土地利用变化和森林灾害对贫困的影响。土地使用政策 九十九。Agatonovic-Kustrin,S.,贝雷斯福德河2000.人工神经网络(ANN)建模的基本概念及其在药物研究中的应用。J. Pharmaceut. BioMed. Anal. 22(5),717- 727。Alfeilat,Abu等人,2019.距离度量选择对k-最近邻分类器性能的影响:综述。大数据https://doi.org/10.1089/big.2018.0175网站。Anderson-Bell,J.,Schillaci,C.,Lipani,A.,2021年使用地理空间信息和卷积神经网 络 预 测 非 住 宅 建 筑 火 灾 风 险 遥 感 应 用 环 境 学 会 21 , 100470 。https://doi.org/10.1016/j.rsase.2021.100470网站。Aristizabal,F.,法官,J,Monsivais-Huerkirk,A.,2020年。用合成孔径雷达和地形数据对不同土地覆盖进行高分辨率淹没测绘雷姆感官12.https://doi.org/10.3390/RS12060900,900 12,900,2020.阿特金森,下午,Tatnall,A.R.L.,一九九七年。神经网络在遥感中的应用Int. J. 雷姆Sens.18,699Baker,J.,2012.气候变化、灾害风险和城市贫困人口:城市为不断变化的世界建设复原力。世界银行,华盛顿特区。巴彭纳斯,2010年。印度尼西亚气候变化部门路线图。雅加达,巴帕纳斯。Bellman,Richard,1958.动态规划与随机控制过程。告知。https://doi.org/10.1016/S0019-9958(58)80003-0.Belousov,A.,Verzakov,S.,Von Frese,J.,2002.支持向量机的应用。J. Chemom. 16(8-10),482 - 489。Bishop,C.M.,1994.神经网络及其应用。Rev. Sci.仪器65(6),1803- 1830。BMKG,2020年。Kompas.com [Online] Available at:https://nasional.kompas.com/read/2020/01/03/10141971/bmkg-sebut-curah-hujandi-jakarta-awal-2020-paling-ekstrem-dalam-sejarah[2021年8月8日BMKG,2021年。Prakiraan Musim Hujan 2021/2022印度尼西亚。BMKG,雅加达。BNPB,2020年。tirto.id [在线]可访问:https://tirto.id/penyebab-banjir-jakarta-2020-dan-daftar-jumlah-korban-meninggalep 9 p[2021年8月8日访问]。Botzen,W.,Aynthia,J.,Bergh,V.D.J.,2012.个人偏好通过海拔高度将死亡风险降低到接近零。缓解。适应。战略全球 变更18,229224。BPS雅加达,2019年。Penduduk,Laju Pertumbuhan Penduduk,DistribusiPendudukKepadatan Penduduk. Rasio Jenis Kelamin Penduduk MenurutProvinsi/Kabupaten/Kota,Jakarta:s.n.曹,H.,Naito,T.,Ninomiya,T.,2008.第一届基于视觉的运动分析机器学习国际研讨会-MLVMA'08。哈尔,马赛。Chang,C.C.,Lin,C.J.,2011. LIBSVM。美国计算机学会翻译中心系统技术2,27。网址:http://doi.org/10.1145/1961189.1961199Chawla,N.V.,Bowyer,K.W.,霍尔,L.O.,Kegelmeyer,W.P.,2002. SMOTE:合成少数过采样技术。J. 第内特尔Res. 16,321- 357。陈伟,Panahi,M.,Tsangaratos,P.,Shawn,H.,伊利亚岛,Panahi,S.,Li,S.,Jaafari,A.,Ahmad,B. B.,2019年a。应用族群演化演算法与类神经模糊系统于山崩易发性之模拟。 Catena 172,212- 231.陈伟,Hong,H.,Li,S.,Shawn,H.,王玉,王,X.,Ahmad,B. B.,2019年b.洪水敏感性建模使用新的混合方法减少错误修剪树与装袋和随机子空间集成。J.液压575,864-873。Cheng-Chien,L.,Ming-Chang,S.,Ming-Syun,K.,Wang,K.,2018.防洪和应急响应系统由谷歌地球引擎提供支持。雷姆第10(8)条,第1283条。Conde,Francisco,Munoz,Maria,2019年。基于sentinel-1 SAR图像研究的洪水监测:埃布罗河案例研究。水11(12),2454。https://doi.org/10.3390/w11122454.Cunningham,P.,Delany,S.,2007. K近邻分类器多。机密系统54号De Vries,B.,例如,2020.利用Sentinel-1和Landsat数据在Google Earth Engine上快速、有力地监测粮食事件。远程传感器Environ. 240,111664。Giovannettone,J.,Copenhaver,T.,伯恩斯,M.,Choquette,S.,2018. 绘制康涅狄格河下游河谷地区作物易感性的统计方法。水资源Res. 54(10),7603- 7618.Glenn,E.,例如,2012.盐柏(TamariX spp.)和毛管上升在盐渍化的一个非植被阶地上的一条河流调节的沙漠。J.干旱环境
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功