农业中的人工智能：变量缩减方法在作物建模中的应用

39 浏览量更新于2023-12-06 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

农业中的人工智能5（2021）196在作物建模中通过变量缩减方法缩减深度学习网络结构Babak Saravia，A.Pouyan Nejadhashemia，b，Pouyan，Prakash Jhab，c，Bo Tangda美国密歇根州立大学生物系统和农业工程系，East Lansing，MI 48824b密歇根州立大学植物、土壤和微生物科学系，East Lansing，MI 48824，USAc喂养未来创新实验室可持续集约化合作研究，堪萨斯州立大学，曼哈顿，KS 66506，美国d美国密西西比州立大学电气与计算机工程系，MS 39762a r t i c l e i nf o文章历史记录：2021年3月23日收到2021年9月30日收到修订版，2021年2021年10月2日网上发售保留字：深度学习人工智能变量还原作物建模产量预测灌溉a b s t r a c t作物模型被广泛用于预测植物生长、水分输入需求和产量。然而，现有的模型非常复杂，需要数百个变量才能准确执行。由于这些缺点，作物模型的大规模应用受到限制。为了解决这些限制，使用深度神经网络（DNN）开发了可靠的作物模型此外，所需的输入变量的数量减少使用三种常见的变量选择技术：即贝叶斯变量选择，斯皮尔曼的秩相关，和主成分分析特征提取。减少变量的DNN模型能够估计10，000，000种不同天气和灌溉情景的未来作物产量，同时保持与使用所有输入变量的原始模型相当的准确性水平为了建立明确的优越性的方法，结果进行了比较，最近的本研究结果显示，贝氏变数选择法是达成上述目标的最佳方法。具体而言，具有5层10个神经元结构的最终基于贝叶斯的DNN模型与具有10层400个神经元的原始DNN crop模型非常相似（78.6%准确率），即使神经网络的大小这一努力有助于通过作物模型的大规模应用促进可持续农业集约版权所有© 2021作者。出版社：Elsevier B.V.我代表科爱通信公司，公司这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍21世纪的一个主要挑战是满足快速增长的人口需求，这些人口对食物，水和能源（三重关系）的需求激增（Slavin，2016）。世界人口在过去100年中呈指数级增长，预计到2055年将达到100亿（Kitzes等人，2008年）。联合国粮食及农业组织预测，这一增长将使粮食需求增加50%，相当于粮食产量增加70%（粮农组织，2017年）。鉴于世界上大部分农业用地已经投入生产（Bruinsma，2003年），必须提高管理效率以满足需求。因此，正在出现新的技术，这些技术考虑到资源和气候的限制（Gebbers和Adamchuk，2010年）。作物产量的提高主要归功于（50*通讯作者：美国密歇根州立大学生物系统和农业工程系，East Lansing，MI 48824。电子邮件地址：pouyan@msu.edu（A.P.Nejadhashemi）。改进的管理实践（Connor等人，2011; Sacks andKuk，2011）.技术进步有助于优化管理，增加产量模拟的适应性（Ali和Deo，2020年; Ali等人， 2018a），现场监测（Rao和Sridhar，2018）和其他数据驱动的实践（Pathak等人，2018年）。最近，通过作物模型和卫星导航系统的使用，资源管理的精确度不断得到微调（Abbasi等人， 2014; Basso等人， 2001; Lobell and Burke，2010）.数字化农业或智能农业为提高生产力，确保粮食安全和保护环境做出了重大贡献（Tyagi，2016）。智慧农业的广泛应用对于应对即将到来的粮食安全和水资源短缺挑战是必要的;在适当的时间和地点应用投入是有效作物管理系统的基础（Gebbers和Adamchuk，2010）。由于气候、虫害和疾病等许多因素会对作物人工计划产生不利影响，因此外部干扰会使作物难以以最佳效率运行。智能农业可以帮助修改管理系统，以最大限度地提高作物产量，同时最大限度地减少当前条件下的投入要求。https://doi.org/10.1016/j.aiia.2021.09.0012589-7217/© 2021作者。出版社：Elsevier B.V.我代表科爱通信公司，公司这是一篇CC BY-NC-ND许可证下的开放获取文章（http：creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表农业中的人工智能杂志主页：http://www.keaipublishing.com/en/journals/农业人工智能/B. Saravi，A.P.Nejadhashemi，P.Jha等人农业人工1971.1. 作物模型农业系统的复杂性要求探索性研究，以发现和验证系统因素之间的相互作用和相互制约。在系统水平上，生物和非生物因素非线性地相互作用，并且很难孤立地研究。与此同时，作物模拟模型可以帮助研究人员通过模拟与相关物理条件（土壤和天气）相关的生理过程来绕过资源限制作物模型通过简化方法帮助合成复杂系统，即，减少投入的数量，只包括对作物生长和发育有重要影响的成分（De Wit和De Vries，1983）。系统行为和过程可以通过适当的分析作物模型来假设。从历史上看，作物模型已用于产量差距分析、了解天气影响、研究作物生理学和生理学以及开发管理策略（Jha等人， 2018年）。迄今为止产生的大多数动态作物模型都是从代表生长过程和非生物因素如土壤和天气的影响的方程开发的（Hoogenboom等人， 2015年）。确定性作物模型可以分为三大类：统计模型（Lobell和Asseng，2017; Schlenker等人， 2006）、机械模型（Arnold等人， 2012）和功能模型（Arnold等人，2012; Ballesteros等人，2016年）。然而，这些决定性模型不能捕捉输入（土壤、气候和其他因素）的空间和时间变化。因此，输入的不确定性可能会导致模型输出中的偏差，必须进行验证。生物物理模型（De Wit，1965）及其持续发展（Bouman等人，1996年）已经导致了作物生物量/产量估算的显著进步，偏差和不确定性的风险更小。基本的作物生长模拟模型包括Elementary CROp growthSimulator-ELCROS（Boumanet al.， 1996）、基本作物生长模拟器-BACROS （ De Vries ， 1973; De ， 1978; Goudriaan ， 1977; vanKeulen，1975）、简单和通用作物生长模拟器-SUCROS（Spitters等， 1989 ）、WOrld FOod Bronchies-WOFOST （Van Diepen等人， 1989年）、年度CRop模拟模块-MACROS（Penning de Vries，1989 年）、水稻作物模型 -ORYZA （Kropff，1994年）和PAPRAN（Seligman和Van Keulen，1981年; VanKeulen，1982年）。这些基本模型是现代作物模拟模型的前身：农业生产系统模拟器- APSIM（McCown等人，1996年），农业技术转让决策支持系统（DSSAT）（琼斯等人，2003 a，2003 b），种植系统模拟模型-CropSyst（Stöckle等人，2003）、InfoCrop（Aggarwal等人，2006），以及其他评估生物物理学对作物影响的动态模型。作物模型在解释田间试验中起着重要作用结果，协助及时的决策过程进行输入管理（Jha等人，2018）和气候变化对作物产量的影响（Lobell和Asseng，2017）。生物物理作物模型通过参数化方程估计过程和影响因素（Wallach等人， 2018年）。可以通过灵敏度分析和模型校准来执行参数估计（Sehgal等人， 2017年），只要考虑到不确定性（Ahuja和Ma，2011年; He等人， 2009年）。例如，许多环境变量，如降水、温度、太阳辐射、灌溉和施肥，都能直接影响作物生长和产量。不仅数量，而且时间的激励变量发挥了重要作用，在确定整体结果。大量的变量和非线性系统响应限制了可用于模拟生物物理系统的技术和算法1.2. 人工智能在作物建模分析农业复杂和不可预测行为的系统方法可用于满足智能农业要求（Chi等人， 2016年; Hashem等人， 2015年）。异构数据收集、处理和分析产生了一个需要实时数据合成和重新分类（Kempenaar等人， 2016年）。新的人工智能（AI）技术在农业领域的应用是可取的，因为它们具有分析和使用大数据的能力此外，这些技术可以用于模型开发，而无需对特定应用领域的广泛知识（Angermueller等人， 2016; Latha和Mohana，2016; Menger等人，2018年）。最流行的AI技术之一是深度学习（DL）。DL是人工神经网络（ANN）的一个大型结构（多层），自七十年代以来一直存在通过计算机硬件技术的进步，例如高性能计算机集群（HPCC）、多核计算机处理单元（CPU）和强大的图形处理单元（GPU），使用DL技术进行建模最近才然而，迄今为止进行的大多数农业相关的DL实验都采用卷积神经网络（CNN）架构，其在学习速率和效率方面有所不同（Amara等人， 2017; Prasad等人， 2020年）。从原理上讲，DL类似于ANN，具有更高的性能能力和三层以上这两种技术都被广泛使用（ Chen 等人， 2014; LeCun 等人， 2015;Schmidhuber，2015）。然而，这些技术之间的比较研究表明，基于DL的模型在估计流域尺度的生化需氧量和总磷负荷方面优于ANN（Song等人， 2016年）。在Khaki和Wang（2019）的另一项研究中，设计了一种用于预测作物产量的深度神经网络（DNN）模型，并将结果与浅层神经网络（SNN）模型进行了总体而言，基于DNN的预测模型优于SNN模型。DL通过分层数据处理允许多层次的抽象。在农业领域，数字化是一种新的但有前途的方法，具有巨大的潜力，通过图像可视化和分析揭示不同的领域和维度DL在农业中应用最多的领域是土地利用和土地覆盖的分类、作物类型、杂草管理中植物类型的识别或鉴定、最终产品（水果/蔬菜）的计数以及植物病害的识别基于DL的算法甚至更有潜力预测未来的农场参数，例如土壤湿度（Song等人， 2016）和天气（Sehgal等人， 2017年）的报告。可用数据的变化有助于在DL模型中生成进一步的训练，从而能够区分特征并提高分类的准确性（Kamilaris和Prenafeta-Boldú，2018）。然而，当评估作物类型时，基于数据的区分难以识别（Dyrmann等人， 2017; Ienco 等人， 2017; Kussul等人， 2017;Rebetez等人， 2016）、作物阶段（Chen等人，2017; Minh等人，2017; Namin等人，2018; Yalcin，2017）和作物条件（Amara等人，2017; Prasanna 等人， 2016; Rahnemoonfar 和 Sheppard ， 2017;Sladojevic等人， 2016年）。随着物候逐渐变化的分层结构中的复杂性创建了复杂的数据网络，增加了数据集的大小（Einheuser等人， 2012年）。因此，开发和训练模型的计算能力受到变量数量的影响，训练性能降低。为了解决与环境和农业系统建模所需的大量输入变量相关的问题，已经使用了许多技术，例如贝叶斯变量选择（O 'Hara和Sillanpää，2009;Woznicki等人，2015）、Spearman等级相关性（Einheuser等人，2012; Einheuser等人， 2013年; Maret等人， 2010; Waite等人，2010）和Principle Compo- nent Analysis Feature Extraction方法（Khalid等人，2014; Pearson，1901）。其他流行的基于机器学习的变量缩减技术已被应用于生物物理系统的模型部分：蚁群优化（Dorigo和Di Caro，1999）用于选择预测月太阳辐射的最佳固有模式函数（Prasad等人， 2019年），生物启发的蝙蝠算法被用来改善预测月降雨量的估计特征（Ali等人，2018 b），模拟退火算法（FAO，2017）用于开发干旱模型（Ali等人， 2019），奇异值分解算法（Bretherton等人，B. Saravi，A.P.Nejadhashemi，P.Jha等人农业人工1981992）被用于开发预测每周太阳辐射的模型（Prasad等人， 2020）和非支配分选遗传算法（Deb等人，2002）被用于开发长期降水模型（Ali等人，2020年）。总之，作物模型被广泛用于预测植物生长、水分输入需求和产量。然而，现有的模型非常复杂，需要数百个变量才能准确地执行这些缺点限制了作物模型的大规模应用机器学习技术（诸如DL）可以用于解决这些限制中的一些;然而，它们的应用目前限于定性评估，诸如计算机视觉和语音识别（Liu等人， 2017年）的报告。在这里，我们试图解决作物模型存在的问题，不仅开发了一个DL模型来预测产量和需水量，而且还通过减少输入变量的数量从数百个到只有几个。这样，DL作物模型可以用于实时和大规模的应用，这是目前不可能的。在这项研究中，我们使用大约1000万个测试场景评估了DL作物模型的可靠性，据我们所知，这是以前从未尝试过的这一努力将把作物模型应用纳入主流，用于在区域和国家一级预测产量和用水量作物模型可以帮助指导政策制定者在21世纪实现可持续的水和粮食安全论文组织如下：在第2节中，首先，输入变量（例如，降水量）和输出变量（例如，作物产量）的DL作物模型的发展。接下来，解释了DL模型的体系结构以及训练和测试过程由于大量的输入变量，三种不同的技术进行了测试的变量减少效率，而不影响模型的准确性。最后，最好的DL模型开发的变量减少技术与一个新的特征选择方法进行了比较。在第3节中，使用所有输入变量开发DL作物模型（800）。该模型被用作检查变量减少技术的性能的参考。系统地，变量的数量被减少，直到模型的准确性受到损害。然后确定了与参考模型具有可比精度的作物DL模型的最小结构，并与其他常用方法相比评估了变量缩减方法的性能。最后，在第4节中，对分析结果进行了综合，以确定开发准确可靠的DL作物模型的最佳方法。2. 材料和方法2.1. 方法概述图 1介绍了这项研究的概述。首先，将100种天气情景与100，000种随机灌溉应用相结合，以创建10，000，000种情景，其中可以使用作物模型来检查作物生产。接下来，基于这1000万个场景训练和测试DL模型在DL模型中引入了800个输入变量，其中包括200天作物生长季节中的4个不同环境然后使用三种常用的变量减少技术来开发基于减少的输入参数数量和更小结构的其他深度学习模型我们对这些模型进行了测试，并与原始的深度学习模型进行了比较，以确定具有最少输入变量的最佳新详细讨论了变量约简方法对不同体系结构DNN模型性能的影响在每一轮实验中，输入变量的数量减少（400、200、100、50、40、30、20和10个变量），模型的DNN结构缩小（600、400、200、100、50、40、30、20、10、8、6和4个神经元的组合为50、40、30、20、10、9、8、7、6、5、4、3、2和1层）。重复该过程，直到识别出与原始模型具有可比精度的最小数量的架构。每个计算模型图1.一、概述了用于作物产量估计的简化深度神经网络结构的生成过程。由输入-神经元-层形式的三个数字标识例如，模型50-40最后，将最佳DNN模型与使用最新特征选择方法开发的新DNN模型进行比较2.2. 模型输入变量在这项研究中，考虑了几个环境输入变量，包括降水和灌溉，最高温度，最低温度和太阳辐射。在200天的生长季节中引入了800个变量灌溉与降水相结合，以产生每天以mm计的总用水量为了生成模型的训练数据，考虑了100种不同的气候这些气候情景与100，000个随机灌溉情景相结合，并应用于作物模型，该模型生成了10，000，000个玉米产量记录与天气变化有关的数据由天气发生器产生，如下所述。2.2.1. 生成天气数据除了灌溉量之外，提供日降水量、温度和太阳辐射量对于保证作物模型输出的准确性是必不可少收集了一年的现场天气数据，并用于生成不同的天气实现方案。从离研究中心最近的气象站收集每月温度、太阳辐射和降水量（PRISM，2011）。使用天气随机分解工具从环境变量的月度历史记录中生成每日天气信息（Hansen和Ines，2005年）。该工具通过从历史记录中分列平均每月数据来生成每日天气为了准确地模拟研究区域的天气，B. Saravi，A.P.Nejadhashemi，P.Jha等人农业人工199.e xp−.e xp−β11用于天气发生器。天气生成器使用随机方法来生成感兴趣位置的每日信息。关于降水，考虑了高于平均水平、平均水平和低于平均水平的三种情况降水发生由马尔可夫链建模，并且量从由等式给出的随机变量x（降水发生）的超指数分布或概率密度函数采样（一）.和墨尔本，2002年）。不到30%的年降雨量发生在2月至5月，这是主要的生长季节（图）。 2）。30年最低和最高气温分别为14.3 °C和26.7 °C平均最高气温介乎七月的32.7 °C至一月的19 °C。Millhopper细砂是该地区发现的主要土壤类型，已知排水良好。2.4. 作物模型fxαX xβþð1−αÞβð1Þ本研究选用的作物模型是农业技术转移决策支持系统（DSSAT）。这个模型是设计来-式中：α为超指数分布的混合概率，β1，β2为超指数雨强分布第i个分量的平均值。此外，最高和最低温度从高斯分布函数中采样，条件是降水的发生。为了产生太阳辐射，天气发生器使用了在现场太阳辐射方程的上限和下限之间重新缩放的每日晴朗度的logit函数转换（二）：logit其中，p是每日晴朗的概率为了考虑每日序列的统计行为，将该量移动以匹配历史记录中的太阳辐射和温度的月平均值2.2.2. 数据准备从10，000，000个生成的记录中删除重复数据后，保留了8，970，685个唯一的玉米生产数据（表1）。这些数据用于进一步开发DL模型。尽管在研究中使用了两台计算机，一台24核Intel® Xeon® CPUE5-2680 v3@2.50GHz ，配备 Quadro M6000 GPU ，另一台Intel®Core™ i7-4770 CPU@3.40GHz ，配备 GeForce GTX 1080GPU，但GPU内存不允许在训练DNN时使用所有可用记录。为了减少记录数量并保持多样性，数据按玉米产量分为12类，每类1000 kg，然后抽样创建10个相似的群体分布数据集。表1显示了每个数据集中的数据记录数。2.3. 研究区以美国佛罗里达州盖恩斯维尔的灌溉研究园为研究区域，分析了灌溉对玉米产量的影响灌溉研究园位于佛罗里达大学的实验站（29°37′8″N，82°22′22″ W）。湿润的亚热带气候，生长季节后降雨量丰富，使该地区适合进行水管理的定量研究（Lascody对超过40种不同的作物进行了动力学建模，并且在过去30年中被全世界的研究人员和学术机构广泛使用（Hoogenboom等人，2015; Jones等人， 2003 a ， 2003 b; Nuruhal ， 2011 ）。根据 DSSAT 网站（Hoogenboom等人，该模型已被150多个国家的14，000多名研究人员，教育工作者，顾问，推广人员，种植者和政策/决策者使用。DSSAT的软件应用包包括土壤、天气、作物管理工具和实验数据。DSSAT模拟和模拟作物生长、发育和产量作为土壤、天气和植物动态的函数为了获得用于DNN模型训练的数据，在DSSAT中设置了玉米灌溉实验，并基于灌溉研究园区的实验研究现场的结果进行了校准生长季节包括200天（Hoogenboom等人，2015年）。DSSAT输入文件使用玉米栽培品种（McCurdy 84aa）设置，种植和收获日期分别为2月16日和5月7日。选择十个灌溉应用以在生长季节内生成随机场景，以进一步训练DNN模型灌溉应用。灌溉发生在生长季节，水量从每天10毫米到250毫米不等2.5. 用于作物建模的要准确操作典型的作物模型，需要广泛的气候、地质和农业管理实践知识此外，这些类型的模型在大规模上的应用受到模型复杂性的限制为了解决这些局限性，这项研究的目的是显示应用DL技术的作物模型的潜力在本研究中使用的DL架构是具有多层感知器（MLP）架构的DNN（图1）。 3）。MLP是一种前馈DNN，并被选择用于本研究，因为它已被证明可以成功地生成分类问题的解决方案（Deng和Yu，2014）。在这一大规模分析中，由于单个油田的不确定性水平较高，我们感兴趣的是估计产量类别，而不是实际产量为了使产量估计更加可靠，将玉米产量水平分为12个等级（范围从0到12，000公斤/公顷），每个等级的投入代表1，000公斤/公顷的产量范围例如，0级代表0至1000 kg/ha，表1用于深度学习作物模型开发的不同气候和灌溉调度的非重复玉米产量数据集产量种类数据集1数据集2数据集3数据集4数据集5数据集6数据集7数据集8数据集9数据集100–100046,87246,91947,13146,98546,66446,71846,68046,86146,70744,9361000–200099,13699,25199,783100,04999,82999,88299,71999,821100,20496,5682000–3000102,770102,178102,101102,235102,288102,187102,320102,286101,96199,0323000–4000167,257168,053167,320167,595167,256167,508167,786166,691167,349161,9424000–5000114,608114,090114,052113,762114,278114,607113,753114,485114,531110,3205000–600085,79286,49386,80786,38886,57186,46086,14486,36186,18383,3326000–700099,09099,03399,10899,43999,65098,71299,75199,67599,29496,5107000–800062,62662,55961,74262,08161,88762,44362,29262,50262,20160,0658000–900061,51860,91161,19061,08260,97060,79861,03760,99561,25459,2769000-10,00024,19924,25824,29624,22224,55124,30224,17824,18124,30523,42110,000-11,00030,28030,39430,75330,37730,23230,57430,53930,38530,30329,62211,000-12,0005852586157175785582458095801575757085661总900,000900,000900,000900,000900,000900,000900,000900,000900,000870,685β22B. Saravi，A.P.Nejadhashemi，P.Jha等人农业人工200¼þn图二、佛罗里达州盖恩斯维尔30年（1981-2010）的平均天气状况。1级代表1000至2000 kg/ha。在DNN中使用隐藏层与每层中的神经元（计算节点）的不同组合来形成作物模型。为所有神经元分配相同类型的激活函数TanH（正切双曲）激活函数用于所有隐藏层，SoftMax（总输出概率函数的规范化约束）激活函数用于输出层（Costa，1996）。一旦创建了DNN结构，就需要进行培训，培训将在下一节中详细介绍。2.6. 模型的训练和验证所有模型均使用900，000条记录的第一个数据集进行训练反向传播（Liu等人， 2017）方法和梯度下降（Baldi，1995）算法也被用来通过最小化定义的成本（Baldi，1995）来训练网络。在这项研究中，负对数似然方程Eq。（3）被用作成本函数（Friedman，2002）。学习率固定为0.01，所有训练运行中的小批量大小为1000条记录在达到最低验证误差后，继续训练100个epoch，以确保它不会陷入局部最小值。减少层数和每层神经元的数量，训练过程变得更快。2.7. 变量缩减提高训练性能，降低开发DL模型所需的计算能力。在众多的变量减少技术中，应用了环境和农业研究中最常用的一些技术（Woznicki等人，2015年）。评价了以下三种变量减少方法用于预处理数据。(1) 贝叶斯变量选择（O'Hara和Sillanpää，2009）在理论上，贝叶斯模型用（大量）解释变量（输入）来解释响应变量贝叶斯变量选择方法选择一小部分变量，这些变量可被推断并用于解释响应中存在的大部分在许多情况下，变量选择是通过指定变量来完成的;变量选择任务是估计变量是否应包含在模型中的边际后验概率（O 'Hara和Sillanpää，2009）。目前有几种贝叶斯变量选择软件工具可用，例如BayesFactor、BayesVarSel和BMS（Forte等人，成本1nbzXk¼0log。PYykjcosnπxL bnsinnπxLð3Þ2018）;然而，它们都不适合使用大型数据集。因此，我们确定了贝叶斯广义线性回归（BGLR）软件（Pérez和de los Campos，2014），其中，nbz是小批量大小，n是输出类的数量（在这种情况下为12），P是由Softmax计算的似然概率的函数（对总输出概率函数的归一化约束）（Costa，1996）。为了计算具有1层和每层n个神经元的DNN结构中的每个时期所需的时间，假设GPU上的前馈和反馈过程的并行的每个层的总计算时间是T1秒。为了馈送下一层，GPU存储器和机器主存储器之间的神经元输出在Tn秒内传输考虑到训练过程，Eq。（4）计算了一个epoch的时间消耗可以使用大数据。BGLR是一个基于R的统计软件包，基于吉布斯采样器技术，具有标量更新以减少输入变量的数量（Casella和George，1992）。(2) 斯皮尔曼变量选择（Zwillinger和Kokoska，1999）斯皮尔曼等级相关法计算每个变量和输出之间的等级相关性（等式2）。（5））。在该方法中，假设具有较高相关性的变量将对产出产生较大影响，并且应在模型中首先考虑。SSuvT期¼l×Tþn×l×Tnð4Þrs¼ pSuu×SSvvð5Þ当量（4）证明了训练时间与神经网络的层数和每层神经元数有直接通过其中，rs表示斯皮尔曼秩相关系数，SSuv分别是输入和输出变量的协方差，SSuu和SSvv是输入和输出变量的标准差ΣB. Saravi，A.P.Nejadhashemi，P.Jha等人农业人工201图3. 具有多层感知器架构的深度神经网络的示意图，用于作物产量估计。使用来自scipy.org（scipy.stats.spearmanr）的python库来计算输入和输出之间的斯皮尔曼等级相关系数（Zwillinger和Kokoska，1999）以用于变量选择目的。(3) 主成分分析特征提取（Khalid等人， 2014年度）主成分分析（PCA）特征提取是用于将相关变量转换为较小的不相关变量集合的正交变换。 PCA特征提取方法使用X T X的本征值来计算这两个集合之间的线性变换。该方法被称为特征/变量提取（Khalid等人， 2014年）。在这项研究中，使用python库（sklearn.decomposition.PCA）来执行此分析。该库使用了完整奇异值分解（SVD）或随机截断SVD（Halko等人介绍的方法）的LAPACK实现。（2011年）。2.8. 基于最大相关最小冗余的特征（变量）选择最小冗余和最大相关性（mRMR）（Menger等人， 2018）是一种新颖而流行的方法，最初由Peng等人（2005）引入，然后由Bugata和Drotar（2020）改进。mRMR算法选择一组具有最高相关性和最低冗余水平的解释变量来描述输出变量。因此，在一个大的变量集合中识别出最多的因变量，这最终导致更好的分类。通过减少输入变量冗余，可以获得具有相同或更好性能Bugata和Drotar（2020）的研究表明，最大冗余并不总是等同于Peng等人（2005）所假设的最大依赖性。因此，Bugata和Drotar（2020）建议，通过向算法添加目标以最大化依赖性，可以提高mRMR算法的整体性能事实上，应用经修订的mRMR算法导致B. Saravi，A.P.Nejadhashemi，P.Jha等人农业人工202在真实场景下更好的特征选择（Bugata和Drotar，2020）。3. 讨论结果3.1. 深度神经网络结构分析3.1.1. 使用800个输入变量评估原始深度学习模型的准确性原始DL模型使用800个输入进行训练和测试这些输入包括在200天的作物生长季节中变化的四个环境变量，所有模型都在前90万个记录集上进行训练图4和表S1（补充材料）显示了具有不同结构的原始DL模型的精度。预测准确度结果显示在“训练集”列中，并且来自九个测试集的平均准确率显示在“测试集”列中。结果表明，在较小的DNN结构（每层50至100个神经元）中，层数越多，模型精度越低。Schmidhuber（2015）之前观察到了这种行为，他注意到梯度爆炸/消失会降低精度具有小结构的DNN中的准确率（30%至70%）显著低于具有较大结构（每层400至1000个神经元）的DNN（75%至80%），这可以在图1中看出。四、这种行为表明，基于具有800个输入变量的大型数据集的DL模型需要一个大型结构才能表现得相当好。在这项研究中，与层数增加的较小DNN相比，每层超过400个神经元的然而，更大的结构需要更多的计算时间和更强大的硬件来执行在可接受的水平。应该注意的是，训练集和测试集的准确率是相同的，这表明模型没有过度拟合。3.1.2. 深度学习模型的输入变量数量减少到400个表S2和图图5显示了DNN模型预测的准确性训练集和测试集，具有400个输入变量。显然，贝叶斯和斯皮尔曼等级相关方法在训练集和9个测试集的平均值中的结果几乎相同。相似性表明模型没有过度拟合。此外，PCA特征提取方法在训练集上显示出更高的准确性，但在测试集上表现不佳作为一种非监督特征提取方法，PCA从输入数据集中识别并提取最不相关的特征（Calesella等人， 2021年）。同时，基于该方法建立的深度学习模型在训练过程中存在过拟合现象。此外，图5显示，具有许多层的400个神经元DNN使用贝叶斯变量选择方法具有较低的准确性。Spearman秩相关法也观察到类似的结果，但贝叶斯变量选择法显示，当层数增加时，准确性降低，而Spearman秩相关法则没有。这表明Spearman秩相关方法受消失/爆炸梯度问题的影响较小PCA特征提取方法对层数的增加几乎不敏感尽管该模型在训练集上达到了显著的预测准确率（超过97%），但在测试集上的表现不佳表明该模型高度过拟合。贝叶斯变量选择和斯皮尔曼秩相关方法在每层600个神经元的DNN的训练集和测试集上具有相同的预测准确度。对于PCA特征提取方法，训练集的预测精度提高到每层600个神经元，这表明该方法由于过度拟合较大的DNN结构而变得不太可靠。3.1.3. 深度学习模型的输入变量数量减少到200、100和50个表S3和图 S1（补充材料）展示了DNN模型在200个输入变量下的准确性。表S4和图S2表示DNN模型在100个输入变量下的准确性。在200和100个变量的情况下，观察到与400个输入变量几乎相同的行为100个输入变量（图S2）表明所有DNN结构的准确度都很高，因为神经元的数量是输入数量的两倍因此，DNN更灵活，并补偿了消失/爆炸梯度问题。贝叶斯变量选择和斯皮尔曼秩相关方法的结果显示，具有相似架构的DNN模型的准确率相当（79%）。同时，使用PCA特征提取方法的DNN模型对训练集的准确率最高（超过98%），对测试集的准确率明显较低（低于39%）。这一发现表明该模型过度拟合。图S1示出了与DNN中每层200个神经元的层数增加相关的准确性降低然而，对于每层400和600个神经元，所有三种变量减少方法的准确率几乎保持从图中可以看出。除了PCA特征提取方法之外，所有不同DNN结构的100个输入变量的准确率都是恒定的，PCA特征提取方法的准确率与400个输入模型相当。这说明了通过增加训练集中的层数而不提高测试集性能来提高准确性。为了研究额外的输入变量减少的效果，计算了一些只有50个输入变量的新模型表S5和图四、深度神经网络原始模型在不同模型结构下800个输入变量的准确性。B. Saravi，A.P.Nejadhashemi，P.Jha等人农业人工203图五、深度神经网络模型的准确性与400个输入变量（a）贝叶斯（b）斯皮尔曼（c）PCA。图S3显示了这些模型在具有50个输入变量的训练集和测试集上的准确性验证结果，结果与100个输入变量的结果相同这一结果表明，三种变量减少方法成功地减少了输入变量，并且可以预期在可接受的预测精度水平下产生具有小DNN结构的模型。在下一步中，DNN结构被简化，以确定这些方法是否适用于较小的DNN结构。3.1.4. 评估具有有限层的深度学习模型的性能为了理解隐藏层的数量和可变减少对DNN模型的准确性的影响，对于三个不同的神经元集合，层的数量被限制为小于10（1到9）200、400和600）和200个输入变量（表S6）。图 S4表明，在200个输入和每层适当数量的神经元的情况下，具有1个隐藏层的精度几乎与具有几个层的大型DNN结构相同。这表明了所有三种选择的变量减少方法对系统的鲁棒性。换句话说，每层具有更高数量的神经元（200、400和600）的浅DNN（具有少于10层）以及具有几个隐藏层（10、20、30、50个隐藏层）的深DNN（具有多于10层）。然而，与以前的结果类似，基于PCA特征提取方法开发的模型在训练集上具有良好的准确性，而在测试集上的性能较差3.1.5. 评估神经元和层数对深度学习模型准确性在这个阶段中，几个模型的性能是用每层少量的神经元来计算的表S7和图S5显示了具有50个输入变量的DNN模型的准确性结果数量B. Saravi，A.P.Nejadhashemi，P.Jha等人农业人工204在这些模型中，每层神经元的数量为4、6、8和10，而层数为1至9。一般来说，具有少量神经元的DNN模型的整体准确性（例如，图中的10个神经元S5）低于具有更多神经元的模型的准确性（例如，图S4中的200个神经元）。同时，对于相同数量的神经元，随着层数的增加，DL模型的精度会出现波动。然而，当数据被重新排列时（图）。S6），波动模式变得更加明显，其中对于相同层数，随着神经元数目的增加，同时，基于贝叶斯和Spearman变量约简方法的DL模型在测试集和训练集之间的性能更一致，而使用PCA变量约简方法开发的DL模型的鲁棒性较差例如，在图C的部分与训练集相比，测试集显示出准确性的相当大的下降最后，无论变量减少方法和层数如何，随着神经元数量的增加，DL模型的准确性都更高（图1S5）。3.2. 以良好的精度识别最小的DNN模型大型DNN结构需要大量时间来训练其网络（Sun等人，2019年）。因此，本节的目标是确定可用于开发DL模型的最小输入

下载后可阅读完整内容，剩余1页未读，立即下载