基于机器学习的小麦产量预测方法

19 浏览量更新于2023-12-06 收藏 1.68MB PDF 举报

机器学习方法

数据增强

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

农业中的人工智能6（2022）156基于机器学习的硬粒小麦产量预测NabilaCherguiFerhat Abbas大学技术学院，Setif 1。阿尔及利亚，康斯坦丁第二大学，阿卜杜勒哈米德·迈赫里a r t i c l e i nf o文章历史记录：收到2021年2022年9月9日收到修订版，2022年2022年9月19日网上发售关键词：机器学习产量预测深度学习数据扩充回归气候数据a b s t r a c t一个可靠、准确的作物产量预测模型对于农业部门的有效决策至关重要机器学习方法允许构建这样的预测模型，但是如果数据稀缺，预测的质量会在这项工作中，我们提出了在阿尔及利亚两个不同省份的小数据集的存在下，小麦产量预测的数据增强。我们首先通过添加更多的特征来增加每个数据集的维度，然后通过合并两个数据集来增加数据的大小。为了评估数据增强方法的有效性，我们基于三个数据集进行了三组实验：主要数据集，具有附加特征的数据集和通过合并获得的增强数据集，使用五个回归模型（支持向量回归，随机森林，极限学习机，人工神经网络，深度神经网络）。为了评估这些模型，我们使用了交叉验证;结果显示，使用增强数据后，性能总体上有所提高DNN在第一个省的表现优于其他模型，均方根误差（RMSE）为0.04 q/ha，R_Squared（R2）为0.96，而随机森林在第二个省的表现优于其他模型，RMSE为0.05 q/ha。本研究中提出的数据扩充方法显示出令人鼓舞的结果。© 2022作者出版社：Elsevier B.V.我代表科爱通信公司，公司这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍作物产量的估计是决策者的一项重要任务，因为它能够有效地规划资源（Chergui等人， 2020; Gyamerah等人， 2020年; Kim等人， 2019年）。在经济上，产量预测可以帮助决策者在盈余的情况下以正确的方式对出口量做出反应，或者在短缺的情况下对进口的数量、合同、协议和规划做出早期决定它还可以帮助确定种植作物的最佳配置，并适当分配政府资源。另一方面，它可以帮助农民决定种植什么以及何时种植，并计划他们的收获和储存（Chergui等人， 2020年）。此外，谷物被认为是阿尔及利亚最重要的作物，在维持粮食供应方面发挥着至关重要的作用根据官方报告，阿尔及利亚每年对谷物的需求估计约为1500万吨2019年，收获季节的产量估计为600万吨，而进口量接近1200万吨。因此，及时和准确的产量信息对决策者和可持续发展至关重要。此外，作物产量预测允许研究影响产量的因素，如气候和天气、灌溉和施肥方法、农业政策等。*通讯作者。电子邮件地址：nabila. univ-setif.dz（N.Chergui）。先进的信息和通信技术与机器学习（ML）一起出现，为理解农业系统中的过程创造了新的机会，其中作物产量预测是其关键任务之一，包括几个复杂的步骤。 ML是一种实用的方法，可以基于几个特征提供更好的产量预测（Klompenburg等人， ML可以确定模式和相关性，并从数据集中发现知识。（Klompenburg等人，2020年）提出了一个系统的回顾文献的作物产量预测使用ML技术，其中提取了主要的ML算法，功能和评估指标用于这项任务。来自传统ML模型的几个模型（Gyamerah等人，2020; Guo等人，2021; Shahhosseini等人，2020）到复杂的深度学习（ DL ）模型（ Alibabaei 等人， 2021; Shook 等人， 2021;Schwalbert等人，2020; Wolanin等人，2020年; You等人，2017年）已成功开发并证明其有效性。然而，一个好的和强大的ML模型需要同样好的数据质量来生成质量预测，其中数据质量可能受到两个因素的影响，杂质和大小。在我们的案例中，令人遗憾的是，阿尔及利亚的主管部门和农业服务部门意识到记录农业数据、农民知识和做法（包括播种、灌溉、施肥、土壤成分等）的重要性，以及它们在提高生产和粮食可持续性方面的重要作用。因此，在这种情况下的预测过程具有挑战性。https://doi.org/10.1016/j.aiia.2022.09.0032589-7217/© 2022作者。出版社：Elsevier B.V.我代表科爱通信公司，公司这是一篇CC BY-NC-ND许可证下的开放获取文章（http：creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表农业中的人工智能杂志主页：http://www.keaipublishing.com/en/journals/农业人工智能/N. 谢尔吉农业人工157幸运的是，数据中的杂质，包括噪音，离群值，缺失数据，重复数据或任何其他异常，都可以使用数据清理方法进行处理而解决小数据集问题的一个可能的解决方案是数据增强。后者包括在不明确收集新数据的情况下增加训练数据多样性的技术（Feng等人，2021年），试图提高训练模型的泛化能力。对于真实世界的数据，泛化是重要的，因为它可以帮助网络克服小数据集（奥尔森等人， 2018年），并用于在训练ML模型时正则化和减少过度拟合（ Shorten 和Khoshgoftaar ， 2019年）。最广泛使用的数据增强技术涉及添加现有数据的略微修改的副本或创建合成副本（Shorten和Khoshgoftaar，2019）。一些人工智能（AI）应用程序在小训练数据的情况下应用数据增强在用于生成更多标记数据的计算机视觉和模式识别中，其中诸如裁剪、裁剪和颜色抖动之类的技术是模型训练的标准组件（Feng等人，2021年）。在自然语言处理（NLP）中，在这种情况下，插值和基于规则的技术被应用于增强模式（Feng et al.， 2021年）。除了基于随机变换技术的时间序列分类之外（Iwana和Uchida，2021）。基于计算机视觉的农业应用，如作物分类、疾病和杂草检测，也使用基于技术的数据增强，以基于（旋转、光影变化、颜色反转、平移、提高分辨率和强度变化等）的想法来人为地增加手中图像的数量（Arsenovic等人， 2019; Aravind和Raja，2020; Chen等人， 2019; Kamal等人，2019年; Liu等人， 2017; Sladojevic等人， 2016; Yamamoto等人，2017年）的报告。然而，这种解决方案不适用于作物产量预测。迁移学习是增加小数据集的另一种替代解决方案，其中从解决给定领域中的任务中获得的知识被转移到目标领域（Aravind和Raja，2020; Barbedo，2018; Cruz等人， 2017; Wang等人， 2018年）。但是，如果源域和目标域共享某些相似性，并且如果我们最初具有源域的良好模型，则该解决方案可能是有效的，但这并不总是可能的。在这项工作中，我们解决了作物产量预测问题和ML方法在小数据集存在的情况下的性能，我们使用数据增强技术来增加数据集并提高ML模型的性能。在其中，我们使用ML回归模型进行了比较研究，例如支持向量回归（ SVR ），随机森林回归（ RF ），人工神经网络（ANN），极端学习机（ELM）和深度神经网络（DNN），在三种实验场景下，通过评估不同方法所实现的性能2. 相关作品ML和DL技术越来越多地用于估计不同的作物产量。（Elavarasan等人， 2018）讨论通过在ML技术中整合农业因素来估计产量。此外，已经提出了几项工作来使用ML估计作物产量（Abbas等人， 2020; Guo等人，2021; Ji等人，2021; Piekutowska等人，2021; Rahman和Robson，2020; Rezapour等人， 2021; Shahhosseini等人， 2020年; Xu等人，2020）和其他已经使用的DL模型（Alibabaei等人，2021; Cao等人，2021; Gong等人，2021; Nevavuori等人，2020; Shook等人， 2021;Schwalbert等人，2020年）。（Chergui等人， 2020）展示了ML和DL在作物管理中的可能应用，包括作物产量预测。他们区分了作物估计的两种趋势;第一种趋势与直接影响作物的数据源（土壤数据、天气数据、环境参数数据）有关。这些通常用于提供作物产量的季前估计（Crane-Droesch，2018; Ehret等人，2011; Fukuda等人， 2013; Gonzalez-Sanchez等人， 2014;Gyamerah等人， 2020; Kouadio等人， 2018年）。第二个趋势与数据有关利用多光谱和超光谱卫星图像、遥感和传感器等先进技术和工具收集的数据源。这些通常用于提供作物产量的季节预测（Ji等人，2017;Maimaitijiang et al.，2020; Pantazi等人， 2016年; You等人，2017年）的报告。其他研究使用两种类型的数据源（Abbas等人， 2020;Filippi等人， 2019年; Han等人， 2020; Jeong等人， 2016年; Kim等人， 2019; Kamir等人， 2020年; Oliveira等人， 2018; Schwalbert等人，2020; Sakamoto，2020）。其他拟议的研究通过汇总不同的小数据集进行作物产量预测，从而扩大数据在其他人中，我们发现了（Meroni et al.，2021年），在全国范围内预测了三种类型谷物的月产量，其中整合了所有省份的作物数据集，并为每个省份添加了一个标识符作为额外的预测变量。（Filippi等人， 2019）将多个领域和多年的三种谷物数据合并为一个数据集。然后，他们根据播种前、季节中期和季节后期条件等因素创建了三个独立的模型，以研究季节内信息的可用性对其模型预测能力的影响他们为三种作物创建了一个单一的模型，并将作物类型作为预测变量。在我们的研究中，我们整合了来自两个省的小数据集，以形成更可观的训练基础。我们不是为这两个省创建一个单一的预测因子，而是为每个省构建一个更好地对应于其特定城市的特定预测因子。在表1中，我们恢复和比较了最近的预测作物的工作产量，我们专注于第一个趋势，用来提供作物产量的季节前估计。3. 材料和方法3.1. 区域和作物选择该研究在两个地点进行：君士坦丁省和塞提夫省1（见图1）。君士坦丁位于位于阿尔及利亚东北部，纬度36.2833，经度6.61667，北纬36<$16 ′60塞提夫的纬度：36.15，经度：5.43333，北纬36°11′28.03这些地区以种植谷物而闻名本研究选择的作物是硬粒小麦，因为它是最重要的这两个地区的小麦都是灌溉或不灌溉的。3.2. 数据源我们从君士坦丁省农业服务部1和塞提夫省2获得了硬粒小麦产量的历史数据，在线数据不可用。君士坦丁省获得的产量数据涵盖了1991年至2019年的季节，塞提夫省从2005年开始至2020年这两个数据集包含关于记录的年产量和种植面积的信息;它们将作物产量表示为每单位收获面积作物的收获产量，以每公顷公担（q/ha）计量。然而，它们没有提供地理标识、土壤性质和成分或施肥方案的信息。此外，我们使用了从不同来源获得的气候数据，最初是从主要使用的来源，3君士坦丁和塞提夫省机场的然而，这个网站只提供2005年2月的可下载数据;因此，我们从第二个来源获得了2005年至1996年的天气数据4第1www.dsa-constantine.dz2www.dsa-setif.dz3https://rp5.ru/4https://dz.freemeteo.com/N. 谢尔吉农业人工158表1作物估产的最大似然方法Ref作物类型Algo评估指标数据类型提取的特征结果沙赫塞尼玉米RFRRMSE，MBE产量，土壤气候最低温度最高温度降水，RMSE= 1.113千克/公顷等人（2020年）MDA、RMSE管理变量水汽短波辐射雪水土壤有机物PRMSE= 9.56%Wang等人冬季自适应MAE，RMSE R2卫星图像，气候数据砂/粘土含量12其他特征植被MBE=-116千克/公顷R2= 0.86（2020年）小麦提振土壤图历史产量指数，平均温度最高温度RMSE= 0.51吨/公顷最低温度，土壤性质，6其他功能MAE= 0.39吨/公顷皮耶库托夫斯卡马铃薯MLPRAE、RMSE历史产量平均气温降水量，氮磷钾总量RMSE= 2.121吨/公顷等人（2021年）MAE、MAPE气象资料种植日期，土壤肥力的6个其他特征RAE= 0.099MAE= 1.626吨/公顷Guo等人水稻SVMRMSE，R2气候和地理最高温度MAPE = 7.203%RMSE= 760公斤/公顷（2021年）数据最小温度湿度，最小相对湿度R2= 0.33平均风速Stepanov等人大豆LRRMSE、MAPE气候卫星资料降水量、土壤温度RMSE= 0.05吨/公顷（2020年）Cao等人冬季LSTMR2，RMSE气候卫星资料土壤湿度光合有效辐射最高温度最低温度降水，MAPE= 0.94%RMSE= 561公斤/公顷（2021年）小麦调查土壤深度、土壤质地、pH值、.R2=0.83Khaki等人玉米CNN-RNNRMSE产量管理天气降水量、太阳辐射最高温度RMSE= 4.15（2020年）大豆土壤最低温度土壤有机含水量bu./英亩Alibabaei等人番茄比迪瑞克MSE，R2气候资料灌溉物质，雪，10其他功能平均温度MSE= 0.017（2021年）马铃薯标准LSTM土壤水分最小温度最小、最大平均相对温度R2=0.99Shook等人大豆LSTMMAE，RMSE R2内容天气数据湿度、平均太阳辐射和其他平均温度RMSE= 7.226（2021年）最低温度平均降水量，3其他bu./英亩特征MAE= 5.453R2=0.795Gyamerah等人（2020年）落花生粟RFRMSE、MAPE、MBER2气候资料产量日日照湿度最低温度RMSE= 0.0173吨/公顷MAPE=0.909%R2=0.9805MBE= 0.01吨/公顷Wolanin等人小麦CNNNash-Sutcliffe天气变量植被指数最高温度NSE= 0.868（2020年）效率最低温度5其他特性由于缺乏1996年以前的气象数据，我们将君士坦丁省的研究间隔从1996年缩短到2019年。第一来源的气候数据丰富且可下载;它提供每日记录（每天至少三个记录第二个来源提供了1945年以来的日常数据，但由于不可下载，很难重复使用。此外，它只包括几个特征（气温、降水、风和气压）;它包含了几个月的缺失记录因此，我们选择了两个数据源之间的共同属性（月平均温度和月平均降水量）作为预测变量，从11月到6月的每年。它有一个国家气候中心，提供更详细的数据，包括更多关于太阳辐射、湿度、压力、风等方面的信息。由于机构之间没有协议，这一数据是无助的。我们使用第三个数据源5用于以下目的：完成缺失月份的数据，并提取2005年2月之前的相对空气湿度，以构建用于第二个实验的数据集此来源的数据不能直接下载.硬粒小麦在秋季播种（从10月下旬到11月，受秋季降雨影响）;收获在夏季开始（从6月到7月）。为此，我们从11月到5月收集了Climatic数据3.3. 数据预处理历史产量数据完整，无缺失数据。我们从不同的来源获得气候数据;因此，我们首先提取所有需要的特征，并将其转换为单个5https://www.wunderground.com/history/monthly/dz/constantine/form.接下来，我们从一些冗余记录中清理数据。然后，我们使用中位数方法估算了其余的缺失记录在此基础上，我们收集并计算了温度，降水量和相对湿度的月平均值然后，我们计算每个区域中屈服时间序列的标准差（SD），然后将观察值定义为离群值，并在±3SD的范围内重新修正。最后，我们将数据归一化，并使用min_max归一化函数将其定义为区间[0，1]中的相同3.4. AI模型和评估指标为了研究这项工作中提出的数据增强方法如何提高产量预测的准确性，我们使用主要类型的AI回归模型进行了一系列全面的实验，用于作物产量建模。根据Klompenburg等人的研究， 2020），声称神经网络是作物产量估计中最常用和最准确的工具，我们选择了极端学习机（ELM），人工神经网络（ANN）和深度神经网络（DNN）作为预测模型。此外，我们还使用一些通常用于小数据集的算法来测试该方法的准确性：随机森林（RF）和支持向量回归（SVR）（见表2）。我们通过实验调整了每个模型的超参数;神经网络模型的属性，如它们的结构，学习率和激活函数，以及RF和SVR的属性最后，我们将数据归一化，并使用min_max归一化函数将其定义为区间[0，1]中的相同用均方根误差（RMSE）、平均绝对百分误差（MAPE）、决定系数（R2或R2）、平均绝对误差（MAE）和平均有偏误差（MBE）作为评价预报准确性的统计参数N. 谢尔吉农业人工159.b-ii我11b我我MAPE¼1∑yi-yi×100%2尺寸这些指标定义如下：s∑。ﬃﬃyﬃﬃiﬃﬃﬃ-ﬃﬃﬃﬃﬃbyﬃﬃﬃiﬃΣﬃﬃ2ﬃﬃNnR2¼1-伊伊比∑y y2∑y-yM AE¼N∑ N。yi-byij4M BE¼N∑。yi-byi5其中y、y、y、N是实际值、预测值、平均值和数据集3.5. 方法ML算法，特别是神经网络，被认为是数据饥渴的;小数据集会降低它们的性能。因此，使用小数据集预测作物产量可能无法达到高精度。在对数据进行预处理后，我们获得了一个数据集，其中包括君士坦丁省的23个样本和塞提夫省的14个样本我们将在三个不同的数据集下进行三个实验，每个数据集的组成如下：•我们首先用数据集1、数据集2和数据集3来表示分别用于实验1、实验2和实验3的数据集•我们分别用（data-set 1A，zone-A）和（data-set 1B，zone-B）引用君士坦丁省及其数据和塞提夫省及其数据。两个资料集均包含月平均降水量和月平均气温;•用于实验2的数据集2是通过附加特征（相对湿度）增强的数据集1，以通过首先向数据集添加新特征来提高预测的准确性我们建立了A区的数据集2A和B区的数据集2B;•在实验3中，我们将数据集2A与数据集2B合并以构建数据集3（区域A的数据集3A和区域B的数据集3B），合并过程将在后面讨论（参见图2）。 2）。我们将数据集分为训练数据（70%）和测试数据（30%）。我们选择这种划分是为了获得更多的案例来测试ML算法的生成能力，从而得到更准确的结果，因为太少的测试数据可能会导致对模型性能的乐观估计然后，我们使用三重交叉验证来训练ML算法。3.5.1. 通过合并数据集扩充数据为了在只有小数据集可用时提高模型预测的性能，我们通过合并用于训练/测试两个区域（A和B）的ML算法的原始数据集2（具有湿度）来增强它们以构建更大的数据集（数据集3）。然后，我们通过使用±3SD去除离群值对所得数据集（数据集3）进行预处理之后，我们使用min-max函数对其进行归一化。为了在三个实验之间进行更透明的比较，我们保留了用于实验1和实验2的相同测试集。因此，我们将数据集3分为三个子集：区域A的测试集A，区域B和训练集AB的测试集B，以及两个区域的训练集，这意味着我们将测试集A和测试集B从训练集AB中排除。图1.一、研究区域：红色的君士坦丁省（右子图）和绿色的塞提夫省（左子图）。RMSE¼ð1ÞN. 谢尔吉农业人工表160160总结本研究中使用的AI模型的主要特征、优点和缺点。Algo的优势和劣势安一种基于BP神经网络在较大的数据集上表现良好存在局部最小值问题难以确定正确的网络结构。计算上昂贵DNN一种基于BP神经网络的输入层、隐层和输出层网络模型ELM是一种基于经验风险最小化理论的单隐层前馈神经网络RF基于Bagging算法，并使用Entrance学习技术和Bootstrap。它在数据的子集上创建树使用基于规则的方法，而不是距离计算。SVR用于预测离散值，其基本思想是找到最佳拟合线（超平面），该线具有阈值内的最大点数，该阈值是超平面与边界线之间的距离。通过结合激活函数和丢弃方法在深层网络结构中进行优化，避免了过度拟合和局部极小值问题。通过训练复杂和庞大的输入数据来提高精度避免局部最小化和多次迭代。减少计算负担。较低的计算成本对高维数据表现良好对离群值和非线性数据具有鲁棒性适用于分类值和连续值。自动处理数据中的缺失值。不需要数据标准化。受噪音对异常值的鲁棒性。执行较低的计算。易于实现需要大量数据才能优于其他算法由于复杂的数据模型，训练成本很高需要高端计算机可能导致非最佳解决方案不可解释（黑盒）大数据集占用内存。易受过度拟合的影响，因为它不能预测训练数据范围之外的情况。当用小数据集训练时，无法处理离群值。对噪音敏感不适合大数据集。如果：特征数量>样本数量，则表现不佳交叉验证应用于训练ML算法。为了训练区域A的模型，我们将区域B的验证记录从其训练集中排除，对于训练区域B也是如此从另一个意义上说，我们根据目标区域调整ML算法的学习。图第二，数据扩充过程。4. 结果和讨论4.1. 结果在使用Scikit-Learn库等现有库在Python中实现ML模型后，我们获得了表3中所示的结果其中粗体文本表示每个实验中每个度量的最佳结果通常观察到，每个回归方法：ANN，DNN，ELM，RF和SVR，在大多数情况下，在两个区域的实验3中表现出比其他两个实验更好的性能。此外，他们也表现出更好的，以可比的性能与实验2和实验1，而实验2（数据的附加功能）是有利的。已知在较大数据集（ANN、DNN、RF、ELM）上表现良好的算法在两个区域的实验3中表现非常好然而，SVR在概括所有三个实验的高质量估计方面表现出弱点，特别是对于实验3（A区）。这是因为SVR在高维数据集上表现不佳图二、学习过程中使用的数据合并增强。N. 谢尔吉农业人工161表3不同ML方法对A区“康斯坦丁省”和B区“塞提夫省”的产量预测结果A区B区测试RMSE（q/ha）MAPE（%）MAE（q/ha）MBE（q/ha）R2RMSE（q/ha）MAPE（%）MAE（q/ha）MBE（q/ha）R2安实验10.100713.93940.08190.07890.93080.177145.94720.1639-0.10160.1247实验20.138822.29040.11330.11330.86850.139633.84360.1333-0.05400.3879实验30.068814.58460.06250.05270.95100.110021.41100.09080.01840.5730DNN实验10.160028.86170.1557-0.06140.88880.186321.41800.14740.09230.7721实验20.135415.12150.10150.04230.92040.157115.07680.1288-0.00810.8381实验30.03785.90030.02850.00010.96580.085418.70990.07390.00580.7151RF实验10.238128.06410.18620.03110.15210.134220.44300.11220.04590.7936实验20.212319.26080.14760.14670.32550.133221.36810.10950.07540.7965实验30.180428.80190.16460.14500.00200.051324.87980.0430-0.04180.8356榆树实验10.088914.78510.08050.06750.94610.160725.71530.1214-0.0859-0.0187实验20.087314.55970.0792-0.05780.94800.153935.83460.13440.09630.0661实验30.06939.47660.0549-0.04300.95020.110944.58860.08580.05350.6610SVR实验10.225136.19590.18510.14670.24200.289573.82470.2400-0.00160.0387实验20.297643.83910.26300.2518-0.32500.267871.21520.2206-0.03620.1774实验30.301439.85500.18410.2496-0.970.098548.09470.08590.02910.3945粗体表示每个实验中每个指标的最佳结果此外，当使用两个区域的扩增数据（实验3）时，观察到硬粒小麦产量预测的最佳性能，对于区域A使用DNN算法实现a（RMSE= 0.037q/ha，MAPE= 5.9%，R2=0.965），并且对于区域B使用RF实现a（RMSE= 0.051 q/ha，MAPE= 24.879%，R2=0.835），如表3所示。另一方面，当增加输入特征的数量时（实验2），几乎所有方法的评估指标（RMSE，MAPE，MAE，MBE，R2）都逐渐改善，特别是对于区域B。表明所有测试的回归方法，在某种程度上，能够受益于额外的输入功能。此外，相对湿度功能有助于提高许多地区的预测准确性例然而，当输入变量较少时，ML方法如ANN，RF和ELM优于DNN回归（实验1和实验2）。相反，当有更多的输入变量时，DNN比其他方法这是因为深度学习通常会超越普通的机器学习模型，用于更大的数据集（Maimaitijiang et al.，2020年）。图 3 和图 4 分别给出了使用测试数据的五种方法的评估指标（RMSE、MAPE、R2、MAE和MBE）的可视化性能条形图（A区）和B区。利用试验1的数据集预测硬粒小麦产量时，与五种基准方法相比，ELM在RMSE、MAPE、MAE和R2方面表现更好。然而，RF在B区的所有指标方面都优于所有其他型号。此外，我们可以观察到，人工神经网络，DNN和ELM表现非常好，关于所有的评价指标时，预测硬质小麦产量使用数据集3A从实验3相比，RF和SVR。此外，我们发现，对于B区，几乎所有方法都达到了RMSE，MAE，MBE和R2的高精度水平（除了DNN在R2时表现出一些退化）。RF在RMSE、R2和MAE方面优于其他方法，而DNN在MAPE和MBE方面优于其他方法另一方面，如果我们采用MBE度量，它解释了观测值大于预测值的平均值，并允许我们看到模型高估或低估了多少我们可以看出，DNN模型在这两个区域的表现优于所有其他此外，MBE值从实验1中的低估到实验2中的略微高估有改善此外，在实验3中，区域，表明实验3中两个区域的DNN模型没有偏差。如果我们查看所有评估指标的概述;我们可以观察到，与ANN和SVR方法的实验1相比，使用实验2的数据集2A（具有附加功能）并没有提高区域A的预测准确性，其中DNN记录了更好的性能，但仍然超过了ELM。然而，对于B区在实验2中，所有的方法表现优于实验1中的所有指标。RF算法在RMSE和MAE方面优于其他算法，DNN算法在 R2、MAPE和MBE方面优于其他算法这一事实使我们了解到，相对湿度特征的影响对于预测B区（以半干旱气候为特征）的小麦生长比A区（以地中海气候为特征）更重要。5. 讨论为了更清楚地了解情况，我们进一步研究了相对湿度与产量之间的关系，使用偏相关图（PDP）以及个体条件期望图（ICE）来可视化相对湿度对产量预测的边际效应以及两个区域之间的相关性。但是，由于相对湿度和降雨量之间存在平均相关性（已知A区的相关性=0.37，B区的相关性=0.43），PDP可能会产生误导。为了克服这一限制，我们使用了累积局部效应（ALE）图，这是一个无偏模型，描述了ML模型预测的特征有多少在图图5、6显示了A区和B区的两个PDP、ICE和ALE图，带有RF回归因子。图中的PDP。图5a和图6a分别描绘了相对湿度对区域A和区域B的产率的平均影响。我们可以观察到，相对湿度的增加使屈服值增加，直到达到某一水平，在该水平下屈服值变得稳定（从A区的0.55和B区的0.68此外，相对湿度对B区的影响比对A区的影响更显著;当我们观察产量变化的大小时，这一点很明显通过A区的曲线，我们注意到变化幅度等于0.035，与B区的0.20相比，这被认为是可以忽略的ICE曲线图见图1和图2。图5b和图6b，其中图中的虚线对应于覆盖在ICE线上的PDP线（特征的每个样本具有单独的线）。这些图突出了N. 谢尔吉农业人工162图3. 利用RMSE、R-Squared、MAPE、MAE和MBE柱状图，利用A区试验数据，利用ANN、DNN、RF、ELM、SVR等方法对硬粒小麦产量进行预测。N. 谢尔吉农业人工163图四、利用B区试验数据，采用RMSE、R-Squared、MAPE、MAE和MBE柱状图，通过ANN、DNN、RF、ELM、SVR等方法对硬粒小麦产量进行预测。预测分别对每个条目的特征的依赖性这些ICE图证实了先前的观察结果，其中我们可以看到，在A区中，几个样品具有弯曲的形状，而在B区中，所有实例都具有弯曲的形状。这表明相对湿度对B区的预测比A区更相关。图图5c和6 c显示了A区和B区的ALE图。这些图以零为中心，表示平均预测值，然后ALE曲线每个点的值是与该平均值的差值。差异越大，特征对产量预测的影响越大因此，我们得出结论，N. 谢尔吉农业人工164图五、A区湿度的偏相关图（PDP）、个体条件期望图（ICE）和累积局部效应图（ALE）。图第六章B区湿度的偏相关图（PDP）、个体条件期望图（ICE）和累积局部效应图（ALE）。B区相对湿度对产量预测的影响大于A区。6. 局限性和前景数据增强方法显著地帮助提高了许多模型的预测质量这一事实不仅是由于较大的数据集，但后者可能包含额外的信息和品种在不同的内在产量潜力的天气条件下，这一品种将是一个必要的预测变量（Filippi等人， 2019年）。这项研究的缺点是，我们使用了整个省（几个分散的田地和农场的集合），而没有考虑子区域的空间变异性（Pham等人，2022年），由于气候因素，不同的地形和土壤性质。此外，不同的农民按照不同的技术路线管理这些田地，用于播种、收获等。因此，尽管我们在本研究中没有使用大部分这些信息，因为它们不可用，但每个省一个站的天气数据与某些田地无关，可能会影响模式的输出。因此，如果我们有准确的气候变量信息和地面实况数据，我们可能会得到更多的数据点这将自动增加数据集，并可能提高结果的准确性此外，现场一级的信息将使我们能够使用从哨兵-2等卫星传感器获得的遥感图像与所采用的值相比，这将使得可以提供更接近农场上的实际温度的温度值，所述所采用的值描述可能非常远离同一省内的若干田地和农场的感测温度另一方面，它将允许我们使用额外的变量，如植被指数，这些变量已被证明在提高预测准确性方面有效（Maimaitijiang等人， 2020; Abbas等人， 2020; Filippi等人，2019年; Han等人，2020年; Kim等人，2019; Kamir等人，2020年; Oliveira等人， 2018; Schwalbert等人，2020; Sakamoto，2020）。从现场级信息的可用性中获得的另一个潜在益处是探索其他深度学习模型，如CNN，用于使用感测到的图像进行产量预测此外，利用用于图像分类目的的数据增强技术，以在需要时增加样本的数据大小（Arsenovic等人，2019; Aravind和Raja，2020）。此外，基于图像的深度学习方法可以利用来自卫星数据的光谱、空间和时间信息，并且可以减少对特征工程的需求（Sagan等人， 2021年）。N. 谢尔吉农业人工1657. 结论为了解决数据缺乏情况下的作物产量估计问题及其对预测质量的影响，我们在阿尔及利亚两个不同省份进行了仅使用两个气候变量预测硬粒小麦产量的方法是增加数据的大小和维度。首先，我们通过添加新的气候特征来增加初始数据的维度其次，我们通过合并两个省的数据集来扩大其规模，以创建更重要的输入。接下来，我们进行了大量的实验来研究数据大小的影响并选择最佳模型，特别是检查和测试合并数据扩充方法的有效性我们基于两省的三个不同数据集，对五种主要的AI回归模型进行了深入的比较然后，我们提出了一个交叉验证训练/测试过程来学习算法，以开发用于作物产量预测的最佳模型因此，我们在利用合并两个省的数据集进行数据扩充时实现了最佳性能虽然DNN模型在第一个省的表现优于其他四个AI模型，但RF模型在第二个省的表现优于相关模型本研究中提出的数据增强方法表明，结果很有希望，可以在其他地区或其他作物上采用。此外，所建议的方法是通用的，允许其应用于其他农业应用或其他数据稀缺的领域信用报告书Nabila CHERGUI：概念化，方法学，数据收集和处理，执行实验，可视化结果，准备表格和图像，撰写草稿，撰写-审查和编辑，竞争利益声明我们声明，本研究论文不存在任何利益冲突，也没有对本工作的财务支持确认作者感谢君士坦丁和塞提夫农业部的合作，并为我们提供了所需的硬粒小麦作物数据。引用Abbas，F.，Afzaal，H.，Farooque，A.，Tang，S.，2020年。通过近端传感和机器学习算法进行作物产量预测农学10，7.https://doi.org/10.3390/agronomy10071046.Alibabaei，K.，Gaspar，P.，Lima，T.，2021年基于气候大数据和灌溉调度的深度学习作物估产。能量14，11。 https://doi.org/10.3390/en14113004.Aravind，K.，Raja，P.，2020年。使用自动分类法对（选定）农作物中的病害进行自动分类。J. Automatikaa.J. C on tr ol，M ea s u r. ELECTR. C OM P。来吧。62，260-272.https://doi.org/10.1080/00051144.2020.1728911。Arsenovic，M.，Karanovic，M.，Sladojevic，S.，Anderla，A.，Stefanovic，D.，2019年。解决当前基于深度学习的植物病害检测方法的局限性。对称性11. MDPI，7。https://doi.org/10.3390/sym11070939网站。Barbedo，J.A.，2018年数据集大小和种类对植物病害分类的深度学习和迁移学习的有效性的影响Comput.电子学。农业153，46-53.https://doi.org/10.1016/j.compag.2018.08.013。曹杰，赵志，Luo，Y.，（1996年），美国，张，L.，张杰，Li，Z.，陶，F.，2021年利用深度学习、机器学习和谷歌地球引擎预测县和田间小麦产量 EUR.杰 · 艾力冈。123.https://doi.org/10.1016/j.eja.2020.126204网站。陈杰，刘昆，加奥湖，2019年。基于卷积神经网络模型的茶叶病害视觉识别。对称性11，3。https://doi.org/10.3390/sym11030343网站。Chergui，N.，Kechadi，T.，McDonnell，M.，2020年。数据分析在数字农业中的影响：综述。 2020年国际多方会议：“知识和先进技术的组织”。2020年2月6日IEEE，第1https://doi.org/10.1109/OCTA49274.2020.9151851。Crane-Droesch，A.，2018年农业作物产量预测和气候变化影响评估的机器

下载后可阅读完整内容，剩余1页未读，立即下载