气候变化对作物产量的预测方法研究：基于弱回归量自适应增强模型的实验评估.

146 浏览量更新于2024-01-14 收藏 2.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

--沙特国王大学学报考虑气候变化的作物产量预测弱回归量的自适应增强：经验评估Subhadra Mishraa，Debahuti Mishraa，Gour Hari Santraba部。印度奥里萨邦布巴内斯瓦尔Siksha'O' Anusandhan大学计算机科学与工程系b部印度奥里萨邦农业和技术大学土壤科学和农业化学阿提奇莱因福奥文章历史记录：2017年5月31日收到2017年11月27日修订2017年12月4日接受在线发布2017年保留字：AdaBoost线性回归Lasso回归，岭回归SVR线性回归SVR多项式回归，SVR RBF回归作物产量预测A B S T R A C T根据沿海地区不同的气候条件进行作物产量预测是一个关键过程。在这项研究中，基于回归的自适应助推预测模型，使用Kharif和Rabi季节的数据集本文对线性、套索、岭回归、SVR回归等不同的弱回归进行了讨论和实验，AdaBoost有助于将弱回归量的组合输出转化为加权和，该加权和表示增强的强回归量的最终输出以及弱回归量的输出，弱回归量的输出可能会自适应地扭曲以支持错误预测的实例。从试验中可以看出，由于作物生产气候条件的频繁的、固有的属性，弱回归因子的决定是不同的。所获得的数值模拟结果的误差，各种性能指标和统计分析表明，突出了所提出的强回归预测方法相比，弱回归预测方法的作物产量的吸引力。©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍农业孕育了文明。印度是一个农业国家，其经济主要依靠农作物生产.因此，农业是印度所有商业的支柱。目前，印度的农业产量在世界上排名第二。农业及林业和渔业等相关部门占2015年GDP的14.5%，约占总劳动力的50%。印度大多数农民都没有达到预期的作物产量。由于许多原因，各种作物的产量取决于气候条件。由于全球变暖，气候变量，如：降雨量，温度，太阳辐射和湿度都发生了变化。预计到2100年，由于粮食产量*通讯作者。电子邮件地址： subhadramishra@rediffmail.com （ S.Mishra ），soauniversity.ac.in（D.Mishra），santragh@yahoo.co.in（G.H. Santra）。沙特国王大学负责同行审查温度升高、水资源紧张加剧以及雨天的数量和分布减少。通过对印度所有基地的模拟分析表明，到2030年，天气变化对产量的影响范围为2.5到12%用于水稻作物（Reddy例如，2011; DeFries等人，2016; Satir，2016; Dumont等人， 2015年）。在这种情况下，迫切需要对未来作物生产力进行预测，以便及时向农民提供建议，并对其进行分析，以帮助农民获得最大的作物产量。在早期，生产主要基于农民以前对特定作物的经验（Kandianan等人，2012年;Sharma等人，2016年; Yin等人，1982年）。印度农业的观测或数据集数量非常庞大。现在，许多计算模型正在试验和开发，以帮助农民考虑各种因素，如降雨量，温度，太阳辐射，风，湿度等，以最大限度地提高作物产量并且农民也可以意识到洪水和干旱（Dumont等人， 2015年）。计算预测模型在农业中的重要应用包括（Dumont等人， 2015;Kandianan等人，2012年; Sharma等人，2016年; Yin等人，1982;Yadav等人，2015; Sethi等人， 2006年）：（a）评估洪水和干旱的脆弱性;（b）估计田地的生产能力;（c）预测作物的几个条件和参数https://doi.org/10.1016/j.jksuci.2017.12.0041319-1578/©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com950S. Mishra等人 /沙特国王大学学报-计算机与信息科学32（2020）949- 964增长;以及（d）与通过智能猜测进行预测的传输手段相比的计算效率在过去，通过模仿作物的数学功能进行了明确的尝试，导致非常简单且不那么有效的系统。也有人建立了大型复杂的综合模型，其中包含了各种信息，但都很笨拙。这些简单和复杂的数学模型的用途主要限于进行灵敏度分析、指导实验和演示目的的模拟。计算机科学家和统计学家一起带来了许多方法和方法来提高预测能力。它主要用于数据科学家，数据分析师以及希望使用原始数据来预测或发现数据趋势的人。回归分析是统计分析文献中可用的工具之一，是用于对一个或多个独立或预测变量与我们想要预测的因变量或响应变量之间的关系进行建模的简单，常见和重要的技术（Sellam和Poovammal，2016;Bagirov等人，2017; Bieliková等人， 2014年）。当所有的预测变量都是连续值时，那么最好的预测方法是回归分析。有各种类型的回归技术可用，例如：线性回归（LR），岭回归（RR），套索回归（Lasso），支持向量回归（SVR）等。（ Bagirov等人，2017; Bieliková 等人，2014; Salimi等人， 2016年）。本研究讨论和实验了不同的弱回归技术，并通过避免弱回归的缺点和引入自适应增强（AdaBoost）的优点提出了智能预测器（Baiget al.，2017年;Sun等人，2016; Dan等人， 2016）结合这些弱回归函数，以提高水稻产量对学习问题的预测准确性和计算复杂性。我们总结本文的贡献如下：为了探索回归技术的能力和不同的可能性，AdaBoost集成技术的一个变体已经被实现，以通过将弱回归的输出组合成表示增强的强回归的最终输出的加权和来增强传统的弱回归，并且弱回归的输出也被扭曲以有利于自适应地错误预测的实例。由于作物生产气候条件的频繁和固有属性，弱回归因子的决定可能会有所不同。所提出的预测模型建立，个别回归可以是弱的，但推升模型被证明是一个强的回归。基于LR、RR、Lasso和SVR（线性、多项式和RBF）并使用AdaBoost进行增强的作物产量（水稻）或生产力计算模型，并使用来自印度奥里萨邦Balasore、Puri和Cuttack等三个沿海地区的可用实验数据（1983-气候变率的影响也被跟踪，通过选择最具信息量的特征集，通过估计系数值，这有助于预测水稻产量。所提出的预测模型进行了测试和结果的误差，性能指标，如：平均绝对误差（MAE），均方误差（MSE），中位数绝对偏差（MAD），R2得分和统计分析的基础上配对T检验（瓦尔特和乔斯林，2005年;阿姆斯特朗，2001年）进行了比较，弱和强回归，以证明所提出的自适应增强预测方案的有效性。仿真模型的说服力和实用性通过取代对更多的分析和计算方法的基础过程。由于长期和持续的研究兴趣，有大量的复杂的综合本节讨论了各种预测模型，这些模型是为了开发一种新的基于回归的模型而研究的，不仅限于农业，还用于其他各种应用。为了规范预测精度和模型解释，Cui和Wang（2016）开发了一个主要针对高维数据回归设计的框架。其框架包括两部分：一部分是利用集成学习方法生成集成特征，另一部分是建立回归模型。因此，他们的学习器模型主要适用于高维小样本数据，解决了复杂的数据回归问题。他们收集了牛奶光谱数据，他们的任务是预测牛奶的蛋白质含量从训练数据和验证数据中，他们发现了使用Lasso模型的集合特征，并使用Lasso方法和交叉验证程序提取了集合特征Yu和Guo（2015）应用最小绝对收缩和选择算子（Lasso）技术，这是一种预测公司破产的变量选择方法。他们收集了1980-2009年的数据。他们的结论是，使用Lasso选择变量具有优越的样本外预测能力。对于回归的收缩和选择以及一般化的回归问题，Shirani（1996）提出了一种名为Lasso的新方法。它不是在子集的基础上选择变量，而是在连续收缩操作的基础上选择变量，该操作可以产生精确为零的系数。他们在各种情况下检查了他们的方法，例如：少量的大效应，小到中等数量的中等规模的效应，大量的小效应。他们的结论是Lasso是子集选择和RR的最佳竞争者 Friedman等（2015）开发了一种通用模型来解决复杂问题，并且还具有稀疏特征，使用LR，两类逻辑回归，多项式回归，包括正则化回归，例如：Lasso和RR以及弹性网络和Friedman等人的混合物。（2008）开发了一种使用Lasso或L1正则化的稀疏逆协方差矩阵的简单算法。它可以在一分钟内解决1000个节点，不少于50，00，000个参数的图形。它比其他竞争方法更快。Budka和Gabrys（2012）建议采用一种合奏系统它预测了各种化合物的毒性。在动物身上测试毒性是不道德的，也是昂贵的。作者开发的系统是一个简单的记录驱动的，精确的和通用的方法QSAR建模集成的RR。由于对输入变量的共线性和近似共线性没有解，他们用RR给出了一个新的参数，来寻找解偏离普通最小二乘回归的程度，改善了问题的条件。回归器使用梯度法和次优优化过程进行训练，因此，它们从其他可用方法中选择了 RR 。 Manuel Pereira 等人（2016）应用Logistic Lasso和RR预测企业失败。由于他们约定了多重共线性值，因此他们考虑了RR和Lasso，以将参数估计值缩小到零或恰好为零。他们将训练集分为4类：失败企业和好企业规模相等的训练集，失败企业比好企业小一半的训练集，总数据的40%作为训练集，最后是失败企业比好企业大的训练集。在每种情况下，他们都计算了SPSS逐步方法以及Lasso和RR。但他们观察到，使用Lasso和RR比SPSS逐步方法改善了结果。●●●●●S. Mishra等人 /沙特国王大学学报-计算机与信息科学32（2020）949-964951Liu等人（2017）提出了一种使用RR算法查找数控机床热误差的模型。他们收集了不同季节数控机床的热误差。由于温度敏感点和热误差之间存在共线性，他们使用了RR。提出了一种利用岭参数选择温度敏感点的鲁棒RR机床热误差建模方法。它们的模型只适用于机床处于理想状态时，而不适用于实际切削状态。Shi等人（2016）使用RR分析拥堵他们收集了高峰期和非高峰期的交通数据。他们发现在高峰时段使用RR的交通参数之间的多重共线性。他们还比较了包括和不包括RR的模型，发现包括RR时Hwan Kim等人（2014年）使用各种回归技术编写了关于作物害虫预测方法的调查。为了根据气象因素预测叶片湿度，Chtioui等人（1999）建立了广义回归神经网络（GRNN）。以时间、温度、相对湿度、风速、太阳辐射、降水量、土壤湿度指数等参数，对多元线性回归（MLR）和广义回归神经网络（GRNN）两种预测方法进行了比较，发现GRNN优于MLR。Rutkoski等人（2012）提出了一种基于RR、MLR、贝叶斯套索、再生核希尔伯特空间回归和随机森林回归的集成方法预测小麦害虫的模型。Hooker等人（2002）收集了1996年至2000年加拿大南部安大略省399个农场的数据他们考虑了各种天气参数，如：日降水量，日最低/最高温度和每小时相对湿度。认为脱氧雪腐镰刀菌烯醇的发生与小麦生长的时间点、降雨量和温度有关。针对小麦条锈病的预测问题，Wang and Ma（2011）提出了利用回归方法和支持向量机（SVM）建立小麦条锈病预测模型。他们观察到，SVM比回归更拟合由于气候是影响产量的主要因素，水稻是主要粮食，Barnwal和Kotani（2013）研究了气候对农作物产量的影响，并将分位数回归应用于安得拉邦的水稻作物。他们选取了34年的数据进行分析，发现3个结果，如：气候变量影响产量分布;在农业气候带中影响更大，季节影响更重要。一般意义上的回归分析是指或从另一个变量的已知值预测一个变量的未知值。它专门用于商业和经济学研究两个或多个变量之间的关系，这些变量之间存在因果关系，并用于估计需求和供应曲线，成本函数，生产和消费函数，价格，投资，销售，利润，收入等。其值受影响或被预测的变量称为depen。影响数值或预测的变量称为独立变量。在这种回归分析中，自变量称为回归变量或预测变量，因变量称为回归变量或解释变量。回归分析中最重要的术语概述了下面给出的定义（Sellam和Poovammal，2016; Bagirov等人，2017; Bieliková等人，2014; Salimi等人，2016; Gupta，2001;Sullivan and College，2014; Novotná等人， 2015年）。定义1：回归分析是对两个或多个变量之间的平均关系的数学测量，以原始数据为单位。定义2：如果将二元数据绘制在一个图上，那么在散点图上获得的点将或多或少地集中在一条曲线周围，这条曲线称为回归曲线。定义3：如果回归曲线是直线，我们说研究中的变量之间存在线性回归，但是，如果曲线不是直线，则回归被称为曲线或非线性回归。定义4：回归线是一条线，它给出了一个变量对其他变量的任何给定值的最佳估计。定义5：为了获得最佳估计或最佳拟合，并根据最小二乘法原理进行解释，该原理包括最小化残差或估计误差的平方和。基本上，基于回归的预测或预测技术的优点是（a）它利用研究和分析来预测未来，（b）通过查看历史数据来支持决策，并通过发现数据元素之间的相关性来提供科学的角度来管理大量原始数据到可操作或可解释的数据，（c）可以为正确的思维管理提供经验支持，并通过纠正错误提供证据，（d）可以通过揭示由于大型数据集而从未注意或考虑的模式和关系来为研究人员、管理人员或农民提供洞察力，（e）允许建立客观的措施来发现自变量和因变量之间的关系，而不是而不是致力于纯粹的个人判断决定，从而导致预测准确性的提高，（f）用作评估工具以确定使用回归方程获得的预测结果的准确性，(g)多元回归分析模型使研究人员能够测试几个独立变量，可以解释有关因变量的许多事情，并且使用几个变量可以提高预测精度;以及（h）提供所需的基于作业的成本管理技术，以应对环境的动态变化，并可以建立未来趋势预测的研究目标（Sellam和Poovammal，2016; Bagirov等人，2017; Bieliková等人，2014;Salimi 等人， 2016; Gupta ， 2001;Sullivan and College ， 2014;Novotná等人， 2015年）。根据研究，在许多应用领域中已经提出了各种计算模型典型的是，回归模型是更有潜力的预测工具。因此，本文对基于强回归策略的AdaBoost进行了实证评估，并对印度奥里萨邦沿海地区的作物产量进行了预测用于整个实验的所有材料和方法已在实验和结果讨论部分中概述。论文的其余部分是以这样的方式组织的;第2节探讨了提出的各种基于回归的预测模型，并说明了所提出的模型的图形图和工作流程第3节讨论了弱回归和强回归的详细实验和模型评估。第四节讨论了基于AdaBoost的强回归模型的预测方法。第五部分讨论了实验结果分析，最后第六部分总结了本文的研究，并重点介绍了未来的工作范围。弱SVR弱LR强LR强RR强力套索强SVR验证准确度测量业绩计量统计分析南952号Mishra等人 /沙特国王大学学报-计算机与信息科学32（2020）949- 9642. 基于AdaBoost的在其他方法中，基于回归的预测模型通过使用历史数据来计算出一组说明性特征之间的关系（ Sharma 等人， 2016 年 ; Yin 等人，1982;Yadav等人，2015; Sellam和Poovammal，2016; Bagirov等人，2017; Bieliková等人，2014; Salimi等人，2016年）。基于统计和回归的方法已被广泛用于预测金融数据分析以及作物生产领域的未来趋势在这项研究中，我们介绍了一个开创性的工作，在农业领域的回归技术的基础上，预测奥里萨邦沿海地区的Kharif和Rabi季节的水稻产量。图1说明了实现的流程，其中弱回归技术，如LR，RR，Lasso和SVR已用于广泛的研究和实验。首先，来自奥里萨邦三个沿海地区的Kharif和Rabi sea- son的数据集已被预处理，并作为传统/弱回归的输入。其次，从这些得到的结果进行了分析，那些被错误预测或不匹配的期望的预测值的实例已被提升使用AdaBoost和弱回归的输出被扭曲，有利于错误预测的实例自适应地产生强回归。最后，对弱回归模型的结果进行了分析，并与强回归模型的结果进行了比较和验证。本工作的主要目的是通过考虑数据集的气候变异性，产生一组适用于作物产量预测的强回归因子。3. 试验和模型评估基于计算机的农业系统模拟模型是现实的抽象，用数学和Fig. 1.水稻产量预测自适应推升回归模型的图形摘要。逻辑术语。由于这些模型从来没有完全代表现实，他们可能是不完美的。尽管有这个缺点，研究人员正在努力开发和构建模型，试图尽可能地模拟现实，并可以假设在大多数情况下是有效的。构建此类计算预测模型的逻辑和机制基于问题识别、数据可用性、逻辑、编程方法、计算工具、验证和确认以及软件/硬件要求。在本节中，详细的实验进行了讨论。所有的实验都是在Ubuntu操作系统上使用Python进行的，最小内存为2 GB，处理器为2 GHz3.1. 数据集说明收集了Balasore，Puri和Cuttack等不同地区的水稻生产的真实数据集（农业和粮食生产主任主要有两种类型的水稻生产发生在这些地区，如：拉比和Kharif全年。影响水稻产量的因素有很多，但气候是最重要的因素，在气候因素中，降雨量、温度和湿度的影响最大。因此，本文将这些参数用于预测，并通过各种回归方法建立与水稻产量的关系。Kharif和Rabi季节分别由一年中的六月至十二月和一月至七月组成两个季节的数据集特征在所取参数方面差异很大，Kharif季节比Rabi季节更大，影响作物生长。这些数据集包含一些缺失值，这可能导致数据集不一致，并且有不同的方法来处理这些缺失值（Han和Kamber，2006）。在这项工作中，我们考虑了存在缺失值的列中所有值的平均值。这种技术对不同机器学习技术的性能影响很小，但它比完全避免包含缺失值的整个样本更好。这两个数据集中的特征可以详细描述如下;特征是年份、降雨量、最低温度（℃）、最高温度（℃）、上午8时30分的相对湿度和5.30每一年的水稻产量。根据这些参数，在两个季节的预测中不考虑年份和生产特征，即期望产量。由于Kharif季节为6月至12月，自变量总数为35，Rabi季节为1月至5月，自变量总数为25。收集了1983-2013年的数据，共包含31个数据集的尺寸见表1。3.2. 参数讨论本节详细介绍了在实验和结果分析期间考虑的各种参数及其各自的回归技术值（见表2）在弱回归量的提升期间，AdaBoost考虑的参数是：基本估计量（即表2中提到的任何回归技术），估计量的数量为500，学习率为0.01，损失函数-最小二乘回归，最大深度为表1水稻生产数据集描述。持续时间（年）Rabi Kharif巴拉索尔1983普瑞1983卡塔克1983数据集弱RR弱套索自适应增强AdaBoost¼S. Mishra等人 /沙特国王大学学报-计算机与信息科学32（2020）949-964953表2回归技术的参数设置。回归技术参数线性回归拟合截距=真，归一化=假岭回归正则化强度（alpha = 0.5），拟合截距= true，normalize = false，Tolerance = 1e-3L1项的Lasso回归乘数（α = 0.1），拟合截距=true，normalize = false，最大迭代次数=1000，公差= 1 e-4，L1比率= 1.0线性核支持向量回归机核类型核惩罚因子= 1.0带RBF核的SVR核类型因子= 1.03.4. 使用弱RR进行它基本上是一种用于分析具有多重共线性的多元回归数据通常，预测变量用于高度相关的回归模型因此，任何一个变量的回归系数取决于模型中包括哪些其他预测变量，哪些是被忽略的RR通常会在变量中添加一个小的偏倚因子，以减少这个问题。换句话说，它就像最小二乘法，但将估计的系数降低到零（Gupta，2001; Sullivan andCollege，2014; Novotná et al.，2015年; Exterkate和Groenen，2016年）。RR系数可以在（1）中描述。^ridge2 2b¼argminb2Rpjjy-Xbjj2kjjbjj21个体回归估计量其中y2Rn是响应向量，X2Rn×p是预测矩阵，jjy-Xb2jj是损失项，jjkb2jj是惩罚项，split3.3.使用弱LR进行预测预测可以被描述为根据其他一些相关事物来确定某一事物的过程。通常，可以使用回归分析在数据挖掘领域中执行预测（Gupta，2001;Sullivan and College，2014; Novotná等人，2015年）。LR是使用最广泛的统计方法用于数值预测。这是在因变量（y）和一组自变量（X）之间建立关系的过程。对于多个自变量，这个过程称为MLR。图2显示了三个不同地区，如Balasore、Puri和Cuttack的Kharif和Rabi季节产量的实际值和预测值之间的比较，可以得出结论， L R 模型在这个特定区域的性能很差。图 3描述了线性回归中使用的不同独立变量的估计系数值。高系数值意味着对应特征对预测过程的高影响系数图通过绘制回归过程中使用的系数值来显示不同特征的重要性。表3概述了所有沿海地区Kharif和Rabi数据集的气候条件的重要特征，这些气候条件对使用LR进行水稻产量预测更敏感。该型号的其他性能指标值已在第5节中讨论，并在表6和表7中提供。kP0是控制笔项强度的调谐参数。当k <$0时，我们得到LR的估计，k<$1，我们得到bridge0，并且对于k之间，我们可以在X上拟合y的线性模型，并且可以缩小系数。当与LR相比时，RR根据k的选择提供更好的预测误差。因此，当真系数的子集很小或为零时，它工作得最好从图1所示的实验研究中，如图4和5所示，可以观察到RR的性能几乎类似于LR的性能。表4描述了所有沿海地区Kharif和Rabi季节数据集3.5. 使用弱Lasso进行它也被称为最小绝对收缩和选择算子。它是一种回归分析技术，执行变量选择和正则化，以提高模型的预测精度和可解释性。换句话说，Lasso是一种线性回归的收缩和选择方法.它使通常的平方误差和最小化，并对系数的绝对值和进行测量。套索通常是相当有用的用于特征选择，并防止训练数据的过度拟合。RR通过调整k参数并保持系数为零，提供了比LR更好的预测误差。但在现实中，它从不将其系数设置为精确的零，因此，它不能在线性模型中执行变量选择（Gupta，2001;图二、使用LR对（a）Rabi和（b）Kharif的三个不同地区的水稻产量预测结果222南954号Mishra等人 /沙特国王大学学报-计算机与信息科学32（2020）949- 964图三.（a）Rabi和（b）Kharif水稻产量预测中LR的估计系数。表3气候特征对拉比和哈里夫季节数据集的LR贡献更大区Rabi卡里夫特征编号特征名称功能编号特征名称巴拉索尔61月最高温度14最高温度（DEC）普里7最高温度（FEB）12OCT中的最高温度库塔克7最高温度（FEB）18SEP中的最低温度图四、使用RR（a）Rabi和（b）Kharif季节对三个不同地区的水稻产量（Rabi和Kharif）的预测结果Sullivan and College，2014; Novotná等人，2015; Kamkar等人，2015年）。Lasso系数可以在（2）中描述。3.6. 使用线性、多项式和RBF核的SVR预测这种技术是基于Vapnik的支持概念b^套索 1/4argminb2Rpjjy-Xbjj2kjjbjj12向量。SVR使用与SVM相同的原则进行分类，只有一些微小的差异。在回归的情况下，其中y2Rn是响应向量，X2Rnωp是预测矩阵，y-Xb2是损失项，kb1是惩罚项，k是调谐参数。Lasso和RR之间的主要区别是后者使用平方损失惩罚b2，而前者使用类型b1的损失惩罚。从图从图6和图7可以得出结论，所有三个回归模型的性能相似，回归过程中使用的系数值差异很小。表5描述了所有沿海地区Kharif和Rabi数据集使用Lasso进行水稻产量预测建立容限（margin of tolerance）（SVM），近似于从问题中提取的SVM。除此之外，主要的想法是最大限度地减少错误，个性化的超平面，最大限度地提高利润，记住，部分错误是可以容忍的。换句话说，通过训练点的小子集来呈现解决方案提供了巨大的计算优势（Gu等人，2016; Hájek和Olej，2012;Paniagua-Tineo等人，2011年）。因此，我们使用的密集损失函数，我们确保存在的全局极小，同时可靠的推广界的优化。S. Mishra等人 /沙特国王大学学报-计算机与信息科学32（2020）949-964955图五. 估计系数RR预测水稻产量（a）拉比和（b）Kharif季节。表4气候特征对Rabi和Kharif数据集的RR贡献更大区Rabi卡里夫特征编号特征名称功能编号特征名称巴拉索尔61月最高温度14最高温度（DEC）普里61月最高温度13最高温度（11月）库塔克7最高温度（FEB）18SEP中的最低温度见图6。使用Lasso对（a）Rabi和（b）Kharif季节的三个不同地区的水稻产量预测结果。从图8（a）所示的实验研究中，可以得出结论，与仅用于预测Kharif水稻产量的所有其他技术相比，SVR表现更好。与其他技术一样，它在预测拉比水稻产量方面的性能也很差，这可以从图8（b）中看出。因此，为了提高这些弱回归器的性能，本文提出了一种基于AdaBoost的回归器来提高性能，并命名为Rabi季节数据集的强回归器。4. 基于AdaBoost的强回归模型预测根据上述经验分析（图）。2-10）可以观察到，我们使用的弱回归模型对奥里萨邦不同地区的Kharif产量给出了最佳预测结果。但这些模型对不同地区的狂犬病产量因此，为了提高他们的我们已经使用了一个应用自适应增强（AdaBoost）LR，RR，Lasso和SVR与不同的内核。Boosting算法的主要它采用多个预测器来建立一个强大的预测算法。AdaBoost通过选择基本算法（例如LR）并通过考虑预测中的误差来迭代地改进它来工作（Baig等人，2017年; Sun等人，2016; Dan等人，2016;Wang，2012）。图图9-12显示了AdaBoost使用不同弱估计器增强的预测结果，例如：分别用于Rabi季节的LR，RR，Lasso和SVR回归方法。通过引入boosting方法，上述回归模型的性能得到了显著提高。在这些模型中，与AdaBoost的SVR回归模型给出了最好的结果相比，其他。类似地，当对所有三个地区数据集的Kharif季节进行实验时，没有观察到显著变化，并且可以从图1A和1B中看到。13-X¼jN1南956号Mishra等人 /沙特国王大学学报-计算机与信息科学32（2020）949- 964见图7。 Lasso在（a）Rabi和（b）Kharif季节水稻产量预测中的估计系数。表5气候特征对拉比和哈里夫季节数据集的RR贡献更大区Rabi卡里夫特征编号特征名称功能编号特征名称巴拉索尔61月最高温度14最高温度（DEC）普里7最高温度（FEB）19OCT中的最低温度库塔克7最高温度（FEB）18SEP中的最低温度图8.第八条。利用支持向量回归机对三个不同地区的水稻产量进行了（a）拉比和（b）哈里夫季节的预测结果十六岁表6和表7分别提供了Kharif和Rabi季节的其他参数测量，以比较使用AdaBoost增强的不同弱回归量和强回归量5. 实验结果分析本节详细分析了作物产量预测的弱回归和强回归。各种绩效指标更多的预测Kharif生产相比Rabi生产。此外，与Kharif产量预测的所有其他技术相比，具有多项式核的SVR表现出色。为了提高Kharif和Rabi生产预测的性能，我们使用了基于AdaBoost的强回归方法。使用以下公式（3）-（6）的MAE、MSE、MDAE和R2 Score方面的性能度量N用MAE、MSE、MAD和R2评分等指标来衡量预测的准确性，并对两类回归变量的统计分析进行了探讨、分析和讨论。MAE1PNi-1N实际 -P预测值j 35.1. 弱回归和强回归的从图2-16和表6和7，可以观察到本文中使用的所有回归技术都是适用的MSE¼1X实际P-预测P = 2.24 ×2.24 × 2.24MAD1/4中位数误差i-中位数误差1/5中位数误差¼-I¼XS. Mishra等人 /沙特国王大学学报-计算机与信息科学32（2020）949-964957图9.第九条。基于AdaBoost的LR方法对三个不同地区水稻产量（Rabi季节）的预测结果见图10。利用基于AdaBoost的RR对三个不同地区的水稻产量（Rabi季节）进行预测。R2评分1平方误差和平方和其中，平方误差和<$PN1<$P实际值-P预测值<$2ð6Þ被认为是5。总数据集被分成5个折叠，在每次迭代中，一个折叠用于测试，其余的折叠用于训练回归模型，以评估不同参数的最终值。以低MAE、MSE、MAD和高R2评分值形式表现最好的是的平方总N公司简介1/1实际 - --预测误差在表6和表7中以粗体显示，以便更好地了解预测结果。表6显示了Balasore、Puri和Cuttack生成的结果其中，P_actual和P_predicted表示所测量的预测功率值，并且Error^j表示P_actual-P_predictedj。最佳预测的概率指标的期望值对于MAE、MSE、MAD和一个R2Score应该是零所有的实验评价都使用k折交叉验证进行验证，其中k值分别用AdaBoost增强的弱回归模型和强回归模型对Rabi季节的区域作物进行预测。可以观察到，使用基于Ada-Boost的强回归量的每个误差测量的值与已经报道的弱回归量的结果很好地一致。2南958号Mishra等人 /沙特国王大学学报-计算机与信息科学32（2020）949- 964见图11。使用基于AdaBoost的Lasso对三个不同地区的水稻产量（Rabi季节）进行预测。见图12。基于AdaBoost的支持向量回归机（a）线性支持向量回归机;（b）多项式支持向量回归机;（c）RBF核支持向量回归机，对三个不同地区水稻产量（拉比季）进行预测。图13岁使用AdaBoost基于LR的三个不同地区的水稻产量（Kharif季节）预测结果S. Mishra等人 /沙特国王大学学报-计算机与信息科学32（2020）949-964959图十四岁使用AdaBoost基于RR的三个不同地区的水稻产量（Kharif季节）预测结果图十五岁使用基于AdaBoost的 Lasso对三个不同地区的水稻产量（Kharif季节）的预测结果图16.基于AdaBoost的三个不同地区水稻产量（Kharif季节）的预测结果：（a）线性SVR;（b）多项式SVR;（c）RBF核SVR。---南960号Mishra等人 /沙特国王大学学报-计算机与信息科学32（2020）949- 964表6Balasore，Puri和Cuttack地区Rabi季节数据集的弱回归和强回归的性能指标业绩计量回归技术弱LR强LR弱RR强RR弱Lasso强力套索弱SVR（线性）强SVR（线性）弱SVR（Poly）强SVR（聚乙烯）弱支持向量回归（RBF）强支持向量回归（RBF）巴拉索尔区数据集124.853 47.831 124.480 9.746 92.307 24.787 0.081 36.022 18.178 52.647沪公网安备31010502000119号10834.76929638.7111129.606 80203.8815000.29 0.009 7089.622 10134.4522019年12月31日星期一上午10：00-下午11：00R2得分0.861 0.993 0.859 0.949 0.861 0.994 0.625 0.976 0.966 0.984 0.952 0.999普里县数据集152.379 2.568 153.632 23.353 152.283 34.538 1310.695 14.906 706.007 49.105 9.292 42.361沪公网安备31010502000114号2704.35235201.3004702.836 2163895.73023.979 915578.942 10156.7332621.023 4144.796115.892 1.818e 12120.819 8.137 115.574 1.157 1181.134 0.170 452.933 0.111 0.099 2.475R2得分0.793 0.996 0.783 0.984 0.793 0.972 0.743 0.982 0.932 0.940 0.975 0.999卡塔克区数据集2019 - 05 - 26 00：00：00MSE 6821.112218.9477272.9172287.7506824.4592887.836 13488 4273092.2430.0090.010 3859.3242019年12月31日星期一上午10：00-下午5R2得分0.940 0.998 0.936 0.979 0.940 0.974 0.882 0.972 0.974 0.989 0.966 0.999表7巴拉索尔，普里和卡塔克地区的Kharif季节数据集的弱和强回归的性能指标性能回归技术措施弱LR强LR弱RR强RR弱套索强力套索弱SVR（线性）强SVR（线性）弱SVR（Poly）强SVR（聚乙烯）弱支持向量回归（RBF）强支持向量回归（RBF）巴拉索尔区数据集(a) 弱回归和强回归在MAE方面的比较表明，与其他强回归相比，强LR显示出更好的结果，比弱LR提高了93.71%;对于MSE，强Lasso比弱Lasso提高了96.18%;对于MAD，强LR比弱LR提高了100% ，而对于 MAE ，强 LR比弱 LR 提高了100% 。对于Balasore地区的数据集，仅考虑Rabi季节，强SVR（RBF）相对于弱SVR（RBF）的R2(b) 对Puri地区数据集的强回归和弱回归进行比较时，MAE结果表明，强LR比其他强回归具有更好的结果，比弱LR提高了98.31%，对于MSE，强LR比弱LR提高了99.69%，对于MAD，强LR比弱LR提高了100%，强SVR（RBF）比弱SVR（RBF）的R2(c) 同样，在比较强回归和弱回归对Cuttack地区数据集的性能时，MAE表明，强LR比其他强回归表现出更好的结果，比弱LR提高了90.81%，对于MSE，强LR比弱LR提高了96.79%，对于MAD，强LR比弱LR提高了100%，强SVR（RBF）比弱SVR（RBF）的R2从表6中可以总结出，对于Balasore的MAE、MAD、Puri的MAE 、 MSE 和 MAD 以及 Cuttack 地区数据集的 MAE 、 MSE 和MAD，强LR优于其他弱和强回归器，而强Lasso仅证明了其在Balasore 数据集的 MSE 中的有效性此外，强支持向量回归机（RBF）在R2得分性能指标上确实表现出约100%的改善.从表7中可以看出，对于Kharif季节的三个地区数据

下载后可阅读完整内容，剩余1页未读，立即下载