递归神经网络在霜预测中的应用

183 浏览量更新于2023-12-05 收藏 13.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

nhttps://doi.org/10.1016/j.array.2022.1001580Array 14 (2022) 10015802022年4月9日在线发表2590-0056/© 2022年Elsevier Inc.发表。本文是根据CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）的开放获取文章。0ScienceDirect提供的内容列表0Array0期刊主页：www.elsevier.com/locate/array0逐分钟的霜预测：一种递归神经网络的方法0Ian Zhou a，b，�，Justin Lipman a，b，Mehran Abolhasan a，Negin Shariati a，b0a澳大利亚悉尼科技大学，b澳大利亚食品敏捷CRC有限公司，2007年新南威尔士州乌尔蒙特大道81号0文章信息0关键词：霜预测物联网机器学习递归神经网络时间预测0摘要0霜事件给农民带来了巨大的经济损失。这些事件可能通过损坏细胞来对植物和庄稼造成损害。本文提出了一种基于递归神经网络的方法，自动化霜预测过程。本文中使用的基于递归神经网络的模型包括标准递归神经网络、长短期记忆和门控递归单元。所提出的方法旨在将对未来一天或夜间事件的预测频率从每12-24小时增加到对未来一小时事件的逐分钟预测。为了实现这一目标，获取了来自澳大利亚新南威尔士州和澳大利亚首都领地的数据集。实验考虑了将模型部署到物联网系统的场景。审查了模型处理速度、长期误差和数据可用性等因素。在构建模型之后，进行了三个实验。第一个实验测试了不同模型类型之间的误差。第二和第三个实验测试了序列长度对基于递归神经网络的模型的误差和性能的影响。所有测试都将人工神经网络模型作为基线。此外，所有模型误差的测试都分两轮进行，使用来自当前年份（2016年）和下一年（2017年）的测试数据集。结果表明，基于递归神经网络的模型更适合具有较小序列长度的短期部署。相反，人工神经网络模型在长期内表现出更低的误差和更快的处理时间。根据所呈现的结果，讨论了所提出方法的局限性。01. 引言0在农业领域，当植物内部形成冰晶并损害细胞时，霜就会发生[1]。因此，霜可能对经济和生态系统造成重大损失[2]。目前，有许多针对霜的积极和实时的保护方法，包括加热器、洒水器、人工雾和空气扰动技术[3]。然而，自动激活这些保护方法的霜预测方法仍有待改进[3]。本文侧重于预测未来对植物的霜损害情况。本文探讨了递归神经网络（RNNs）在霜预测中的潜力。RNNs是一种具有递归连接的人工神经网络（ANN）的特殊形式，具有识别序列模式的能力[4]。RNNs不同于只接受一个输入的基本ANN。RNNs可以接受一系列输入。在时间序列数据方面，单个数据点在时间序列中一次处理[4]。当前时间状态的输出是从当前时间状态的输入和上一个时间状态的输出递归生成的[5]。标准RNN存在梯度爆炸等问题0� 通讯作者：澳大利亚悉尼科技大学。邮箱地址：ian.zhou@student.uts.edu.au（I. Zhou），justin.lipman@uts.edu.au（J.Lipman），mehran.abolhasan@uts.edu.au（M. Abolhasan）0和梯度消失[4]。为了解决这些问题，长短期记忆（LSTM）和门控循环单元（GRU）被提出作为RNN的变体[5]。本文利用RNN、LSTM和GRU模型进行霜冻预测。近年来，物联网（IoT）技术已被广泛应用于农业领域，提供实时监测和执行服务[6]。也有一些基于物联网的防霜系统。然而，大多数这些防霜系统依赖于实时传感器读数的阈值来触发防霜设备[3]。与预测算法的准确性相比，这些简单机制的效果有限[3]。因此，本文考虑了与未来部署霜冻预测算法相关的一些因素。这些因素包括模型处理速度、长期准确性和数据可用性。由于物联网系统的资源有限，模型应需要更快的处理速度[7]。此外，物联网系统应消除额外的人为干预[6]。因此，为了确保物联网节点的手动更新不频繁，模型的准确性随时间的恶化应该最小化。最后，由于大多数霜冻预测模型依赖于现场Array 14 (2022) 1001582I. Zhou et al.𝑑𝑒𝑔 =0在[3]中，数据可用性在创建这些模型时非常重要。由于不可能假设在所有地点都有大量的历史数据可用，因此我们的场景设定假设只有少量（三个月）的数据可用，以最小化新模型的数据收集时间。01.1. 相关工作0方法’’和‘‘回归方法’’。分类方法预测未来时间霜冻的发生百分比，而回归方法预测未来时期的最低温度[3]。这两种方法都依赖于气候数据作为模型输入。由于不同植物品种的霜冻抵抗力不同[8]，本文提出了霜冻回归预测方法，为农民提供未来的环境洞察，并提供一个更普遍的解决方案，避免个别植物品种之间的差异。0目前存在一些霜冻回归预测方法。在[9 -011]，传统的机器学习方法被利用来预测下一天或夜晚的温度或最低温度。在[11]中，使用随机森林模型来预测下一天的最低温度，输入温度和湿度。线性回归在[9]和[10]中都有使用。环境参数，如温度、露点和湿度，被插入作为模型输入在[10]中。另一方面，为了考虑风机的影响，[9]的作者引入了距离风机的距离，以及海拔、当地日落时间和前一天接收到的辐射作为输入参数。0除了传统的机器学习模型外，具有完全连接层的人工神经网络（ANN）也可以预测未来的0连接层，作为深度学习模型，也可以预测未来的最低温度[12 - 14]。[12 -14]中的模型，预测未来12-24小时的最低温度作为一个数值。这三项工作都使用空气温度、相对湿度、降水、风向和风速作为预测模型的输入参数。然而，[12]还包括白天长度、白天最高和最低温度，以支持夜间温度预测与白天基线。在[13]中，降水、云层覆盖、湿度和压力被包括在模型输入中。作者还考虑了19:00时的湿度和风速。[14]的作者用较少的输入参数预测了第二天的最低温度，但引入了辐射来构建他们的预测人工神经网络。0上述机器学习和深度学习模型都预测0未来12-24小时的霜条件[9-14]。因此，在极端条件下，保护设备可能需要在12-24小时内开启，以确保仅考虑模型预测时零霜损害。然而，通过持续的手动观察，保护设备的运行时间可以缩短[3]。因此，为了自动减少运行时间，本文的主要目标是实现逐分钟的下一小时最低温度预测以进行霜预测。此外，如上文所述，探讨了基于RNN的模型（RNN、LSTM、GRU）解决此预测问题的潜力。本文还比较了不同基于RNN的模型的性能。总之，本文的主要贡献如下。01. 应用基于RNN的霜预测方法。2. 将预测频率从每12-24小时增加到0下一天或夜间事件的分钟级预测。03. 评估基于RNN的霜预测的局限性。0本文的其余部分安排如下。第2节描述了0研究区域、数据处理程序和实验。实验包括比较温度预测模型（ANN、RNN、LSTM、GRU）、分析不同的RNN模型设置以及预测最低温度与其他与霜有关的参数的性能。然后，在第3节中讨论实验结果，并引向开放挑战的局限性。最后，第4节总结全文。02. 方法0本节解释了实验的方法和设置0实验。首先解释了研究区域，然后是数据预处理程序。然后描述了利用预处理数据进行模型构建和测试。最后，总结了实验过程。02.1. 研究区域0研究区域位于新南威尔士州和澳大利亚首都地区0澳大利亚领土。在研究区域，获取了来自30个不同气象站的数据集。图1是研究区域的地图，显示了气象站的位置和ID。此外，气象站的位置坐标列表在附录[15]的表A.7和A.8中呈现。本文中使用的所有原始数据集可以从澳大利亚气象局（BOM）托管的公共气象站目录服务中获取[15]。0本研究集中在澳大利亚的6月、7月和8月0冬季[16,17]。这些冬季月份2016年和2017年的逐分钟气候数据是从研究区域的30个气象站中提取的。提取这些数据后，它们进一步经过处理，以准备进行模型构建和测试。这些过程将在下一小节中讨论。02.2. 数据预处理0在模型构建之前，需要对原始数据进行预处理。0从原始数据中提取所需的列（时间戳、空气温度、露点、相对湿度、风速、风向）后，进行了七个数据预处理步骤。这七个步骤属于两个阶段。在第一阶段，原始数据被处理以转换有用的特征并处理空值。第一阶段的输出被保存以便在下一阶段重复使用。在第二阶段，来自第一阶段的输出被输入并修改以适应特定的目标模型和模型设置。例如，图2以RNN和序列长度为20的模型为例，概述了数据预处理过程中数据结构的变化。红色数字表示该步骤中的数据变化。0{ �� + 180 ◦ ，如果 �� < 180 ◦0然后，使用风速（ � ）和风吹向0�� − 180 ◦ ，如果 �� ≥ 180 ◦ (1)0� � ，� � = � × sin( �� ) , � × cos( �� ) (2)0（ �� ），向北风速（ � � ）和向东风速（ � � ）的大小通过方程式（2）[18]获得。0被构建为预测目标。最低温度是通过获取接下来60分钟内的最低温度值来简单构建的。由于数据记录是每分钟进行一次，因此当前数据条目的最低温度是接下来60个温度值的最小值。0在数据预处理的第二步中，最低温度0在第3步中创建数据的序列。一个序列包含所有的特征（空气温度、露点、相对湿度、风速、风向）。对于每个数据条目，当前序列被定义为0为了适应RNN、LSTM和GRU模型的数据结构，序列0I. Zhou等人3sequence 𝑡, the sequence from one minute before is added to the currententry and defined as sequence 𝑡 − 1. Similarly, the sequence fromtwo minutes before is added and defined as sequence 𝑡 − 2. Since themaximum sequence length of the experiments is 120, sequences fromprevious entries are added to the current entry from one minute beforeuntil 119 min before. Therefore, each entry includes 120 sequencesfrom sequence 𝑡 − 119 to sequence 𝑡.The timestamp column is a tool to help extract the data from thedesired time period. Now, as all of the features and sequences aregenerated, the timestamp column can be removed in step 4. Then, inthe final step of phase 1, the listwise deletion data imputation techniqueis applied to eliminate data entries with empty features [20]. Thisalso includes the removal of data sequences with missing features topreserve the time differences between observations. The final productof phase 1 is output to hard disk to be used in phase 2. For everyweather station dataset, the steps in phase 1 are conducted for datain years 2016 and 2017.In phase 2 of data preprocessing, the results from phase 1 are trans-formed to the required form for different models with different settings.After reading an output from phase 1, step 6 of data preprocessingremoves excess data sequences. For ANN models, only one sequenceis required. Therefore, sequences 𝑡 − 119 to 𝑡 − 2 should be removed.For RNN, LSTM, and GRU models, sequences are removed according tothe sequence length of the target model. For example, with a desiredsequence length of 20, sequences 𝑡 − 119 to 𝑡 − 20 are removed, leavingonly 20 data sequences (Fig. 2).Step 7 of data preprocessing is only executed to prepare the datafor RNNs and their variants. Every entry in the dataset is converted toa 2D structure. Each row of this 2D structure represents a sequence ofa specific time. The rows are structured top to bottom from an earliertime to a more recent time. At this stage, the data can proceed to model0数组14（2022）1001580图1. 带有ID的气象站0表1描述了数据预处理结束时的特征。大多数特征呈正态分布。相对湿度是唯一的左偏特征。表2显示了处理后特征的皮尔逊相关矩阵。露点和相对湿度与温度呈现出强相关性。其他特征相对独立。02.3. 模型构建和测试0在本小节中，提供了模型构建和测试的信息。首先描述了计算环境，然后介绍了数据集的使用。接下来澄清了模型结构和超参数。最后揭示了模型构建的两个阶段。本文中的所有模型都是在配备32GB RAM的Intel i7-8700K3.70GHz处理器的台式电脑上构建的。图形处理单元是Nvidia RTX2080显卡。用于模型构建和测试的深度学习框架是TensorFlow2.3.0。数据预处理过程从2016年和2017年的每个气象站生成了两个数据集。在实验场景中，模型应该在当前年份构建，并在下一年部署。已将2016年设置为“当前”年份，2017年为“下一”年。因此，2016年的数据集用于模型构建，2017年的数据集用于最终测试。假设在模型构建过程中只有“当前”年份的数据可用。来自2016年的数据集被拆分为模型训练、验证和测试。对于来自不同气象站的每个数据集，80%的数据被随机分配给训练数据集，另外20%分配给测试数据集。从训练数据集中，进一步拆分出20%的数据形成验证数据集。包含大部分数据的训练数据集用于拟合模型的参数。在训练过程中，验证数据集有助于调整超参数。在所有训练、超参数调整和验证完成后，使用测试数据集进行测试预测。这提供了模型的误差度量。然而，由于模型应该在“下一”年部署，因此还使用了来自2017年的数据集作为额外和最终的测试数据集。在实验中，还比较了从2017年测试数据集产生的误差。所有模型的模型结构被定义为三层模型。第一层有五个神经元。第二层有七个，输出层有一个神经元。前两层根据目标模型进行更改。例如，如果是一个ANN模型，这两层的单元格是带有修正线性单元（ReLU）激活函数的ANN单元格。对于RNN及其变体，单元格使用双曲正切激活40Array 14 (2022) 1001580I. Zhou等人0图2. 数据预处理步骤。（有关本图图例中颜色的解释，请参阅本文的网络版本。）0将相关单元格的功能与模型相关联。此外，对于RNN、LSTM和GRU模型的第一层，单元格的隐藏状态被输出为第二层的顺序输入。第三层只包括一个线性单元格来输出结果。Adam是训练过程中使用的优化器。学习率� 1 、� 2和�是Adam所需的超参数[21]。在实验中，学习率设置为0.001，作为“良好的默认设置”0� 1 为0.9，� 2为0.999，�为10-7。另一个超参数，批量大小配置为64。使用这些设置，所有模型都将使用均方误差（MSE）损失函数进行100个周期的训练。模型分为两组进行构建。这两组由不同的模型结构和设置分隔。在第一组中，为每个30个气象站构建了一个ANN模型。在第二组中，使用不同的序列长度构建了RNN、LSTM和GRU模型Array 14 (2022) 1001585I. Zhou et al.areyear. Therefore, models are also tested with testing datasets obtainedone year after the training datasets. The results are significantly dif-ferent compare to the results from the ‘‘current’’ year testing datasets(Fig. 3). ANN shows the lowest MSE loss, which indicates the highestaccuracy. On the other hand, LSTM models have the lowest accuracy.The results of the one-sided paired T-tests demonstrate that LSTM andGRU models have 𝑝-values (RNN: 0.1350; LSTM: 0432; GRU: 0.0027)less than the 𝛼 threshold. Therefore, it is likely that LSTM and GRUmodels all have a significantly higher loss (less accurate) than ANNmo0表1 处理后的训练特征描述。0特征0项目温度（°C）露点（°C）相对湿度（%） N-风（km/h） E-风（km/h）0最小值 − 5.4000 − 37.8000 2.0000 − 86.2608 − 78.0689 平均值 10.4629 6.3262 78.1665 − 1.9071 4.8393 最大值31.0000 23.2000 100.0000 81.8329 95.3837 标准差 5.0328 4.2037 18.0907 10.7936 11.3289 分布正态分布正态分布左偏态分布正态分布正态分布0表2 处理后的训练特征的皮尔逊相关矩阵。0温度露点相对湿度 N-风 E-风0温度 1.0000 0.6391 − 0.5744 − 0.1330 0.0181 露点 0.6391 1.0000 0.2474 − 0.0946 − 0.1613 相对湿度 − 0.5744 0.24741.0000 0.0659 − 0.2059 N-风 − 0.1330 − 0.0946 0.0659 1.0000 − 0.1814 E-风 0.0181 − 0.1613 − 0.2059 − 0.18141.00000为所有30个气象站进行训练。有6种不同的序列长度设置（20、40、60、80、100、120）。总共，第二组输出了540个模型。总体上，为本文构建了570个模型。这些模型在实验中的使用在下一小节中进行了解释。02.4. 实验0进行了三个实验来测试模型误差和0模型的性能。在第一个实验中，比较了不同模型类型（ANN、RNN、LSTM、GRU）的误差。第一组中的ANN模型是这个实验的基线。对于每个气象站，进行了八次测试，以测量四种模型类型在当前年份和下一年份数据的损失。RNN模型及其变种使用序列长度为120进行了测试。然后，在第二个实验中，比较了RNN、LSTM和GRU模型的序列长度的影响。除了在第一个实验中获得的结果外，每个气象站还进行了30次测试，以获得三种基于RNN的模型类型在五种序列号设置下的结果，并使用当前年份和下一年份的测试数据集进行测试。将所有基于RNN的模型类型的模型误差与不同序列长度设置与ANN基线进行比较。同样，在最后一个实验中，将不同序列长度设置的训练时间和推断时间与ANN基线进行比较。03. 结果与讨论0为了验证和比较下一个小时的不同模型设置的性能0霜预测模型，进行了三个实验。第一个实验比较了ANN和基于RNN的模型类型之间的MSE。然后，在第二个实验中，评估了具有不同序列长度的基于RNN的模型的MSE。最后，还分析了与不同序列长度相关的处理时间因素。这提供了不同模型实时计算能力的概述。03.1. 模型误差0在这个实验中，基于RNN的模型的模型误差与0使用ANN模型评估长度为120的序列。图3显示，当使用与训练数据集采集年份相同的测试数据集进行测试时，LSTM似乎表现出最高的准确性和最低的MSE损失。LSTM也是唯一一个超过ANN模型准确性的基于RNN的模型类型。这个结果也通过单侧配对T检验得到了确认。从�-值（RNN: 0.1544; LSTM: 6.1225e − 12; GRU:0.2644）来看，LSTM是唯一一个�-值小于0.05�值的模型类型。这意味着null假设被拒绝，ANN可能会产生比LSTM更大的损失。由于额外的门来记忆序列模式，LSTM模型在其他基于RNN的模型中具有最高的准确性[5]。0零假设被拒绝，ANN可能会产生比LSTM更大的损失。由于额外的门来记忆序列模式，LSTM模型在其他基于RNN的模型中具有最高的准确性[5]。0由于所有模型都是使用当前年份数据进行训练的，因此LSTM模型0具有更多参数和门[22]的LSTM模型更接近当前年份的测试数据集。另一方面，基于RNN的模型是通过学习序列模式构建的[4,5]。因此，这些模型对序列模式的变化很敏感。在[23,24]中，全球气候变化导致天气模式的不稳定性随时间增加。因此，当使用后一年的测试数据集进行测试时，基于RNN的模型的准确性会下降。与基准相比，具有更多参数[22]的LSTM和GRU模型更倾向于过度拟合当前年份的模式，并对变化的后一年份模式更脆弱。然而，由于未来气候模式的变化也是未知的，准确性降低的确切程度是未知的。03.2. 序列长度对模型误差的影响0在这个实验中，序列长度对模型误差的影响为0对基于RNN的模型进行了检查。图4显示了基于当前年份数据集测试的RNN模型的平均MSE。总体而言，序列长度的增加并没有减少平均损失。只有LSTM显示出随着序列长度增加而损失减少的趋势。然而，这种变化并不是非常显著。与ANN相比，只有在某些设置下（序列长度=20、40、80、100），LSTM和GRU的损失似乎比ANN（0.4550）小。这一点在表3的单侧配对T检验结果中得到了证实。只有LSTM和GRU模型在序列长度为20、40、80和100时的�值小于�。这表明在使用当前年份测试数据集进行测试时，LSTM和GRU（序列长度=20、40、80、100）模型比ANN模型更准确。6200.16033.4979e−100.0032400.16176.9911e−111.3249e−5600.16281.0544e−100.1591800.15813.0000e−114.2542e−71000.15762.1009e−114.2930e−71200.15446.1225e−120.2644Fig. 5. Average MSE tested with next year datasets for different sequence lengths.200.14660.00130.0109400.14630.00400.0249600.15380.00280.0156800.14570.00720.00891000.14970.00480.02941200.13500.04330.00280数组14（2022）1001580I. Zhou等人。0图3. 使用当前年份和后一年份数据集进行测试的平均MSE。0图4. 使用当前年份数据集测试不同序列长度的平均MSE。0表3 � -值，比较不同模型序列长度（当前年份）下ANN和基于RNN的模型的平均MSE。0模型类型0序列长度 RNN LSTM GRU0图5显示了基于RNN的模型在使用后一年份测试数据集进行测试时的平均MSE。与实验1的结果相反，所有基于RNN的模型的损失都高于ANN的MSE（0.7813）。表4是使用单侧配对T检验得到的�值，备择假设是每个测试模型的MSE都高于ANN基准。备择假设有利于LSTM和GRU模型，因为它们的�值小于�。这意味着LSTM和GRU模型在后一年很可能比ANN模型表现出更高的误差。此外，正如实验1中所解释的，未来气候模式的变化是未知的。这可能是导致图5中额外噪音的原因，与图4相比。0表4比较了不同模型序列长度（明年）的ANN和基于RNN的模型的平均MSE之间的A值。0序列长度 RNN LSTM GRU0模型类型03.3.序列长度对处理时间的影响0图6.不同序列长度的平均每个时期的训练时间。70Array 14 (2022) 1001580表5比较了不同模型序列长度的ANN和基于RNN的模型的每个时期的平均训练时间的A值。0模型类型0序列长度 RNN LSTM GRU020 5.3068e-32 1.4421e-30 7.5427e-31 40 1.4240e-31 1.5839e-31 2.1966e-31 60 1.5350e-312.2799e-32 1.3996e-31 80 4.3655e-32 5.7483e-32 1.4185e-31 100 7.6250e-32 2.8775e-316.2908e-31 120 1.2237e-31 5.4545e-32 2.6502e-310图7.不同序列长度的平均每个输入的推理时间。0表6比较了不同模型序列长度的ANN和基于RNN的模型每个输入的平均推理时间的A值。0模型类型0序列长度 RNN LSTM GRU020 2.5574e-45 1.0941e-17 1.7544e-35 40 5.0297e-49 2.1683e-37 2.6969e-42 60 6.7674e-623.7983e-42 2.6171e-42 80 2.1246e-60 1.0625e-44 1.5319e-42 100 1.9803e-54 2.7216e-461.2132e-37 120 1.0382e-58 5.9795e-48 1.6906e-460图7展示了不同序列长度的基于RNN模型的平均推理时间。随着序列长度的增加，推理时间呈增加的趋势。与训练时间类似，基于RNN模型的更高序列长度意味着更大的输入序列和更多参数的模型结构。因此，推理时间随着序列长度的增加而增加。此外，所有基于RNN的设置的推理时间显著大于ANN的推理时间（4.5214e-4秒）。这一说法得到了单侧配对T检验结果的支持，因为所有i值都小于α（表6）。03.4.限制和挑战0实验1表明，当使用当前年份数据集进行测试时，基于RNN的模型的模型误差低于ANN模型。LSTM模型具有最低的误差和最高的准确性。然而，当使用明年的数据集进行测试时，RNN模型的准确性下降，并且被ANN超越。这种下降可能是由于随着时间的推移气候模式发生变化[4,5,23,24]。此外，本文中的模型是使用一年的数据构建的。根据[27]，RNN模型通常需要更多年的数据才能充分学习季节性模式。然而，这将增加对历史数据的依赖，这是下一小节中提到的一个限制。由于准确性下降的两个原因，基于RNN的模型只适用于一0短期部署的模型。在实验2中，随着序列长度的增加，基于RNN的模型的模型误差并没有显著减少。因此，考虑到实验3的结果，可以部署具有短序列的基于RNN的模型，以提供更高精度和性能的预测。另一方面，ANN模型可以在较长时间跨度内部署，而几乎不会出现精度下降。训练和推断时间都明显低于基于RNN的模型。总体而言，对于长期情景中的霜预测，ANN可能仍然比基于RNN的模型更合适，因为它们在长期内具有更高的精度和性能，而且需要较少的系统维护和更新。在构建上述不同的霜预测模型并分析它们的性能后，发现了本小节中提出的限制。限制带来了新的挑战，并引向了霜预测研究的未来方向。03.4.1. 模型精度要求未指定不同植物具有不同的耐霜性和敏感性[8]。因此，不同植物的模型精度要求可能有所不同。关于植物耐霜性有许多研究。然而，植物对单个霜因素的敏感性尚未完全揭示[28]。作为未来方向，应在受控环境中对不同植物物种对不同霜因素（如温度、湿度、露点、云覆盖、太阳辐射和风速）的敏感性进行高精度测试。通过对足够多的植物物种进行研究，可以为霜预测模型设定模型精度阈值。03.4.2. 缺乏标准数据集模型和实验结果来自于代表我们在澳大利亚研究地点的当地气候条件的公共数据集。因此，模型在具有不同气候模式的其他地点的准确性是值得怀疑的。据我们所知，先前的研究是基于当地获得的私人数据集[9-14]。因此，模型结果可能存在偏差。需要一个包括来自不同地点的数据条目的标准数据集，用于霜预测模型。03.4.3. RNN输入数据格式影响系统能效本文中基于RNN的模型需要一系列气候数据作为模型输入。每个数据序列包含长时间跨度内每分钟收集的传感器读数。这对节点的工作周期施加了限制。为满足模型输入，必须每分钟收集传感器读数。对于常见的农业物联网系统，传感器读数通过无线电从节点传输到中央处理节点进行进一步处理和数据分析[29]。在[30]中，随着无线电传输报告的时间间隔减少，无线电功耗增加。即使在10分钟的时间段内进行无线电传输，也会消耗大量系统能量[30]。因此，如果每分钟报告传感器读数，将会给整个系统带来更高的能量消耗。这个问题可以通过将几分钟的传感器读数聚合成一个无线电传输来缓解。此外，在边缘计算上进行推断也可以减少无线电传输的次数。可以在边缘设备上部署模型，并且只在触发预设条件时传输预测结果。然而，即使有缓解计划，基于RNN的模型仍然限制了具有潜在高能量影响的物联网系统的设计。另一方面，每个ANN模型推断只需要一组气候数据作为输入。基于ANN的霜预测模型可以应用于具有不同时间间隔以获取传感器数据的系统。无线电传输间隔可以根据系统要求进行调整。因此，对于霜预测系统，ANN模型可能仍然更合适。Array 14 (2022) 1001588I. Zhou et al.perfor the next hour events. RNN-based models are selected to learnthe sequence pattern of historical data. ANN models are used as abaseline. Datasets from weather stations in the NSW and ACT areas ofAustralia are obtained. These datasets are recorded during the years2016 and 2017. With these datasets, it is assumed that our modelsare built during the year 2016 (current year) and deployed in year2017 (next year). Therefore, datasets from 2016 are used for modelconstruction and preliminary testing. Datasets from 2017 are used forfinal testing. After constructing the models, there are three experimentstesting the model errors, also the effect of sequence lengths on errorsand processing time for RNN-based models. The errors of models istested with both the current and next year datasets. LSTM seems to havethe highest accuracy when tested with the current year testing datasets.However, the accuracy for all RNN-based models reduces when testedwith the next year testing datasets. ANN models have the highestaccuracy with the next year testing datasets. When testing RNN-basedmodels with different sequence lengths, it seems that sequence lengthscannot affect the accuracy of models significantly. However, trainingand inference time increases with the sequence length. Therefore, RNN-based models should be used for short-term deployments with a shortersequence length to ensure accuracy and performance. On the otherhand, ANN models demonstrate the lowest error when tested withnext year datasets. Also, the training and inference speeds of ANNmodels are faster than RNN-based models. Therefore, in the long term,ANN models are more suitable than RNN-based models due to betteraccquiprecise frost sensitivities to individual frost factors. Secondly, the cur-rent model and most previous models are constructed with local data.The lack of standard datasets limits unbiased compari

下载后可阅读完整内容，剩余1页未读，立即下载