高光谱数据特征降维的t-SNE方法在预测酿酒参数中的应用

48 浏览量更新于2023-12-06 收藏 12.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

https://doi.org/10.1016/j.aiia.2023.02.0032589-7217/© 2023 The Authors. Publishing services by Elsevier B.V. on behalf of KeAi Communications Co., Ltd. This is an open access article under the CC BY license (http://creativecommons.org/licenses/by/4.0/).0t-SNE：关于降低高光谱数据维度的研究，用于估计酿酒参数的回归问题0Rui Silva a，�，Pedro Melo-Pinto a，b，��0a CITAB-农业环境和生物科学研究与技术中心，Inov4Agro-农业食品生产创新、能力建设和可持续性研究所，葡萄牙特拉斯奥斯蒙特斯和阿尔托杜罗大学，普拉多斯农场，维拉雷亚尔5000-801 b工程系，科学与技术学院，葡萄牙特拉斯奥斯蒙特斯和阿尔托杜罗大学，普拉多斯农场，维拉雷亚尔5000-8010摘要文章信息0文章历史：2022年9月22日收到2023年2月20日接受修订 2023年2月21日接受在线发布日期：2023年3月6日0近年来，使用机器学习技术改进精准农业程序的重要性日益增长：在这项工作中，我们进行了一项研究，研究了能够从葡萄酒葡萄浆果的高光谱图像中预测酿酒参数的模型。这是一个特别重要的主题，可以促进葡萄酒生产任务。具体来说，我们探索了一种主要用于可视化的新技术，t-分布式随机邻居嵌入（t-SNE），用于降低高度复杂的高光谱数据的维度，并将其性能与主成分分析（PCA）方法进行了比较。尽管多年来引入了许多非线性降维技术，但PCA方法在文献中的几项研究中仍然取得了真实数据的最佳结果。此外，我们探讨了核t-SNE的潜力，这是t-SNE方法的扩展，允许在流数据或在线场景中使用该技术。我们的结果表明，在直接比较中，t-SNE在本工作中大多数数据集上都实现了比PCA更好的度量，并且回归器（支持向量回归，SVR）在使用t-SNE降维特征作为输入时表现更好，实现了更好的预测和更低的错误率。与当前文献的结果进行比较，我们的浅层学习模型与t-SNE结合，要么实现了更好的结果，要么与报告的结果相当，甚至与使用深度学习技术的更先进模型竞争，这应推动t-SNE在需要降维的更多研究中的引入。©2023年作者。由Elsevier B.V.代表KeAi Communications Co., Ltd.提供出版服务。本是一篇在CCBY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。0关键词：高光谱图像降维回归 T-SNE 支持向量机葡萄酒葡萄浆果01.介绍0近年来，葡萄酒行业已经以尽可能引入多种新技术来改善生产流程的方式发展：其主要关注点之一是以环保的方式获得用于葡萄酒生产的葡萄，而不在过程中破坏它们，并根据质量特征进行选择。传统方法依赖于实验室分析来评估一些选择的酿酒参数，这种方法除了破坏用于分析的葡萄外，还是一种成本和时间密集型的方法。逻辑的下一步是找到某种成像技术，允许获取有关葡萄的清洁信息，而高光谱成像在这项任务中取得了最大的成功。0高光谱成像（Gowen等，2007年；Hall等，2002年）是一种显示物体光反射和吸收作为波长函数的技术：它收集空间和光谱信息，需要能够从光谱中的模式中提取知识的强大模型。我们最近的研究发现，将这些图像与能够从高光谱图像进行回归的机器/深度学习算法相结合取得了一定成功；然而，要从这些模型中获得泛化能力的最大问题之一是能够减少输入空间的能力，这允许一致地识别光谱中的主要特征并准确预测酿酒参数。这导致了对各种降维方法的研究，结果表明，尽管有多项进展和新技术，主成分分析（PCA）（Wold等，1987年）仍然是使算法能够实现最佳预测和最佳泛化能力的方法，用于从葡萄酒葡萄浆果的高光谱图像预测酿酒参数的情况。在这一研究的基础上，出现了应用的需求0农业中的人工智能7（2023）58-680*通讯作者。**通讯作者地址：葡萄牙特拉斯奥斯蒙特斯大学农业环境和生物科学研究与技术中心（CITAB），农业食品生产创新、能力建设和可持续性研究研究所（Inov4Agro），Vila Real 5000-801，Quintados Prados。电子邮件地址：ruimsilva@utad.pt（R. Silva），pmelo@utad.pt（P. Melo-Pinto）。0ScienceDirect提供内容列表0农业中的人工智能0期刊主页：http://www.keaipublishing.com/en/journals/artificial- intelligence-in-agriculture/590t-分布随机邻居嵌入（t-SNE）技术用于降低高光谱图像的维度。t-SNE（VanderMaaten和Hinton，2008年）是一种通过在二维或三维地图中为每个数据点分配位置来可视化高维数据的技术，减少了将点聚集在一起的倾向，从而创造了更有结构的数据可视化。我们决定对t-SNE在高光谱成像数据中的应用进行研究，因为正如（Silva和Melo-Pinto，2021年）和（Van derMaaten和Hinton，2008年）所得出的结论，并且在（Van derMaaten和Hinton，2008年）中提到，其他维度缩减技术在人工数据集上表现出色，但未能将这种性能转化到现实世界的数据上，主要是因为它们未能在单个地图中保留数据的局部和全局结构：t-SNE已经显示出能够捕获高维数据的大部分局部结构，并揭示其中的全局结构。此外，在（Van derMaaten和Hinton，2008年）中还提到，t-SNE在一般的降维任务中的表现尚不清楚，我们决定评估其在高光谱成像数据上的表现-回顾当前的最新技术显示了一些t-SNE在高光谱数据上的应用：0•在（Miao等，2018年）中，作者使用t-SNE来降低玉米籽的高光谱图像的维度，并进行分类。•在（Hariharan，2021年）中，t-SNE被应用于减少高光谱开放数据集（即：印度松树数据集）的维度，并进行分类，同时解决了有限数量的训练样本的高维度问题。•在（Zhang等，2018年）中，t-SNE与深度卷积生成对抗网络（DCGAN）结合，提取光谱空间特征，并对高光谱图像进行降维。•在（Devassy和George，2020年）中，t-SNE用于对来自60种不同笔墨的高光谱数据库进行聚类，并获得更好的可视化效果。•在（Gao等，2019年）中，作者将t-SNE与卷积神经网络（CNN）结合，以减少高光谱图像的维度，并进行分类，该图像具有大量波段，但每个类别的样本像素数量不足。•在（Pouyet等，2018年）中，t-SNE也用于在2D散点图中获得高光谱图像的可视化。0此外，t-SNE还在高光谱图像之外有相关的应用：0•在（Gisbrecht等，2012年）中，作者提出了一种扩展t-SNE的线性基函数，为非线性降维铺平了道路。•在（Alibert，2019年）中，t-SNE被应用于更好地在二维空间中可视化和表示行星系统。•在（Anowar等，2021年）中，作者比较了几种降维方法在开放数据集上的性能。0然而，据我们所知，迄今为止，还没有研究t-SNE技术在将数据集降维后，使用机器学习算法进行预测（回归问题）的能力；此外，我们还在葡萄酒葡萄高光谱图像的真实样本上进行了这项研究（大多数研究是在人工数据集上进行的），这是一个在不同年份和葡萄酒的年份之间具有极高变异性的问题；我们的研究也很重要，因为我们在小数据集上进行了t-SNE（由于获取训练样本的固有困难），与大多数研究使用大量数据的情况形成对比：结合所有这些方面，我们相信我们对t-SNE在真实世界高光谱图像降维能力进行了真正的测试，解决了真实应用问题。为了进一步增强我们0对t-SNE技术的研究，我们还决定应用这种方法的变体，Kernel t-SNE。Kernelt-SNE（Gisbrecht等人，2015年）将非参数降维技术扩展到显式映射，通过固定参数形式x → f w（x）= y并优化fw的参数，而不是投影坐标：这使得可以通过仅对小子样本进行映射训练来在线性时间内映射大数据集，并具有良好的泛化能力。然而，由于Kernelt-SNE仅应用于训练样本的子集，与应用于完整数据集的t-SNE相比，结果可能会有所不同，因为训练映射的数据中存在缺失信息。为了弥补这一信息差距，作者（Schulz和Hammer，2015年）引入了Fisher Kernelt-SNE：一组数据点xi配备有基于类标签估计的成对Fisher度量，采用简单的线性逼近进行路径积分，并使用t-SNE，通过考虑辅助标签信息（基于Fisher度量计算的数据的成对距离）获得新的训练集X'；然后推断出适应标签信息的核t-SNE映射，由于训练集中固有的信息，得到的映射适应于训练集中编码的信息-这种技术可以称为Fisher t-SNE或Fisher kernelt-SNE。这两种技术都试图进一步优化t-SNE在真实世界应用中的能力，而我们决定研究核t-SNE，我们选择不实现Fisherkernel-SNE，因为计算Fisher信息矩阵的高计算成本使得该解决方案不适合在葡萄园进行实时分析。至于本文的其余部分，在第2.1小节中，我们描述了高光谱成像过程，深入探讨了我们的实验设置以及我们执行反射测量以构建训练集的方式；第2.2小节提供了应用的降维方法的简要理论背景；第2.3小节介绍了选择执行回归的算法，支持向量回归（SVR）技术；在第2.4小节中，我们讨论了避免过拟合并通过交叉验证技术实现最大泛化能力的方法；在第2.5小节中，我们提供了关于葡萄采样过程的见解，并提供了数据集描述，以更好地理解数据及其高变异性；第3节介绍了对每种降维技术和每种葡萄酒参数进行预测的结果，以及对这些结果的讨论，以及与其他最新技术的比较；第4节总结了我们的发现，并对工作进行了总结，同时指出了未来的改进方向。02. 材料和方法02.1. 高光谱图像02.1.1. 实验设置按照我们之前的工作（Silva和Melo-Pinto，2021）进行了高光谱测量，使用了以下图像采集系统（图1）：由JAI Pulnix（JAI，日本横滨）黑白相机和SpecimImspectorV10E分光仪（Specim，芬兰奥卢）组成的高光谱相机；通过一个尺寸为300×300×175mm3（长度×宽度×高度）的灯座提供照明，该灯座装有四个20W，12V卤素灯和两个40W，220V蓝色反射灯（Spotline，飞利浦，荷兰埃因霍温）。卤素灯由直流电源供电，以避免光线闪烁，反射灯仅以110V供电，以减少照明并防止相机饱和。每个组件都是直接从各自的制造商购买的，图像采集系统由作者组装。结果图像的空间分辨率为1040×1392像素，其中1040像素对应波长通道，范围在380和1028nm之间，每个通道宽度约为0.6nm，0R. Silva and P. Melo-Pinto 农业中的人工智能 7（2023）58-686001392像素代表空间维度（样品上的一行），宽度约为110mm。相机与样品底座之间的距离设置为420mm，并且相机由JAI的Coyote软件控制。所有高光谱测量都是在黑暗室内和室温（20°C）下进行的。每个高光谱图像是针对六个葡萄浆果进行的，并且在三种不同的浆果旋转中进行，每次旋转大约为120°，当将果梗视为极点时，仅在浆果赤道上采取单行，如下图2所示。每个旋转和位置的最终高光谱图像是在4秒的时间内获取的32个不同高光谱图像的平均值，相机每秒获取8个图像：这种方法可以减少测量噪声，并且还提供了一些反映在平均值上的空间尺寸信息（因为我们没有直接在线扫描高光谱图像上使用它）。预期地，在葡萄酒浆果所在的主要区域中有可观察到的光反射和吸收模式（完全反射表面上的Spectralon），为了获得每个葡萄浆果的单独图像，我们使用基于阈值的分割方法。图3显示了在分割之前由上述实验设置捕获的高光谱图像的示例。观察图3，可以看出成像的葡萄所在的地方明显吸收更多的光（黑色条纹），而没有葡萄的地方（Spectralon的其余部分）反射更多的光（白色条纹）。完成获得每个葡萄浆果的单独高光谱图像的过程后，我们进行反射率测量以构建最终数据集。0更多的光（白色条纹）。完成获得每个葡萄浆果的单独高光谱图像的过程后，我们进行反射率测量以构建最终数据集。02.1.2. 反射率测量反射率是光波长的函数，定义为物体反射的光强与照射物体的光强之比。尽管可以使用其他模式进行测量，如透射率或相互作用，但我们选择了反射率模式作为输入，因为不同波长下的反射和吸收模式将有助于识别化合物，并且与其他模式相反，可以在不需要光谱仪/相机接触样品的情况下进行成像（Gomes等人，2021a，2021b；Gomes和Melo-Pinto，2021；Silva和Melo-Pinto，2021）。对于由向量x表示的位置和波长λ，反射率R可以表示为：0R x，λ（）=α x，λ（）� σ x，λ（）μ x，λ（）� σ x，λ（）（1）0其中α是从葡萄反射的光强度；μ是从参考总反射目标反射的光强度；σ是电子噪声的暗电流信号。对于每个葡萄酒葡萄浆果，我们拍摄了32幅高光谱图像，进行了三种不同的浆果旋转，并且结果光谱经过归一化（使用最大-最小归一化）以避免测得的光强度的变化。图4显示了本文中将使用的数据集之一中反射率测量的结果。02.2.降维02.2.1. t-分布随机邻居嵌入t-SNE（Van derMaaten和Hinton，2008）是一种能够捕获高维数据的局部结构并揭示全局结构的技术，例如在多个尺度上存在聚类。当问题需要降维时，可以强调不同应用之间的共同目标，例如0图1.高光谱成像使用的设置模型（Fernandes等，2011）0图2.每个浆果上的成像线（Gomes等，2017a）0图3.葡萄酒葡萄浆果样本在分割和反射率测量之前的高光谱图像。0R. Silva and P. Melo-Pinto农业中的人工智能7（2023）58-68C ¼ ∑iKL Pi∥Q iðÞ ¼ ∑i∑jp j∣i log p j∣iq j∣ið2ÞPerp PiðÞ ¼ 2H PiðÞð3Þx ! y xð Þ ¼ ∑jαj ⋅k x, xj��∑ik x, xlðÞð4Þk x; x j��¼ exp −0:5 x−x j��2=σ2j��ð5Þ610在新的低维表示/投影中保留高维数据中尽可能多的重要结构或信息；增加对低维数据的解释能力；并最小化数据的新的低维表示中的信息损失。在我们先前的研究中（Silva和Melo-Pinto，2021），PCA建立为在减少器对数据的解释方面取得最佳结果的技术，获得包含最保留信息的表示，并且在大多数情况下，导致机器学习算法预测错误较少的表示。当我们比较这两种技术时，我们可以指出一些相关的差异：0•PCA是一种确定性算法，通常用于特征提取，而t-SNE是一种随机算法，主要用于可视化目的; •PCA应用线性技术，重点是在较低维空间中保持不同的点分开，而t-SNE应用非线性技术，试图在较低维空间中使相似的数据点靠在一起; •PCA通过使用特征值矩阵保留数据中的方差来转换原始数据，并且受异常值的影响很大，而t-SNE通过使用学生t分布来计算较低维空间中两点之间的相似性（有助于解决拥挤和优化问题），并且不太受异常值的影响。0因此，由于t-SNE主要用于可视化目的，不清楚它在一般降维任务中的表现如何，并且由于具有与迄今为止取得最佳结果的技术相反的特性，我们对进行此应用和研究结果感到好奇，因为我们之前得出结论（Silva和Melo-Pinto，2021）在非线性技术中，局部学习者似乎比全局学习者有更好的结果，但我们从未测试过既能保留局部又能保留全局结构的非线性技术；而且，由于从葡萄酒葡萄浆果中估计酿酒参数的问题由于数百种不同的品种和不同的收获年份而具有高变异性，能够减少异常值影响的技术可能导致更优越的泛化能力。t-SNE源自随机邻居嵌入（SNE）（Hinton和Roweis，2002），但使用学生t分布0重尾概率分布来解决原始技术中的拥挤问题：总之，t-SNE最小化高维空间和潜在空间之间的Kullback-Leibler散度，成本函数为：0其中P是原始空间中的条件概率分布，Qi是潜在空间中的条件概率分布。由于Kullback-Leibler散度不对称，低维表示中成对距离的误差将被加权不同：使用远离的映射点来表示附近的数据点将具有更大的成本，而使用附近的映射点来表示远离的数据点将具有较小的成本 -这意味着重点是保留低维表示中数据的局部结构。因此，以数据点xi为中心的高斯的方差，参数σi，永远不会对数据集中的所有数据点进行最佳表示，因为数据的密度可能会变化：在密集区域，σ的值比在稀疏区域更合适。然后，t-SNE将对产生用户指定的固定困惑度的Pi的σi的值进行二分搜索，定义为：0其中H(Pi)是以比特为单位测量的Pi的香农熵。人们可以将困惑度解释为典型值在5到50之间的有效邻居数量的简单度量：在这项工作中，我们对所有实验使用相同范围的值，选择产生最小误差值预测的困惑度值。02.2.2. 核t-SNEt-SNE是一种非参数技术，它提供了给定数据集的高到低维度表示，而不需要对原始集中未包含的进一步点进行映射公式：虽然它提供了更高程度的灵活性（因为不需要满足任何约束），但这意味着可视化步骤的结果完全取决于映射过程的形式化，并且在获得数据集的投影后没有直接的方法来映射额外的点；这个事实使得t-SNE不适用于流数据或在线场景的可视化。此外，非参数技术不适用于大数据集，因为它们至少显示二次复杂度。为了解决这些缺点（Gisbrecht等人，2015年）引入了核t-SNE。核t-SNE是一种在样本外扩展中显示出t-SNE灵活性的方法：它将非参数t-SNE扩展到显式映射，通过固定参数形式x → f w ( x ) = y并优化fw的参数，而不是投影坐标。核t-SNE的映射f w = y 遵循以下形式：0其中aj∈Y是对应于投影空间中的点的参数，xj被视为固定样本。k是由带宽σj参数化的高斯核：0这种广义线性映射允许以简单的方式进行训练（假设有一组样本 xi 和 y(xi)可用）。参数0图4. 完整数据集获得的反射率值（Silva和Melo-Pinto，2021年）。0R. Silva and P. Melo-Pinto 农业中的人工智能 7 (2023) 58 – 68f xð Þ ¼ ∑ni¼1αi � α∗i��xi, xðÞ þ bð6Þf xð Þ ¼ ∑ni¼1α∗i � αi��⋅ κ xi, xðÞ þ bð7ÞEk gð Þ ¼ ∑NKi¼1 g xvali�� yvali��2N=Kð8ÞEgen gð Þ ¼ ∑Kk¼1Ek gð ÞKð9ÞT kð Þ ¼ 1 � A kð Þ ∑Ni¼1∑j ∈ Uk ið ÞrT i, jðÞ � kð10ÞC kð Þ ¼ 1 � A kð Þ ∑Ni¼1∑j ∈ Vk ið ÞrC i, jðÞ � kð11Þ620αj可以通过映射的最小二乘解来确定。因此，在核t-SNE中，将标准t-SNE应用于子集X'以获得训练集，然后使用先前的分析解来获得映射的参数：一旦完成这一步，完整集X可以通过应用映射y在线性时间内进行投影。在这项工作中，带宽σ被定义为0.5，而在核t-SNE中，我们使用与t-SNE中使用的困惑度值相同的范围。02.3. 回归模型：支持向量回归0在捕获高光谱图像并获得反射率测量值之后，会对数据集应用降维技术（如t-SNE）以获得更适合作为分类或回归模型输入的低维表示：在本文中，我们选择了支持向量回归（SVR）算法（Vapnik,1999），因为与神经网络（NN）（Janik等，2007）、偏最小二乘（PLS）（Arana等，2005）或最小二乘支持向量机（LSSVM）（Cao等，2010）模型相比，它在预测葡萄酒葡萄高光谱图像的酿酒参数方面取得了最先进的结果（Silva等，2018）；此外，为了确保在本文中的案例研究中，SVR算法获得了更好的结果，并且PCA、t-SNE和Kernelt-SNE表现出类似的趋势，我们还对单一年份数据集应用了NN -结果可以在附录A中找到。支持向量算法描述如下（Smola和Schölkopf，2004）：给定一组训练数据{(x1，y1)，…，(xn，yn)} � χ ∈�，其中χ表示输入模式空间，目标是确定一个函数f(x) = �w，x� + b，w ∈ χ，b ∈�，使得整个训练集的误差E不超过�，同时尽可能平坦。这个凸优化问题可以写成线性函数的欧几里得范数的最小化；为了将SV机器扩展到非线性函数，引入了所谓的“SV扩展”：0其中， ω 被描述为训练模式和案例的线性组合，具有 α i > 0的支持向量。通过将优化问题从目标函数和相应的约束条件的对偶形式写出，可以看出这种SV扩展。此外，通过使用合适的核函数，可以以计算效率高的方式将输入向量映射到高维特征空间，获得非线性映射，得到非线性回归函数的形式：0其中， κ是选择的核函数。这种转换允许模型在更适合的特征空间中解决优化问题；有各种各样的核函数可供选择，适用于不同类型的应用，局部核基于距离（只有彼此附近的数据点影响核值），全局核基于点积（彼此远离的数据点仍然影响核值）：通过在先前的研究中进行不同的测试（Silva等，2018），我们选择了高斯核作为当前论文的核函数，因为它为我们的应用程序取得了最佳结果；至于众所周知的超参数C和γ，我们对每个实验进行了网格搜索，C的值范围从80到120，γ的值范围从1e-5到1e-1。02.4. 交叉验证和评估指标02.4.1.n折交叉验证在模型流程的这一阶段，确保所得结果不受训练阶段的任何形式的偏倚是非常重要的，因为这些算法很常见地受到“过拟合”的影响 -统计模型对其训练数据实现完美拟合，但无法对未见数据进行准确预测 -为了解决这个问题，实施了交叉验证方法。n折交叉验证方法（Lendasse等，2003；Remesan和Mathew，2015）将数据集X分成K个相等大小的部分，第k个集合形成验证集Xval，其余集合形成训练集Xlearn：使用Xlearn进行模型g的训练，并计算误差Ek(g)如下：0其中（x i val，y i val）是X val的元素，g（x i val）是模型g对y ival的估计。这个过程循环变化k从1到K，并计算平均误差为：0在这项工作中，我们选择折叠次数K从5到10的范围变化：我们选择较小的折叠次数用于较小的数据集，较大的折叠次数用于样本更多的数据集。0为了评估t-SNE和核t-SNE的性能，并将其与标准PCA方法进行降维进行比较，必须采用一些度量来衡量低维嵌入的质量：基于（Du，2019；Venna和Kaski，2006），我们实施了信任度和连续性度量。信任度和连续性是试图衡量数据的局部结构在其原始高维状态和通过降维技术获得的低维可视化之间的相似程度的度量。特别是，信任度评估是否在两种表示中选择的邻居是相同的，定义为：0其中N是样本大小，k是最近邻的数量，A（k）是一个缩放函数，Uk（i）是在低维空间中是数据点i的k个最近邻之一，但不在高维空间中。rT（i，j）是点j在Uk（i）中的排名，根据原始高维空间中i的成对距离。另一方面，连续性试图量化在其转换为低维可视化后局部结构的保持程度，并由以下定义：0其中Vk（i）是在原始高维空间中是数据点i的k个最近邻之一，但在可视化中不是邻居。rC（i，j）是点j在V k（i）中的排名，按照低维可视化中j和i之间的成对距离排序。02.4.3.均方根误差（RMSE）和决定系数R 20关于评估降维技术性能的问题，我们还测量了0R. Silva and P. Melo-Pinto农业中的人工智能7（2023）58-68RMSE ¼sð12ÞR2 ¼630通过对低维数据表示进行训练的回归器（Sanguinetti，2008）：这个过程允许将预测结果与其他最新的出版物进行比较。均方根误差（RMSE）定义为：0�� ∑ N i ¼ 1 b y i � y i � � 20其中Vk（i）是在原始高维空间中是数据点i的k个最近邻之一，但在可视化中不是邻居。rC（i，j）是点j在V k（i）中的排名，按照低维可视化中j和i之间的成对距离排序。0其中，σ y，^ y是y和^ y之间的协方差，σ y，σ ^ y是各自的标准差。虽然我们在结果部分提供了R2指标，以便作为对葡萄酒葡萄高光谱图像中酿酒参数预测的其他文献工作的一种比较基准，但重要的是要指出，根据（Spiess和Neumeyer，2010），R2对于非线性回归并不是很好定义，因为它对于参数化较高的模型显示出极端偏差，在低和中等实验噪声的背景下，该指标无法抵消参数增加的影响。0其中，yi是参考值，byi是模型估计值。广义误差是文献中评估模型准确性的唯一成熟做法，我们测量保留测试集的RMSE；然而，对于研究领域中的这个特定领域，决定系数（R 2）作为预测质量的指标似乎非常普遍。R 2定义为：02.5. 葡萄采样和数据集分析0关于用于构建本研究数据集的葡萄品种，我们选择了葡萄牙本地品种TourigaFranca（TF），主要是因为它对葡萄牙杜罗地区波特酒生产的重要性，以及对我们的工业合作伙伴西明顿家族酒庄的重要性：TF品种对生产商和葡萄酿酒师都非常重要，因为它对大多数植物疾病具有抵抗力，产生的葡萄酒具有浓烈的风味和香气，并且单宁含量高，可以保证葡萄酒的陈年。这些葡萄是在葡萄牙品亨奥的邦菲姆农场于2012年（240个样本）、2013年（81个样本）、2014年（120个样本）、2016年（407个样本）和2017年（540个样本）采摘的，来自葡萄园不同地区和不同成熟程度的葡萄；每个样本由一串葡萄中采集的六个葡萄浆果组成，通过实验室分析使用经过验证的标准方法（Carbonneau和Champagnol，1993；国际葡萄和葡萄酒办公室，1990）获得地面真实结果。因此，我们对模型在预测TF品种的不同年份的葡萄浆果的pH指数和糖含量的能力进行了研究：我们选择评估这些酿酒参数，因为它们与风味、颜色和整体葡萄成熟阶段的相关性很高；此外，由于诸多因素，如气候变化、土壤质量、日照、水分评估、海拔和收获时间，葡萄园和葡萄的品质及其酿酒特性存在很大的变异性，这使得模型在不同年份的葡萄园中的能力成为其泛化潜力的真正考验。附录B包含了所使用的不同TF数据集中每个酿酒参数的地面真实结果的描述性统计分析；7呈现了用于验证不同数据集均值之间的显著差异的方差分析（单因素方差分析）测试。为了更清晰地呈现结果，我们决定根据每次运行的训练集和保留测试集的特征来分析：0• 案例 A n：训练集和测试集使用相同年份的TF葡萄浆果；• 案例 Bn：训练集采用多个TF葡萄浆果的年份，保留测试集使用相同年份的多个TF葡萄浆果；• 案例 Cn：训练集使用单个/多个TF葡萄浆果的年份，保留测试集使用不同年份的TF葡萄浆果。0对于每个案例研究，我们创建一个保留测试集，其大小为相应训练集的10%；对于每个训练集，我们执行交叉验证，将其按90/10%的比例分为训练/验证文件夹。表1提供了所有执行的实验的详细信息。在前面描述的每个实验中，我们呈现了回归器对保留测试集的pH指数和糖含量以及所采用的每种降维方法（PCA、t-SNE和核t-SNE）所获得的RMSE和R2 -正如前面提到的，我们比较了t-SNE和核t-SNE与PCA的性能，因为在我们以前的工作中（Silva和Melo-Pinto，2021），对于这些相同的数据集和案例研究，PCA优于各种非线性方法，成为减少我们输入的最佳技术，这与文献中的几项研究一致，表明对于真实世界的数据，PCA仍然优于近年来引入的最先进的技术；对于每个数据集，计算了信任度和连续性指标，以及每种实施的降维方法。附录D总结了文献中最佳发布结果，并将其与本研究中最佳结果进行了比较，分别按相应的案例研究进行了划分。03.结果和讨论03.1.分析0表2和表3展示了所有数据集的可信度和连续性测量结果（最佳结果已经被标出）。观察这些表格，可以注意到t-SNE在不同数据集中的可信度取得了最佳结果，但连续性结果更接近：这意味着t-SNE在高维和低维表示中更好地选择相同的邻居，但在其转换后保持局部结构的程度（由连续性定义）在两种方法之间是相当的；然而，重要的是要指出，对于数据0表1每个案例研究的实验细节。0案例训练/验证集测试集0A1 TF 2012 TF 2012 A2 TF 2013 TF 2013 A3 TF 2014 TF 2014 B1 TF2012/13 TF 2012/13 B2 TF 2012/13/14 TF 2012/13/14 B3 TF2012/13/14/16 TF 2012/13/14/16 C1 TF 2012 TF 2013 C2 TF 2012/13TF 2014 C3 TF 2012/13/14/16 TF 20170表2显示了每种降维技术在每个单独数据集中的可信度T（20）。0可信度0方法TF 2012 TF 2013 TF 2014 TF 2016 TF 20170PCA 0.9949 0.9935 0.9972 0.9832 0.9702 t-SNE 0.9966 0.9947 0.9935 0.9975 0.9981 Kernelt-SNE 0.9871 0.9761 0.9649 0.9840 0.98660R. Silva和P. Melo-Pinto农业中的人工智能7（2023）58-68RMSEA10.9221.1460.9490.9550.9261.113A20.9401.4700.9850.7370.9820.950A30.8982.1550.9581.2790.8171.288B10.9351.7910.9441.1800.9181.492B20.9161.6010.9071.5450.8511.593B30.8761.3040.8901.4300.8661.746C10.9401.5440.9641.5100.9511.726C20.8393.5580.9403.7890.8683.559C30.8302.9640.8401.8630.8091.776PCA0.99650.99440.99780.99120.9866t-SNE0.99660.99420.99100.99540.9926Kernel t-SNE0.98570.95390.95710.98520.9773640具有更多样本和更高固有维度的数据集中，t-SNE获得了最佳结果，这可能表明该方法更适合降低更复杂样本的维度，这一特征也存在于Kernel t-SNE的结果中。0表4展示了对不同案例研究和降维方法进行pH指数预测所得到的结果。在直接比较中，t-SNE技术在几乎每个案例研究中都获得了最佳结果，误差率更低，确定系数值更高。正如信任度和连续性测量所强调的那样，值得注意的是，与PCA方法相比，Kernelt-SNE方法在最后几个案例研究中获得了更低的误差率：这些是训练样本数量显著增加且数据的固有维度上升的情况。尽管回归器在不同案例研究中的性能相当稳定，但仍然可以注意到，误差率最小的情况是在训练集和测试集使用相同年份的TF葡萄浆果的情况下：这表明，尽管具有很强的泛化能力，但模型仍然不能像对同一年份的训练集样本进行预测pH指数那样确定地预测测试阶段中未知年份的情况：这可以被认为是正常的，因为预测的复杂性显著增加（附录C表C.1表明几乎每个年份之间的均值存在显著差异），并且结果的下降甚至更大的下降也不足为奇，因为我们使用的是浅层学习回归器来进行预测，而pH指数值极其容易受到外部因素（如天气、水资源等）的最小变化的影响。此外，我们对每个降维方法获得的预测结果进行了配对t检验，发现各组之间的均值没有差异。0表5展示了对不同案例研究和降维方法进行糖含量预测所得到的结果：再次，t-SNE技术在几乎每个案例研究中获得了最佳结果，误差率更低，确定系数值更高；此外，再次强调，t-SNE和Kernelt-SNE在固有维度和样本数量上升的情况下的结果优于PCA获得的结果。至于回归器的泛化能力，对于糖含量预测，结果的下降（误差率更高）比pH指数的情况更为明显，这是可以预料的，因为我们0使用更稀疏分布的样本点进行工作（附录B呈现了每个数据集样本的描述性统计，表B.1和表B.2）；这种误差率的增加在TF2014年份用于训练或测试的情况下可能更加明显（案例A3、B2、B3、C2和C3），这可以解释为，这个特定年份的糖含量特别低，均值比其他年份小得多，导致回归器在泛化其预测时出现更大的问题-然而，我们仍然认为模型的泛化能力非常可接受，特别是考虑到我们使用的是一个缺乏更强大的深度学习技术能力的浅层学习回归器。配对t检验用于调查每种降维方法给出的预测均值之间的统计显著差异，结果显示PCA和Kernelt-SNE方法与PCA相比在案例研究A3和C3中的预测均值存在显著差异，这可能解释了在这些集合中回归器突出显示了不同的学习特征。03.2.比较0与顶尖的最新作品进行比较（附录D表D.1提供了一个比较性的评论表），t-SNE在所有研究中获得了糖含量估计的最佳RMSE和R2值，其中训练集和测试集使用相同的葡萄酒葡萄浆果单一年份，以及测试集使用不同年份的葡萄酒葡萄浆果；关于案例研究B（训练集和留置测试集中都使用了多个年份的葡萄酒葡萄浆果），t-SNE取得了相当竞争力的结果，仅在Gomes等人（2021a）的卷积神经网络（CNN）模型以及Caballero等人（2011）和Fadock等人（2016）提出的偏最小二乘（PLS）模型中被超越；作者认为，这更加强调了t-SNE技术在降维方面的能力，因为我们能够使用浅层学习回归器获得竞争力或更优越的结果，而不是已经采用更先进的深度学习解决方案进行预测的模型；考虑到不同研究小组之间的方法论差异（不同的数据集，高光谱成像的不同设置，反射/透射/相互作用测量的不同模式，不同的预测技术等），我们还认为，通过相同的管道和样本直接比较不同技术能够得出更好的结论，就这一点而言，我们展示了t-SNE在相同案例研究中比PCA取得更好的结果，这是一个新颖之处，因为没有其他研究报告在真实数据中具有这种优越性。至于pH指数的估计，t-SNE取得了非常有竞争力的结果，甚至获得了所有研究中训练集和测试集使用相同单一年份葡萄酒葡萄浆果的最佳RMSE和R 2值；当比较具有多个年份的葡萄酒的案例研究时0在每个案例研究的留置测试集中获得的pH指数的结果。0pH指数0案例 PCA t-SNE Kernel t-SNE0A1 0.786 0.186 0.870 0.148 0.825 0.177 A2 0.810 0.199 0.947 0.106 0.899 0.139 A3 0.7530.139 0.829 0.120 0.788 0.148 B1 0.814 0.171 0.876 0.158 0.813 0.170 B2 0.818 0.163 0.8630.171 0.803 0.168 B3 0.783 0.174 0.832 0.162 0.757 0.185 C1 0.845 0.229 0.953 0.153 0.8450.189 C2 0.818 0.195 0.808 0.152 0.738 0.161 C3 0.797 0.245 0.869 0.120 0.860 0.1330在每个案例研究的留置测试集中获得的糖含量的结果。0糖含量（°Brix）0案例 PCA t-SNE Kernel t-SNE0R 2 RMSE

下载后可阅读完整内容，剩余1页未读，立即下载