没有合适的资源?快使用搜索试试~ 我知道了~
International Journal of Information Management Data Insights 3(2023)100174基于卷积神经网络的Inception-V3迁移学习方法Gaurav Meenaa,Krishna Kumar Mohbeya,Sunil Kumara,ba印度阿杰梅尔拉贾斯坦邦中央大学计算机科学系b印度海得拉巴沃克森大学商学院aRT i cL e i nf o关键词:情感分析迁移学习机器学习InceptionV3深度学习情感营销a b sTR a cT情绪分析已成为企业的宝贵工具,因为它可以用于许多方面:了解客户对产品和服务的看法,建立客户关系和忠诚度,改善客户服务,并使用情感营销。在过去的几年里,开发端到端图像情感分析方法非常强调迁移学习方法。深度学习算法已被证明在广泛的应用中取得了显着的成果。图像情感一种叫做“盗梦空间”的技术V3可以很容易地集中在身体的大部分,如一个人的脸,与过去所做的工作相比,这是一个显着的优势。这项研究利用了Inception-v3,这是一种著名的深度卷积神经网络,除了额外的深度特征,以提高图像分类的性能基于CNN的Inception-v3架构用于情感检测和分类。在此过程中使用了数据集CK+,FER2013和JAFFE。结果还与各种著名的机器学习方法进行了比较,建议的模型所获得的结果是优越的。研究表明,该方法的准确率可达99.5%。所提出的方法可以用于在许多商业应用中,如信息管理、销售、市场营销、用户交互、医疗保健、教育、金融、公共监控、数字公关等。1. 介绍几乎每时每刻,网络上的数据量都在呈指数级增长。这些文本、音频和视频文件大多来自网络用户,他们通过社交媒体、博客和网络论坛分享越来越多的信息。信息共享涉及各种主题,如健康、商业、教育、旅行和旅游。生理数据可以在医疗保健系统,健康保险公司,研 究 人 员 和 政 府 机 构 中 找 到 ( Meena , Mohbey , Indian ,2022;Shoumy,Ang,Seng,Rahaman,Zia,2020)。如果组织了解客户对客户服务的感受,就可以改善与客户的互动情绪分析通过澄清您的团队的服务决策是好还是坏,消除了此类过程中的猜测情感和情绪分析可以帮助营销人员更好地与潜在客户联系,无论他们在哪里。情绪和情感分析的以下用途与营销项目直接相关:关注公司的声誉,跟踪营销效果(Shoumy等人,2020;Consoli,2010;Gunter,Koteyko,&Atanasova,2014)。情感营销是一种新型的营销方式,它正在成为...在商业世界中很受欢迎(Consoli,2010)。最近的研究表明,购买决定是基于仔细评估理性和情感因素。因此,基于情感的技术是决策的关键部分,它可以在广泛的应用领域提供帮助。随着社交媒体平台产生的数据量每过一秒都呈指数级增长,这是开始收集图像的好地方。这些可以被研究和分类用于几个目的,包括情绪分析。在视觉情绪分析中, 寻求建立由特定图像传达的情感的特征(即,正、中性或负)。视觉情绪有两种(积极和消极)和三种极性(积极,中性和消极),如图所示。1.情感分析是意见识别中研究方面(苏菲,2022)。情绪分析最早出现在20世纪90年代末,但直到2000年,它才成为信息管理学科的一个重要新兴分支。使用这种情感分析可以在业务应用程序的上下文中开发更好的信息管理策略。广泛的研究已经发现了普遍的面部表情,如快乐,悲伤,愤怒,恐惧和中性的面孔。近年来,基于图像的情感分析∗ 通讯作者。电子邮件地址:gaurav. curaj.ac.in(G. Meena),kmohbey@gmail.com(K.K. Mohbey),gmail.com(S. Kumar)。https://doi.org/10.1016/j.jjimei.2023.100174接收日期:2022年5月31日;接收日期:2023年3月20日;接受日期:2023年3月28日2667-0968/© 2023作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表国际信息管理数据见解期刊主页:www.elsevier.com/locate/jjimeiG. Meena,K.K. Mohbey和S. KumarInternational Journal of Information Management Data Insights 3(2023)1001742Fig. 1. 面部极性的例子。已成为心理学,精神病学和心理健康研究的一个突出主题(Kalyani,Premalatha,Kiran,2018)。从照片中自动识别情绪对于现代生活的许多方面都是必不可少的,包括辅助生活、医疗保健、自闭症谱系障碍的诊断、人机交互和社会福利计划(Alom等人,2019年)。因此,研究界的焦点已被吸引到情感分析,由于可能开发的应用程序。情感分析的主要目标是确定不同的表情如何映射到其他情感状态。基于图像的情感分析的传统方法可以分为两个主要步骤:特征提取和情感分析。此外,还需要图像预处理,包括人脸识别,裁剪,缩放和归一化等功能。在传统的情感分析系统中,从处理后的图像中提取特征是最重要的工作。目前的方法使用专门的技术,如离散小波变换、线性判别分析和类似方法(Ko,2018)。在最后一步中,提取的特征用于通过对它们进行分类来理解senti- ments。这通常是在以下帮助下完成的:神经网络,深度学习,迁移学习和其他几种机器学习方法(Ensa fi,Amin,Zhang,Shah,2022)。许多系统使用情感分析,包括信息管理、医疗决策支持和患者辅助机器人。数据质量通过使用视觉的能力,信息.调查多学科科目,如信息管理,市场营销等,可以通过情感分析来实现。深度神经网络,特别是卷积神经网络(CNN)(Anand,Urolagin,&Mishra,2021),最近在情感分析中引起了很大的兴趣,因为它们包括从图像中提取特征的内在机制(Sahu& Dash,2021)。首先,我们需要一个合理的高分辨率图像来识别情绪,这意味着你必须找出高维数据。第二,当面孔处于不同的情绪状态时,它们之间没有太大的差异,这最终使得分类更加困难。要从头开始构建深度神经网络模型,必须花费大量时间和精力以计算机能力的形式收集数据和资源。因此,重新训练已经构建的深度神经网络模型是节省时间和最小化与数据收集相关的支出的优秀技术,因为它需要更少的训练数据示例比最初的模型。迁移学习是用来成功实现这一目标的方法。情绪分析的实践已经引起了极大的兴趣(Gajarla Gupta,2015)。文献中有许多方法,但缺乏效率和准确性。因此,为了克服这些挑战,本文提出了一种基于图像的情感分析系统,可以减少 它使用CNN进行开发,使用Inception-V3进行迁移学习。学习是使用迁移学习方法中先前获得的模式开始的,迁移学习方法是以时 间 效 率 方 式 构 建 模 型 问 题 的 一 种 众 所 周 知 且 广 泛 使 用 的 方 法(Oquab,Bot- tou,Laptev,&Sivic,2014)。通过重用已经训练过的模型,可以避免需要数据的来自绘图的训练,这利用了大量的计算工作。换句话说,迁移学习是使用预先训练的模型(Rawat Wang,2017)重新使用获得的信息的过程,这些模型已经针对以下问题进行了训练:一个使用大型基准数据集的类似类型。以下是进行这项研究的一些原因:许多图像中存在低级基本特征;已经训练好的模型应该足够如果这个过程仅仅是微调高,低级特征;低级基本特征是频繁的。在已经提出的基于图像的情感分析系统中,使用了一个名为Inception-V3的预训练CNN。建议的系统的准确性,在识别个人的情绪进行评估,使用各种已建立的面部图像数据集,如FER2013,JAFFE,和CK+。在这些数据集上,发现所建议的技术具有异常的准确性。评估结果表明,所提出的图像情感分析系统在情感检测的准确性方面优于已经使用的系统。本研究旨在建立情感分析研究的信息管理工具。我们的研究广泛使用了CK+、FER2013和JAFFE数据集,其中最重要的贡献如下:• 开发一种有效的方法,通过使用CNN模型分析人们• 管道训练技术的使用允许对模型进行渐进微调,直至达到高识别精度。• 将建议方法的情感分析准确性与当前使用的技术进行比较,并检查该方法的效率。G. Meena,K.K. Mohbey和S. KumarInternational Journal of Information Management Data Insights 3(2023)1001743• 对三个广泛使用的基准面部图像数据集的模型结果进行评估。论文的其余部分结构如下:下一节将简要概述各种现存的情绪分析方法。第3节简要介绍了CNN和Inception V3基于迁移学习的建议模型,以促进对建议模型的更深入理解。第4节介绍了实验性实验。结论和未来的研究可以在第5,工作的最后一部分2. 相关工作2.1. 情绪分析应用人工智能和计算机视觉领域对情感分析的需求正在增加。视觉情感分析任务预计将对实际应用产生重大影响。因此,情感驱动技术在决策中至关重要,这可能会在许多应用领域(包括信息管理)中发挥作用。这些更广泛的应用学科包括管理和营销,智能广告,用户交互,医疗保健,教育,金融,公共监控等(Aghav-Palwe Gunjal,2021)。医学意见分析它的分析和提取在治疗精神障碍、远程医疗服 务 和 人 机 交 互 方 面 有 许 多 应 用 ( Hinduja , Afrin , Mistry ,&Krishna 2022)。 市场情绪分析( Aswani ,Kar ,Ilavarasan ,&Dwivedi ,2018 年;Gebhard ,2005 年 ; Verma ,Sharma ,Deb ,&Maitra,2021年),事件分类和位置预测(Singh,Dwivedi,Rana,Kumar,&Kapoor,2019年),主题分类(A ul-Dadzie A&ul-Dadzie , 2017 年 ;Singh 等 人 , 2017 ) , 品 牌 真 实 性 情 感( Shirdastian , Laroche , &Richard , 2019 ) , 新 产 品 开 发(Rathore& Ilavarasan,2020)和一般的社交网络分析(Wu,Li,Shen,&He,2020)可以从情感计算模型中受益。针对传统卫生管理方法进行大规模心理健康监测的不足。创建了一个 通 用 框 架 , 以 促 进 在 Twitter 平 台 上 进 行 积 极 的 心 理 健 康 监 测(Hinduja,Afrin,Mistry,Krishna,2022)。在公共事件的背景下,微博的话题和情感传播图允许在几个阶段“话题出度”、“话题变化度”、“情感出度”和“情感偏离度”中跨利益相关者对话题和情感传播的模式进行可视化探索(An等人,2021年)。投资者和企业一直在寻求利用各种信息来源做出明智的投资决策。随着基于网络的信息来源的激增和情绪分析的出现,许多投资者已经将他们的注意力从传统的财务测量转移到企 业 成 功 的 主 要 预 测 因 素 ( Raman , Aljafari , Venkatesh ,Richardson,2022年)。文本情感分析从非结构化P2P中提取情感贷款数据。在没有市场利率的情况下,借款人可以通过提高贷款描述的可读性和词汇准确性来增加融资机会&可以对由公共推文和新闻故事组成的数据集进行情感分析,以调查公众对旅行的态度。知名机构参与者&的危机沟通干预,以及媒体对旅游公司(尤其是航空公司)的看法,影 响 了 航 空 公 司 和 旅 游 业 的 趋 势 和 表 现 ( Obembe 、 Ko- lade 、Obembe、Owoseni、Mafinisebi,2021年)。智能用户界面在人机通信过程中收集用户行为,并提供指导、帮助或自定义。本研究探讨了分析用户面部表情的有用性,以增强当前的用户界面定制方法。使用摄像机和肌电图传感器监测(Branco Encarnacao,2004)。产品外观标准的研究,发现消费者的审美需要在这种情况下。提供了一种方法来显示考虑es的重要性产品概念设计中的审美和情感需求。一种模糊逻辑技术被用来根据用户和设计师的审美体验来改进外观标准(Hu,Liu,Lu,2022)。研究了情感设计的几种方式,如为意义、愉悦或丰富体验而设计。当在设计中考虑情感时,设计变得更加相关,相关性是更好的人际行为的关键,导致设计持续时间更长,人们想要与之互动(Casais ,2021)。对用户特征和行为的深入理解为用户体验带来了新的、潜在的前景,用户体验如何能够更具同理心,并使用关于用户表达的推断来触发游戏和娱乐事件。这些事件以电影的方式用于创建动态应用程序行为。这种方法用于第三人称/第一人称恐怖冒险和传统的桌面游戏(Bisogni,Cascone,Castiglione,Passero,2021)。每个学生都有不同的爱好和需要.因此,为人们提供不同的学习风格和学习环境,他们的感情智能学习环境的研究,学习者的偏好被确定出来,然后用户界面被改变以适应这些偏好。已经制作了具有特定界面的学习系统,使得当用户与系统交互时可以看到不同的学习风格(Cha等人,2006年)。随着在线招聘方式的兴起,人们被雇佣的方式也发生了变化。在过去,人们通过面对面的面试被录用,这需要很长时间。在线面试可以用来获得一些第一印象-一个和帮助第一轮筛选和入围。因此,一个基于信息和通信技术的系统可以用来确定受访者我们可以使用面部表情识别技术和声音分析来匹配激情,合作,自信和情绪稳定性(Rupasinghe,Gunawardena,Shujan,Atukorale,2016)。2.2. 使用深度学习方法进行为了通过交替堆积的线性和非线性变换的多层来反映数据处理的高级泛化,神经网络被建议作为机器学习的子域,称为深度学习(Litjens等人,2017年)。语音、图像和文本处理中最重要的进步之一是深度神经网络的发展,它包括数十甚至数百个堆形层(Kauret al.,2021年)。结果表明,Porusniuc、Leon、Punfte和Miron(2019)通过修改三种不同的卷积设计提高了FER-2013数据集的识别准确性。装袋方法被用来创建所考虑的模型的合奏。不同的直方图均衡化和分形变化产生的考虑数据集。经典的ResNet 50网络用于基于图像的情感分析的深度学习技术是机器学习中相对较新的方法。到目前为止,科学文献中已经描述了许多基于CNN的研究在Zhao,Shi和Zhang(2015)的研究中,深度信念网络(DBN)与NN相结合用于人脸识别。DBN用于无监督特征学习,而NN用于分类情感特征。在他们自己收集的面部情感照片中,Pranav,Kamal,Rupran和Supriya(2020)研究了由两个卷积池层组成的典型CNN架构的性能。Wen等人(2017)也考虑了CNN集合;然而,尽管他们训练了一百个CNN,但他们在最终模型中只使用了这些CNN的一个子集。研究人员Ruiz-Garcia,Elshaw,Altahhan和Palade(2017)在使用堆栈卷积自动编码器的编码器权重初始化其权重后,使用人脸照片训练了他们的CNN。这种CNN初始化已被证明比具有随机起点的CNN表现更好 。 对 于 图 像 识 别 , Jain , Kumar , Kumar , Shamsol- moali 和Zareapoor(2018)考虑了包括CNN和RNN的深度学习混合架构。Shaees等人(2020)看了看AG. Meena,K.K. Mohbey和S. KumarInternational Journal of Information Management Data Insights 3(2023)1001744具有迁移学习的混合架构。在这种设计中,使用SVM对预训练的AlexNet进行分类。最近,Shi,Xu和Chen(2020)研究了使用CNN进行聚类技术的可能性。另一方面,Porcu,Floris和Atzori(2020)评估了几种数据增强方法,其中一种是合成图片来训练深度CNN。他们发现,当合成图像与其他方法相结合时,深度CNN的性能得到了提高。基于CNN该方法使用神经网络和集成学习,通过连接三个不同的子网络。通过保证方法的稳定性,可以提高方法的测试精度和推广能力。关于面部表情识别,Zheng等人(2020)提供了一种判别式深度多任务学习(DDMTL)方法,该方法考虑了类别标签数据和样本在空间中的局部分布。Boughida、Kouahla和La ifi(2022)提出了Gabor滤波器和遗传算法。该方法利用人脸标志识别人脸上的感兴趣区域,然后从这些区域中提取Gabor特征。可以使用遗传算法来优化SVM超参数,同时可以同时选择最佳特征。实验表明,该方法的识别率为94.20%,优于其他方法CK+数据集为94.26%。2.3. 使用机器学习方法分析图像的情感内容在人工智能中是一项艰巨的工作,特别是在该领域的机器学习子领域。各种传统的机器学习方法,如KNN和NN,已被用于整个工作的发展。Xiao-Xu和Wei(2007)开发的用于分析情感的突破性技术开始于向面部图像添加小波能量特征。接下来,研究人员使用Fisher线性判别式提取特征,然后使用KNN方法对受试者的情绪状态进行分类。此外,KNN被Zhao,Zhuang和Xu(2008)用于人脸识别中的分类;然而,主成分分析和非负矩阵分解被用于特征提取。Feng,Pietikäinen和Hadid(2007)从图像的各个不同的微小部分收集局部二进制模式直方图,将这些直方图整合到单个特征直方图中,然后使用线性规划方法对受试者的情绪状态进行分类Lee、Shih、Lai和Lin(2012)采用扩展小波变换进行2D。他们将轮廓波变换命名为轮廓波变换,从图像中提取特征,然后使用提升技术对其进行分类。Chang和Huang(2010)采用径向基函数NN进行分类,并将人脸识别添加到情感分析中。人脸识别的使用可改善对人的表情识别。几种分类策略使用SVM根据检索到的特征值确定个人的情绪状态。在他们的深入研究中,Shan,Gong和McOwan(2009)使用各种SVM形式研究了基于局部统计特征和局部二进制模式的几种人脸表示。他们的发现可以在这里看到。Jabid、Kabir和Chae(2010)研究了一种根据对象外观提取特征的方法。这种方法被称为局部方向图。 Alshamsi,Kepuska和Meng等人(2017)最近进行的研究使用SVM研究了两个特征描述符的使用,即重心描述符和面部标志描述符。在最近的研究中,Joseph和Geetha(2020)研究了他们提出的基于面部几何特征提取的各种分类方法。这些分类方法包括逻辑回归、LDA、KNN、分类回归树、朴素贝叶斯和SVM。研究的重点是基于面部几何特征的提取传统的方法都来自于同一个主要问题:它们缺乏性能。Fallahzadeh等人(2021)提出了AlexNet-DCNN模型来学习与不同情感类别相关的高级特征。迁移学习被应用于建议的模型,之后,所建议的模型在目标数据集上进行了微调。CK+数据集的平均识别准确率为93.66%,而CK数据集的准确率为93.66%。在基准情感数据集上的实验结果表明,该模型具有良好的性能,并有可能提高现有FER系统的Mohammed和Abdulazeez(2021)使用了DCNN,DCNN因其处理图像数据的能力而广受欢迎。DCNN的计算密集型工作可以由GPU处理,由于其高性能,GPU非常节能。Hung,Lin,andLai(2019)提 出 了 Dense Face Live Net 框 架 , 以 从 低 到 高 提 高 FaceLiveNetNetwork的基本情感识别准确性。用于两阶段迁移学习的密集面实时网络作为第一步,我们使用JAFFE基本情绪识别模型转移到FER 2013主要情绪数据集,并达到70%的准确其次,当使用迁移学习模型学习情感识别时,测试准确率高达91.93%,比未使用迁移学习的测试准确率79.03%提高了12.9%,证明了有效地使用迁移学习来提高识别准确率是可能的。表1提供了基于图像的情感分析的选定先前研究的集合。3. 方法这项研究的基础是一组预训练的深度CNN模型和一种称为迁移学习的方法。这项研究旨在确定哪种Inception-V3预训练的深度CNN模型最适合基于图像的情感分析。3.1. 数据收集在文献中可访问几个数据集以进行图像发送分析。以下数据库用于进行我们的研究:已经用于研究面部表情的数据集包括FER2013数据集(Goodfellow等人,2013)、JAFFE数据集(Akhand,Roy,Siddique,Kamal,&Shimamura,2021)和Cohn-Kanade数据集(CK+)(Lucey等人,2010年)。其他数据集可访问- ble在线,包括FER2013数据集,作为ICML 2013 Kaggle竞赛的一部分产生(Goodfellow等人,2013年)。该数据集包含35,887张灰度图像,尺寸为48 × 48像素:28,709张用于训练,3589张用于测试。学者们创建了JAFFE(Akhand等人,2021)数据集在九州大学的心理学博士在他们的研究。他们采用日本女性模型来生成数据集。除此之外,数据收集在一个可控的环境来建立面部表情。除此之外,该数据集还包括更局部化的面部表情变化。JAFFE只有213张10个人的正面图像,这对于如此广泛的收集来说是最小的。CK+(Lucey等人,2010)包括针对123个不同的人的七个手势,并且是经常使用的调查者数据库。它包含了593个图像数据的主题,代表了七个基本的情感类别。3.2. 数据分析图像数据分析是从图像中提取见解和信息的强大工具,其应用范围从计算机视觉到科学研究。图像数据集分为两类:训练和测试。图像分为七种情绪状态:愤怒、厌恶、恐惧、高兴、悲伤、惊讶或中性。在FER2013数据集中,必须在存在不平衡数据的情况下应对挑战之一。此集合包含许多错误的样本,包括非面部图像、不适当的面部裁剪以及表情标签中的标签错误。因为大量的G. Meena,K.K. Mohbey和S. KumarInternational Journal of Information Management Data Insights 3(2023)1001745表1图像情感分析研究的比较综述S.No作者所用办法数据集准确度(%)年1Porusniuc等人(2019年)miniXception2013年外汇储备62.052019miniXception集成63.662Hua et al. (2019年)ResNet10158.232019VGG1962.313Zheng等人(2020年)AlexNetCK+91.21 ± 32020VGGNet92.53 ± 2GoogLeNet93.31 ± 2阿达加博尔93.40 ± 43D-CNN95.18 ± 1SJMT95.11 ± 2DMTL95.67 ± 3DDMTL97.63 ± 34Boughida等人(2022年)Gabor滤波器94.2620225Fallahzadeh等人(2021年)AlexNet-DCNN93.6620216穆罕默德和阿卜杜勒-阿齐兹(2021)深度CNN98.520217Hung等人(2019年)VGG16谢斐84.66 ± 5.702019InceptionV382.59 ± 3.32Inception_ResNetV289.57 ± 6.33DenseNet20190.23 ± 2.73密集_FaceLiveNet90.97 ± 3.95图2. 典型的CNN架构。训练实例和采样情况,普遍使用该数据集来评估人脸表情识别算法和基于强化学习的系统。CK+数据集还包含了代表七种基本情绪类别中每一种的图像,这些情绪类别由参与者在七种类别中的每一种类别中的表情确定:蔑视,厌恶,愤怒,恐惧,快乐,悲伤和惊喜。积极、消极和中性情绪类别都被考虑在这项研究中。本实验中的七个类别中的每一个都减少到三个。3.3. CNN近年来,卷积神经网络(Gupta,2021)通常被称为CNN,它已经完全接管了机器视觉领域。CNN有许多隐藏层,包括输入层和输出层。卷积层、池化层、完全链接层和归一化层是CNN隐藏层的标准组件。越来越复杂的模型可能需要引入额外的层(Nasir,Khan,&Varlamis,2021;Hussain,Bird,&Faria,2018)。我们可以在Arun(2013)中找到几个常见CNN的例子,如图2所示。 CNN架构在各种计算机视觉和机器学习挑战中表现出出色的性能。CNN以高度的泛化能力进行教学和预测,并将具体内容保存在后续阶段。由于它不断创造效率的新纪录,CNN模型被广泛用于许多基于机器学习的应用程序中。这些CNN的操作基于线性代数的使用。数据和权重的表示基本上是基于相乘在一起的矩阵和向量(Wu,2015)。每一层都存储了一个与图像集相关的唯一属性集合。例如,如果将面部图像发送到在CNN中,网络的早期层将用于学习特定的基本属性,如边缘、亮点、暗区、形状等。下一组层将由可识别的形状和与图像相关的项目组成,如嘴、鼻子和眼睛。之后,图像将被渲染。第二层由具有真实面孔外观的组件组成;换句话说,由网络可能使用的不同形式和对象组成来描述人脸。CNN使用部分匹配而不是整个图像匹配,这导致图像分类过程被分解为几个特征。由CNN提取并用于评估的特征由已建立的3 × 3网格表示。该过程中的下一个步骤称为滤波,需要将特征与图像块对齐。在将每个piX el乘以其相关联的特征piX el之后,最后一步是把所有的产品价值加起来。然后,将其除以总数量-构成特征空间的像素的BER完成此步骤后,将使用特征的最终值更新特征补丁。在对剩余的特征块重复此过程后,下一步是测试每个潜在的匹配,然后是卷积式重复应用此滤波器。CNN的下一层是最大池化,包括减少图像堆栈。这一层称为最大池化层。要池化图像,需要指定窗口大小和步幅窗口大小通常为3 ×3PIX el,而步幅通常为1PIX el。之后,窗口以步幅在图像上进行滤波,并单独记录每个窗口最大池化是一种技术G. Meena,K.K. Mohbey和S. KumarInternational Journal of Information Management Data Insights 3(2023)1001746图3. I n c e p t i o n - V 3 的 架构(Szegedy等人, 2016)。这降低了每个特征图CNN中的标准化过程,也称为整流线性单元(ReLU)过程,需要将所有滤波图像的负值区域设置为0,然后将其传递到下一层。在每个过滤图像上执行此阶段后,ReLU层用于进一步增强模型的非线性功能。CNN做的下一件事是堆叠层,这包括卷积、池化和ReLU操作,以便一层的输出成为下一层的输入。可以堆积几层,称为深层堆积。完全连接层,有时称为分类器,是CNN设计中的最后一层。它也被称为全连接层。该层中的每个值都有助于对图像进行分类的最终决策。彼此完全相关的层通常堆积在另一个层的顶部,每个中间层对隐藏的类别进行投票在实践中,添加新的层允许网络学习更复杂的数据组合,最终导致改善决策(Jolly,Iwana,Kuroki,Uchida,2018)。反向传播是深度神经网络如何获得用于卷积层的值和完全连接层的权重。深度神经网络就是这么做的。在反向传播过程中,神经网络考虑引入最终响应的误差,以计算它应该改变和改变多少3.4. Inception-V3模型卷积网络是Inception-v3模型架构的构建块。在ImageNet数据集上训练后,它在“前5名错误率”方面达到了3.46%(Russakovsky等人, 2015),使其成为图像分类领域最准确的模型之一。该模型最初由Google Brain团队开发,并通过迁移学习过程用于各种应用,包括对象识别和其他领域。谷歌首先在2014年推出了其预训练的网络模型,也称为GoogleNet(Szegedy et al.,2015年)。ImageNet大规模视觉识别挑战(ILSVRC)包括超过一百万张用于处理的图像( Russakovsky 等 人 , 2015 年 ) 。 AlexNet 模 型 由 Krizhevsky 、Sutskever、Hinton(2012)提出,可以检测物体,并取得了显著进展Inception-v3模型的对象识别性能稍好。Inception网络是GoogleNet的一Inception是一个由22层组成的网络,拥有5M参数。它有一个从1× 1到3 × 3到5 × 5的过滤器大小,可以在使用最大池的同时提取各种大小的特征。使用1 × 1滤波器,以便更快速地完成计算。在2015年下半 年,Google 将Inception 模型 升级 到InceptionV3 ( Szegedy,Vanhoucke,Io Chee,Shlens,Wojna,2016)版本,该版本考虑了卷积层以最大限度地减少参数数量卷积滤波器的大小为5 × 5改为两个大小为3 × 3的滤波器,以降低所需的处理量,同时保持相同的网络性能水平。InceptionV3模型中共有48层。在我们的实验中,我们使用了InceptionV3模型,为了防止过度拟合,我们确保根据目标数据调整模型。inception-v3模型包含一个卷积块、一个Inception模块和一个classifier。使用交替卷积层和最大池化层的简单卷积块来提取特征。多尺度卷积并行运行,每个分支的卷积输出在增强的Inception模块中连接(Lin,Chen,Yan,2013)。训练结果更加稳健,使用辅助分类器实现了改进的梯度收敛,同时还同时解决了消失梯度和过Inception-v3中广泛使用1 × 1卷积核来减少特征通道并加快训练速度。巨大的卷积被分成较小的卷积,以进一步减少计算成本和参数计数。Inception-v3的创新Inception架构使其能够在对象识别的最前沿进行操作因此,这种范式经常用于迁移学习。研究表明,修改完全链接层的设计并保留所有卷积层的设置可以有效地使用Inception-V3模型执行新图像的分类(Raina,Battle,Lee,Packer,Ng,2007)。inception-v3模型的体系结构和核心单元如图2和3所示。分别为3和4。根据Inception-v3模型,卷积块、Inception模块和分类器依次连接以形成最终输出。它遵循卷积神经网络架构进行图像分类。Inception-v3模型的图像特征提取模块使用ImageNet进行训练。高分辨率图像可以在ImageNet数据库中找到,该数据库对软件开发人员和从事图像分析的学者开放。在图像分类中,在Inception-v3模型中使用了CNN和全连接层。的最后一层神经网络分类器是softmax层,它提供具有归一化类似然的输出。图5描绘了已经呈现的模型的架构。为了训练模型,我们合并了两个密集层,大小为1024,并使用ReLU进行激活。还添加了一个可扩展层,它将生成一个相当长的单个特征向量4. 实验结果4.1. 实验环境所有测试均使用64位Core i7 CPU、Windows 10 Pro和32 GB RAM。TensorFlow 2.5已经通过Anaconda和Python 3.9安装在PC上。有60个训练周期,初始学习率为1 × 10−3和60个周期。我们测试的最终结果是,dropout值为0.3,G. Meena,K.K. Mohbey和S. KumarInternational Journal of Information Management Data Insights 3(2023)1001747图第四章Inc e p t i on 模 块 的核心单元(Szegedy等人, 2015年)。图5.提出了用于图像情感分析的Inception模型架构。层和softmax函数,我们发现这是最有效的。最初的实验包括测试60个时 期 和 各 种 模 型 , 包 括 VGG 16 、 Densenet 201 和 Resnet 101(Fallahzadeh等人,2021),但没有一个在实验中使用的数据集上表现良好。将建议的技术与Inception-v3模型架构进行比较,以了解其性能如何。因此,我们决定继续下去。因此,训练集、测试集和验证集的输入形状(224 × 224)和批量大小对于所有三个集都10.使用回调函数,存储和重用具有最低验证损失的模型是可行的。Inception-v3架构在图6中通过已经考虑的几个层示出。由于架构的巨大规模,可见的层较少。为了在全面测试后优化性能,我们选择了表2中描述的超参数。我们利用CK+、FER2013和JAFFE数据集,实验F1得分和其他绩效评估因素,包括准确率和召回率,也被用来检验结果。表2超参数详细信息。参数值输入形状(224,224)学习率0.0001辍学0.6批量10历元60FC层512激活函数ReLU优化器亚当4.2. 绩效评价精确度、召回率、准确度和f1度量是用于比较各种分类器性能的主要关键性能指标(Mohbey,2020;Sharma,Rana,Kumar,2021)。表3列出了构成混淆矩阵度量的参数。G. Meena,K.K. Mohbey和S. KumarInternational Journal of Information Management Data Insights 3(2023)1001748∑���(2)������������������������=(1)���=(3)+表3混淆矩阵见图6。 Inception-v3模型的几层。损失由分类交叉熵损失函数计算,该函数通过计算以下公式中所示的总和���������������= −������.������������ ���(5)=1其中,是模型输出的第i个���������准确度,精确度,召回率和F1分数计算提出的Inception V3为基础的模型和其他模型。真实范畴被表示的程度称为准确性。True_Pos+True_NegTrue_Pos+False_Pos+False_Neg + True_Neg我们的模型预期的阳性标签的精确数量是用精确度(P)估计的。True_PosTrue_Pos + False_Pos根据我们的数据,我们能够准确地预测出多少积极的标签,这是我们通过回忆(R)来衡量的真_阳性真_阳性+假_阴性另一方面,F1分数是召回率和精确率分数的加权平均值。4.3. 实验结果本研究将研究基于CNN的inception-v3架构。该设计具有现存文献中记载的最佳性能(Bansal,Kumar,Sachdeva,&Mittal,2021),并且是最有效的架构(Porusniuc等人,2019;Boughida等人,2022;穆罕默德&Abdulazeez,2021;Hung,Lin,Lai,2019)。在模型的开发中使用了已经训练过的权重。作为迁移学习过程的一部分,我们调整了inception-v3的最后一个分类器层,以满足我们对积极、消极和中性分类的需求。我们称之为“迁移学习”。这就需要在分类器层内部部署一个可扩展层和一个丢弃层。此层中的两个节点之一,具有softmax activa,该层中的另一个节点具有softmax激活函数,表示“中性”的分类。softmax激活函数生成概率结果,然后呈现给用户。随着时间的推移,一些���1 −���������������������������������(四)权重用于确定模型从
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功