混合查询扩展排序和自适应惯性权重优化的情感分类方法

123 浏览量更新于2024-01-09 收藏 847KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 8（2022）189www.elsevier.com/locate/icte基于混合查询扩展排序和自适应惯性权重的二进制粒子群优化算法Pulung Hendro Prastyo，Risanuri Hidayat，Igi Ardiyanto电子工程和信息技术系，Universitas Gadjah Mada，Yogyak55281，印度尼西亚接收日期：2021年2月18日;接收日期：2021年4月15日;接受日期：2021年4月27日2021年5月10日网上发售摘要基于机器学习的情感分类是理解公众情感的最佳方法。然而，该方法存在一些问题，如噪声特征和高维特征空间，影响情感分类性能。为了解决这些问题，本文提出了一种新的特征选择使用混合查询扩展排名和二进制粒子群优化与自适应惯性权重。该方法使用五个不同主题的推文数据集在印度尼西亚语和英语进行了验证，并与最先进的过滤器和包装器为基础的特征选择方法进行了比较。实验结果表明，该方法显著提高了情感分类性能，减少了计算时间.c2021韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：特征选择;情感分类;机器学习;查询扩展排序;二进制粒子群优化1. 介绍社交媒体在印尼的发展非常迅速。在众多快速发展的社交媒体中，Twitter是其中之一。迄今为止，印度尼西亚是Twitter用户最多的国家之一。Twitter允许他们从多个角度表达自己的观点[1]。因此，许多研究人员使用Twitter作为数据集来研究公众舆论，包括在印度尼西亚[2]。这些数据可以解释公众对产品、服务、政府政策、政治、经济和其他主题的看法。公司，政府或其他领域可以使用推文进行营销分析，政策分析[3，4]，产品评论[5，6]和社区服务，以提高公司然而，理解Twitter上的公众情绪是困难的，因为其中大多数都是用不标准的文字写的如果这些情绪能够得到很好的处理，就可以获得重要的信息并用于制定政策。因此，迫切需要一种情感分类方法来快速分类情感。∗ 通讯作者。电子邮件地址： igi@ugm.ac.id（I. Ardiyanto）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2021.04.009到目前为止，基于机器学习的情绪分类是理解公众情绪的最佳方法之一。它具有良好的准确性，并提供出色的性能[7，8]。然而，情感分类方法在高维特征空间和噪声特征方面存在因此，需要特征选择来解决问题。特征选择可以选择重要的特征，去除不必要的特征，最小化特征维数，并减少计算时间[8一般来说，有两种特征选择方法，即过滤器和包装器。过滤器方法被认为比包装器方法更快、更容易使用。查询扩展排名（QER）[8]是最好的过滤方法之一与其他方法相比，它提供了优异的性能，包括信息增益（IG），卡方，文档频率差（DFD）和最佳正交质心（OCFS）。除了它的优点，包装方法具有更好的性能[12，13]。然而，这需要高计算成本，因为它使用机器学习来评估特征子集[12，14]。基于元分析的包装器方法已经变得非常流行，因为它们在解决特征选择问题方面表现出优越的性能[14这些方法包括BPSO的新变体，二进制旗鱼优化（BSO），2405-9595/2021韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。P.H. 普拉斯乔河希达亚特和我。阿尔迪扬托ICT Express 8（2022）189190二进制Salp群算法（BSSA）。BPSO是最常用的，因为它的简单性和性能[5，17]。然而，BPSO有一个主要的局限性，即惯性权重设置导致性能不佳[16，18]。具有自适应惯性权重的二进制粒子群优化算法（AIW-BPSO）是BPSO算法的一个新变种，它可以克服惯性权重问题。因此，它可以提高群体的多样性，防止算法过早收敛[16，19，20]。本文结合研究背景，提出了一种新的特征选择方法，该方法采用混合查询扩展排序（QER）和具有自适应惯性权重的二进制粒子群优化（AIW-BPSO），通过利用过滤器方法来改善情感分类，从而克服了包装器方法的缺点。这项研究将作出重大贡献，包括：1. 以印尼语和英语处理不同主题的情绪分类，包括公众意见（综合法律、COVID-19、天气）、航空公司评论和产品评论。2. 创建印度尼西亚俚语词典。本研究使用了3048个词汇来解决俚语词汇问题。3. 通过使用混合QER和AIW-BPSO提供一种新的特征选择变体来改进情感分类。4. 提供了所提出的方法与九个国家的最先进的过滤器和包装器为基础的特征选择方法之间的比较。本研究首先介绍了在特征选择领域的相关工作。然后，将进入第3节，解释本研究的拟议方法第4节描述了主要结果和讨论。最后，第五部分给出了结论和进一步研究的建议。2. 相关作品几个功能选择已经开发的senti- ment分类，无论是基于过滤器和包装器的方法。在基于滤波器的方法中，S.W.Sihwi et al.[21]应用IG作为特征选择方法，以提高朴素贝叶斯分类器的运行时效率。另一篇文章[22]报道说，IG可以使用 a支持向量机（SVM）。Nurhayati等人[23]进行了一项研究，以评估卡方对处理情感文档的朴素贝叶斯算法的影响。作者指出，朴素贝叶斯算法的效率受到卡方的影响，从而提高了情感分析的准确率、精确率和召回率。此外，其他研究[24-S. Lonapalawong和Z. Jun [28]采用Relief-F作为情感分类的特征选择。实验结果表明，Relief-F算法能够提高分类器性能，优于IG和卡方算法。T. Parlar 等人。 [8] 提出了一种称为查询扩展排名（QER）的新特征选择，以评估查询扩展所需的单词。他们比较了其他特征选择方法，如IG，卡方，DFD和OCFS。他们报告说，QER在分类准确性和降低计算成本方面提高了情感分析性能。F.S. Nurfikri等人。[29]使用互信息（MI）作为特征选择。他们声称，MI可以提高贝叶斯网络的性能，减少计算时间。在基于包装器的方法方面，有一些方法可以用于情感分类，包括递归特征消除（RFE）[30]和元启发式算法，例如遗传算法（GA）[11，31]，粒子群优化（PSO）[5，17]，生物地理优化算法（BOA）[7]和迭代贪婪元启发式算法（IGM）[12]。此外，对于其他领域（非情感分类），已经为具有良好性能的特征选择开发了各种元启发式算法，例如BSSA [14]、BSO [15]、BPSO [16]、二进制人工蜂群（BABC）[32]、二进制灰狼优化（BGWO）和二进制鲸鱼优化算法（BWOA）[33]、蚁群优化（ACO）[34]和蜻蜓算法（DA）[35]的新变体。在元启发式算法中，BPSO算法是最常用由于其简单性和性能而常用[5，17]。然而，BPSO有一个主要的局限性，即惯性权重设置导致性能不佳[16，18]。因此，其他研究的研究人员提出了具有自适应惯性权重的二进制粒子群优化（AIW-BPSO）来解决这个问题[16，19，20]。根据文献综述，使用过滤器方法被认为比缠绕更容易和更快，因为它不需要涉及机器学习算法。另一方面，包装器方法更准确，因为它们考虑了特征本身之间的关系。然而，它们在计算上比滤波器更昂贵[12，14]。因此，研究人员渴望使用混合QER和AIW-BPSO进行新的特征选择其目的是克服包装方法3. 提出方法本节解释了实验设置阶段使用的数据集描述、预处理、特征选择和机器学习算法。3.1. 数据集描述这项研究使用了五个不同主题的推文数据集，即综合法律，印度尼西亚语的冠状病毒疾病（COVID-19），以及航空公司评论，产品评论和P.H. 普拉斯乔河希达亚特和我。阿尔迪扬托ICT Express 8（2022）189191−−- -i、jX+=i、j{（）i、ji、 j+ C2。r2（Gbestti、jti、 j）（4）pf− qf我我我最好的，其他智慧我表1使用的所有数据集的描述号数据集语言实例特征1综合法印度尼西亚4001,7232COVID-19印度尼西亚4001,9023航空公司英语4001,6474天气英语4401,6185产品英语5001,839天气英语推文数据集包括两种情绪，即积极和消极。这种差异帮助研究人员建立了所提出的方法的鲁棒性。所有数据集的描述见表1。表2创建的印度尼西亚俚语词典的例子号俚语更正字印度尼西亚英语1阿克巴特阿基巴特效果（名词）2贝哈克贝尔哈克有权利（动词）. . .. . .. . .. . .3048扎利姆扎利姆专制（形容词）在该等式中，Scoref表示QER值，pf是包含特征f的肯定文档的比率，并且qf是包含特征f的否定文档的比率。pf和qf的值可以使用方程计算（2）和（3）。d f f+0。53.2. 预处理这些推文不是用标准语言写的，结构也很差。使用几个预处理步骤，pf=qf=+n++1。0d f f+0。5n−+0。5（二）（三）提高数据质量，从以下方面着手这里，d ff是表示删除URL、标点符号、数字、停用词和其他字符。+包含要素F. d ff是负文档的总数f，n+是正折格，将所有字符转换为小写字母的过程。Python中的lower函数用于将tweets转换为小写字母。俚语词，就是把不规范的词变成规范的词的过程。在这项研究中，3048个词被用来处理印尼俚语词的问题。单词的例子可以在表2中看到。词干提取，其目标是将某些类型的单词最小化为根形式的过程。Sastrawi库[36]用于印度尼西亚语，自然语言工具包（NLTK）库用于英语。令牌化，将推文分离成单词的过程。这是通过使用Python中的NLTK库完成的包含要素其中，n-是否定文档的数量3.5.自适应惯性权重的二进制粒子群算法AIW-BPSO是PSO的二进制版本，它是从研究[16]中采用的，以解决BPSO的局限性，例如设置惯性权重。AIW-BPSO在每次迭代中为每个群体提供四个随机选择的惯性权重策略。这样，就可以在勘探和开发之间取得平衡，从而得到最优解。此外，它可以提高多样性和避免局部最优。AIW-BPSO在速度和位置更新中还包含个人最佳（Pbest）和全局最佳（Gbest）解。最新的公式（包括速度更新）可以在方程中看到（四）、3.3. 特征提取vt+1=w.vt+C1. r1（P最佳tg，j-xt）被用作特征提取，因为同时，为了更新位置，计算在Eq. （六）、1好. TF计算一个词在tweet中出现的频率。同时，IDF测量一个词的重要性。sige（vt）=1+e−vt，j =1，2，. . . ，D（5）它不接受出现多次的单词。公式为T F− −I DF=t ft×id ft其中t ft是项频率当量（5）是一个sigmoid公式，专门解决二进制问题而IDFT是逆文档频率。3.4. 查询扩展排名（QER）t1i、 j1，i f随机值 [0， 1]sigvt+1<0，其他智慧（六）QER是T. Parlar et al. [8].它的性能优于其他过滤方法[8，12]。QER使用Eq.（一）.在AIW-BPSO算法中，Pbest和Gbest在引导粒子向全局最优方向移动中起着至关重要的作用。考虑到本研究中应用了最小化函数，Pbest和Gbest迭代更新如下：·····i、j词频P.H. 普拉斯乔河希达亚特和我。阿尔迪扬托ICT Express 8（2022）189192我评分=Pf+qf（一）Pbestt+1={xt+1，i f F（xt+1）F（Pbestt）<（七）FP.H. 普拉斯乔河希达亚特和我。阿尔迪扬托ICT Express 8（2022）189193g，j（）下一页）−2联系我们∈我⎪最好我其他怀斯−Gbestt+1={Pbestt+1，i f F（Pbestt+1）F（Gbestt）<（八）优化所选特征以获得最佳功能.其中r1和r2是范围从0到1的随机值，w是惯性权重，C1表示认知学习系数，C2表示社会学习系数。与此同时，xtAIW-BPSO是一种基于包装器的特征选择，它直接与机器学习算法交互，使用粒子的适应度值评估每个特征子集在这属于质点位置，vt是速度，Pbestti、j提出的方法，粒子代表的功能，这是恩-i、 ji、 j 是每-sonal best和Gbestt是全球最佳。最后，F（.）是编码为1和0的二进制字符串在这种情况下，1意味着适应度函数，i是种群中粒子的阶数，j是搜索空间的维数，t是迭代次数，D是维数，g是Gbest的阶数在人口中。本研究中采用了四种惯性权重方案，并在方程式中进行了描述。（9）惯性重量方案1（IWS 1）：特征被选择，0表示特征被移除。该方法力求采用支持向量机作为机器学习算法。使用Eq. （14）最大化模型性能并最小化所用特征的数量[32]。随后，运行AIW-BPSO过程以找到最佳解决方案（包括生成初始粒子和更新速度以及位置），直到停止。w=wmax— （wMax— w最小值）中文（简体）Tmax根据算法1满足ping标准（生成）。粒子的适应度值越小惯性重量方案2（IWS 2）：方法的性能。建议的工作步骤方法可以在图中看到。1.一、w=0。5+（1r3）（10）惯性重量方案3（IWS 3）：适应度AIW−BPSO=a（1−P）+（1 −a）1#SF#T F（十四）（Tmax t）pw（Tmax）p（Wmax）— wmin）+w最小值（十一）其中P表示SVM算法的F度量值，#SF是测试的特征子集的大小，#T F表示特征的总数左边的项惯性重量方案4（IWS 4）：w=w0（ 12）其中wmax和wmin被约束在惯性权重上，r3是均匀分布在[0，1]中的随机值，p是非线性调制指数，w0是初始惯性权重，Tmax是最大迭代次数。为了选择合适的惯性权重方案，本研究采用了随机选择策略，在该策略中，为每个迭代中的每个粒子随机选择惯性权重方案[16]。随机选择策略的方程在Eq. （十三）IWS1，ifranddomvalue [1， 4]方程描述了模型的总体准确性，右侧的项属于所使用的特征的百分比。常数a[0， 1]表示研究目标、性能和子集大小的权重。在这项研究中，a的权重为0.90。IWS 2，i f随机值 [1， 4]w=IWS 3，i f随机值 [1， 4]⎩ IWS 4，i f随机值 [1， 4]（十三）其中IWS是惯性权重方案，随机值[1，4]是从1到4的随机值。在该方法中，所有惯性权重方案在每次迭代中被每个群体选择的概率相同。该算法不仅提高了种群的多样性，而且避免了早熟收敛。AIW-BPSO的伪代码如算法1所示。3.6. 混合QER和AIW-BPSO作为特征选择在这项研究中，QER被用来减少和选择最好的功能在初始选择。然后将数据集的特征分为四个最高选择百分比的特征，即20%，40%，60%和80%。之后，选定的特征被用作AIW-BPSO的输入。所选特征为D（维数）。最后，（P.H. 普拉斯乔河希达亚特和我。阿尔迪扬托ICT Express 8（2022）189194AIW-BPSO3.7. SVM作为机器学习分类器SVM是一种机器学习算法，在情感分类方面具有竞争力，通常用于分类任务[4，34，35，38]。然而，支持向量机有两个挑战，即选择最佳的参数和核函数。在这项研究中，GridSearchCV被用来优化SVM参数。同时，RBF核被用作核函数，因为它适用于分类问题[3，35，39]。P.H. 普拉斯乔河希达亚特和我。阿尔迪扬托ICT Express 8（2022）189195Fig. 1. 建议的方法。3.8. 实验装置在适应度评价和分类过程中均采用支持向量机作为分类器。为了验证结果的最优性并验证算法的能力，本文采用了保持策略，其中每个数据集被随机分为80%用于训练和20%用于测试[14 将该分离重复30次，以获得具有统计学意义的结果[33]。因此，根据30次独立运行的总体性能和最终结果收集统计测量值。分类率采用F-测度。此外，Wilcoxon符号秩检验被用来比较所提出的方法与基线（没有特征选择）和其他算法选择。此外，本研究将所提出的方法与最先进的过滤器和包装器方法进行了比较，包括QER，MI，Relief-F、RFE、二进制遗传算法（BGA）、BGWO、BWOA、BSSA和AIW-BPSO。参数设置见表3。此外，本研究使用相同的编程语言（Python3.7.6）和计算平台（MacBook Pro 2.5 GHz Intel Core i5和16.0 GB RAM）进行公平比较。4. 结果和讨论首先，将所提出的方法（QER+ AIW-BPSO）的结果与基线算法、滤波器和经典包装方法的最新技术水平（包括QER、MI、Relief-F和RFE）进行比较，如表4所示。每个算法的最佳参数值以粗体显示。该表表明，所提出的方法优于所有的实验算法上的五个数据集。所提出的方法实现了比以前的研究更好的性能，包括QER [8]，与卡方，DFD和OCFS相比，QER [8]获得了优异的性能。此外，所提出的方法也使用更少的功能（#SF）比其他算法。这使得所提出的方法计算效率高。此外，所提出的方法提供了具有非常低的标准差（std）值的平均F测量值。这表明所提出的方法具有很高的稳定性。图二、每个算法在所有数据集上的平均计算时间。同时，在表5所示的五个数据集上，所提出的方法在F度量方面比AIW-BPSO、BGA、BGWO、BWOA和BSSA实现了更好的性能。F-measure的值越高，意味着成功预测的推文数据越多。在表5中，所提出的方法在四个数据集上获得了比其他方法更好的平均最佳适应值，除了综合法则。此外，该方法实现了低标准值的F-测量和最佳的适应度。这再次表明，所提出的方法具有特殊的鲁棒性，可以产生高度一致的结果。此外，在所提出的方法中选择的功能（#SF）是少于四个元启发式算法在大多数数据集，除了BGWO的#SF，并提供高的F-测量值。这意味着，该方法是很好的选择相关的功能。图3展示了所提出的方法和其他算法在五个数据集上的收敛曲线。这里的适应度是从30次运行中获得的平均适应度值。在该图中，所提出的方法用蓝色圆圈标记。可以看出，所提出的方法在除了综合法则之外的四个数据集上实现了最低的适应度值，其中BWOA优于所提出的方法。根据该图，可以清楚地看到，所提出的方法总是从最低的适应度开始此外，该方法总是获得更好的适应值比AIW-BPSO。这是因为QER效应提高了所提出的方法的能力另一方面，在BWOA和BSSA在四个数据集（包括COVID-19、航空公司、天气和产品）上的行为中可以观察到过早收敛此外，AIW-BPSO、BGA和BGWO在航空公司、天气和产品数据集上略微陷入局部最优。根据上述观察结果，可以得出结论，所提出的方法在评估最具信息量的特征子集方面优于其他算法。图2表明，所提出的方法提供了较低的计算成本时，使用选定的功能比其他方法，而在同一时间增加的情感分类性能。结果表明，该方法能够克服包装器方法P.H. 普拉斯乔河希达亚特和我。阿尔迪扬托ICT Express 8（2022）189196不适用不适用不适用不适用不适用1.2图3.第三章。所提出的方法相比，所有数据集上的元启发式算法的收敛曲线。表3参数设置的说明参数提议的BGABGWOBWOABSSAAIW-方法BPSO爸大小303030303030（N）Tmax100100100100100100w最大0.9N/AN/AN/AN/A0.9w最小值0.4N/AN/AN/AN/A0.4第0周0.9N/AN/AN/AN/A0.9C12N/AN/AN/AN/A2C22N/AN/AN/AN/A2Vmax−6N/AN/AN/AN/A−6v最小值p−6N/AN/AN/AN/A−61.2CRN/A0.6N/AN/AN/AN/A先生N/A0.001N/AN/AN/AN/ABN/AN/AN/A1N/AN/A表4与其他国家的最先进的过滤器和经典的包装算法的比较数据集算法基线滤波器经典包装该方法QERRelief-FMIRFE#SF17231 034人（60%）1 378人（80%）1 378人（80%）1 378人（80%）846.600综合法F-测度Wilcoxon0.933± 0.028▲0.952± 0.027▲0.930± 0.026▲0.933± 0.028▲0.927± 0.027▲0.992± 0.008–#SF1902761人（40%）1 522人（80%）1 141人（60%）1 522人（80%）670.167COVID-19F-测度Wilcoxon0.736± 0.035▲0.856± 0.029▲0.728± 0.040▲0.718± 0.042▲0.729± 0.044▲0.909± 0.063–#SF1647659人（40%）1 318人（80%）988（60%）988（60%）599.367航空公司F-测度Wilcoxon0.773± 0.046▲0.924± 0.032▲0.766± 0.051▲0.770± 0.036▲0.788± 0.037▲0.972± 0.015–#SF1618647人（40%）647人（40%）1294（80%）971（60%）571.767天气F-测度Wilcoxon0.758± 0.046▲0.886± 0.029▲0.735± 0.034▲0.753± 0.050▲0.765± 0.044▲0.962± 0.019–#SF1839736人（40%）1471人（80%）1 103人（60%）1471人（80%）642.100P.H. 普拉斯乔河希达亚特和我。阿尔迪扬托ICT Express 8（2022）189197表5所提出的方法与其他国家的最先进的元分析为基础的包装算法的比较0.052± 0.0110.066 ± 0.01-0.162± 0.045 0.166± 0.04–0.112± 0.024 0.107±0.024 0.132 ± 0.020.124± 0.028 0.111±0.025 0.123 ± 0.020.116± 0.020 0.121± 0.01计算开销和滤波方法最后，为了验证所提出的方法与其他算法之间是否存在显著差异，本研究采用了Wilcoxon符号秩检验，如表4和表5所示。本研究将统计学显著性水平（α）设定为0.05。如果p值大于0.05，则表明无统计学显著差异。这里的符号“-”表示所提出的方法与其他算法之间没有统计学差异，“▲”表示所提出的方法比其他算法获得更好的结果，“▼”表示其他算法优于所提出的方法。在表4中，Wilcoxon结果表明，所提出的方法与最先进的过滤器和经典包装方法之间存在统计差异。类似地，在表5中，Wilcoxon结果表明，除了Omnibus Law数据集上的BGA和BGWO以及COVID-19数据集上的AIW-BPSO和BGWO之外，所提出的方法优于最先进的基于元分析的包装方法。这意味着所提出的方法提供了有前途的性能。5. 结论本文提出了一种新的基于查询扩展排序和自适应惯性权重的二进制粒子群优化的特征选择算法QER+AIW-BPSO。将该方法与基于滤波器和包装器的九种特征进行了比较选择方法所提出的方法还使用印度尼西亚语和英语的不同主题的五个推文数据集进行了检验。实验结果表明，该方法能显著提高情感分类性能。此外，该方法优于其他特征选择方法的F-测量。此外，所提出的方法可以减少计算时间。因此，可以推断，该方法是一个强大的情感分类的特征选择。对于进一步的研究，研究人员可以结合其他过滤器和包装器的方法，以实现不同的结果，通过开发一个基于过滤器的特征选择，可以解决多类分类，因为QER只能克服二进制分类。竞合利益作者声明，他们没有已知的可能影响本文所报告工作确认这项工作得到了印度尼西亚教育捐赠基金LembagaPengelola Dana Pendidikan（LPDP）的支持。引用[1] A.M. Rahat，A. Kahir，A.K.M. Masum，Comparison of Naive Bayesand SVM algorithm based on sentiment analysis using review dataset，数据集算法AIW-BPSOBGABGWOBWOABSSA提出方法#SF1040.6671025.533748.4331662.367883.000846.600综合法最佳健身±25.118±17.316±70.883电话：+86-21 - 8888888传真：+86-21 - 888888880.038±0.0220.077±0.012 0.046 ± 0.007F-measureWilcoxon0.987± 0.012▲0.987± 0.0120.990±0.012 0.961 ± 0.026- ▲0.969± 0.0140.992±0.008▲#SF1070.4001073.000657.4001673.000971.433670.672019冠状病毒病最佳健身±25.103±23.048±43.222203.084 ±25.500 ±23.7502 0.198± 0.028 0.253± 0.0490.129±0.061F-measureWilcoxon0.887± 0.0290.869± 0.050▲0.889±0.046 0.799 ± 0.0290.781± 0.059±0.063▲#SF941.567946.067593.6331438.200839.233599.367航空公司最佳健身±21.60819.038±48.692155.549 ±16.033 ±17.6830.154± 0.030 0.200± 0.0270.064±0.014F-measureWilcoxon0.924± 0.029▲0.929± 0.028▲0.927±0.031 0.843 ± 0.042▲ ▲0.843± 0.0320.972±0.015▲#SF909.900910.600554.6671369.900825.267571.767天气最佳健身±22.248±18.964±45.752204.379 ±17.907 ±15.6521 0.166± 0.030 0.204± 0.0280.075±0.017F-measureWilcoxon0.910± 0.031▲0.925± 0.027▲0.937±0.024 0.829 ± 0.035▲ ▲0.826± 0.0330.962±0.019▲#SF1033.9331024.367642.8001644.733939.700462.100产品最佳健身±29.543±20.861±54.518198.889 ±17.098 ±16.8750.151± 0.030 0.183± 0.0250.052±0.011F-measureWilcoxon0.919± 0.024▲0.922± 0.021▲0.940±0.020 0.848 ± 0.030▲ ▲0.855± 0.0260.984±0.013▲P.H. 普拉斯乔河希达亚特和我。阿尔迪扬托ICT Express 8（2022）189198在：第8 届国际会议系统模型。Adv. Res. Trends， 2020 ，pp.266http://dx.doi.org/10.1109/smart46866.2019.9117512[2] Statista ，基于 Twitter 用户数量的领先国家，https://www.statista.com/statistics/242606/number-of-active-twitter-users-in-selected-countries/（2020年9月20日访问）。[3] P.H. 普拉斯乔岛阿尔迪扬托河 Hidayat ， Indonesian sentimentanalysis ： An experimental study of four kernel functions on SVMalgorithm with TF-IDF，in：2020 Int. Conf. Data Anal.总线单个，2020年，第页。1http://dx.doi.org/10.1109/icdabi51230.2020.9325685[4] P.H. Prastyo，A.S. Sumi，A.W. Dian，A.E. Permanasari，Tweetsresponding to the Indonesian Government's handling of COVID-19：Sentiment analysis using SVM with normalized poly kernel ， J. Inf.Syst. Eng. Bus.内特尔6（2020）112-122http://dx.doi.org/10.20473/[5] D.A. Kristiyanti，M. Wahyudi，基于遗传算法，粒子群优化和主成分分析的意见挖掘化妆品产品评论的特征选择，在：2017年第5届国际化妆品展览会。Conf. 网络IT服务管理，2017年，页1比6[6] D. A. Muthia，D. A. Putri，H. Rachmi，A. Surniandari，实施文本挖掘预测消费者对数码相机产品的兴趣，在：2018年第6届国际会议网络 IT 服务。管理， IEEE ， 2018 年，第页1http://dx.doi.org/10.1109/CITSM.2018.8674063[7] R. Shahid，S.T. Javed，K. Zafar，基于特征选择的情感分析分类，使用语义学优化算法，在：2017 Int. Conf. Innov.电子工程计算技术人员：IEEE，2017年，pp.1http://dx.doi.org/10.1109/ICIEECT.2017.7916549[8] T. Parlar，S.A. Ozel，F. Song，QER：一种新的情感分析特征选择方法，以人为中心的计算。信息科学 8 （ 2018 ）1http://dx.doi.org/10.1186/s13673-018-0135-8[9] D. Zeng，J. Peng，S.方，澳-地丘河，巴西-地王，基于优化群搜索特征选择的情感分析中的医疗数据挖掘，澳大利亚。物理工程科学41（2018）1087 http://dx.doi。org/10.1007/s13246-018-0674-3。[10] W. Tian，J. Li，H. Li，一种基于Word2Vec的文本分类特征选择方法，于：2018第37届中国控制大会，中国自动化学会控制理论技术委员会，2018年，pp. 9452-9455[11] N. Bidi，Z. Elberrichi，使用遗传算法进行文本分类的特征选择，在：2016年第8届国际会议。识别Control，University of MEDEA，Algeria，2016，pp. 806http://dx.doi.org/[12] O. Gokalp、E. Tasci，A. Ugur，一种基于迭代贪婪元启发式的新型包装器特征选择算法用于情感分类，专家系统应用146（2020）1j.eswa.2020.113176http://dx.doi.org/10.1016/[13] I. Kurniawati，H.F. Pardede，用于选择基于SVM的情感分析特征的信息增益和粒子群优化混合方法，在：2018 Int. Conf. Inf. Technol.Syst.Innov.ICITSI2018-Proc，2019，pp.1http://dx.doi.org/10.1109/ICITSI。2018.8695953。[14] H.法里斯，M.M. Mafarja，A.A.海达里岛Al-Zoubi，S. Mirjalili，H.藤田，一种有效的二进制salp群算法与交叉方案的特征选择问题，知识。BasedSyst.154（2018）43http://dx.doi.org/10.1016/j.knosys.2018.05.009[15] K.K.戈什，S。艾哈迈德角Singh，Z.W.杰姆河Sarkar，Improvedbinary sailfish optimizer based on adaptive β-Hill climbing for featureselection ， IEEE Access 8 （ 2020 ） 83548 http://dx.doi.org/10.1109/ACCESS.2020.2991543。[16] J也是，A.R. Abdullah，N.M. Saad，一种新的具有多个惯性权重策略的特征选择协同进化二进制粒子群优化，信息学6（2019）http://dx.doi.org/10.3390/informatics6020021。[17] D.A. Kristiyanti，Normah，A.H. Umam，使用Twitter情绪分析预测2019-2024年期间的印度尼西亚总统选举结果，在：2019年第5届国际会议新媒体研究，2019,pp.36http://dx.doi.org/10.1109/conmedia46929.2019.8981823[18] A. Adeli，A.基于改进粒子群算法的图像隐写分析，应用。48（2018）1609http://dx.doi.org/10.1007/s10489-017-0989-x[19] M. Li，H. Chen，X. Wang，N. Zhong，S. Lu，一种具有自适应惯性权重的改进粒子群优化算法， 2019 ，http://dx.doi.org/10.1142/S0219622019500147。[20] M.塔赫尔哈尼河一种新的基于稳定性的自适应惯性权重的粒子群优化算法，应用软件计算。 J.38 （ 2016 ）281http://dx.doi.org/10.1016/j.asoc.2015.10.004[21] S.威迪亚西赫维岛普拉塞蒂亚贾蒂河Anggrainingsih，使用信息增益和朴素贝叶斯分类器对电影评论进行Twitter情感分析，收录于：Proc. - 2018 Int. Semin。应用技术信息通讯创造。Technol. Life，ISemantic2018，IEEE，2018，pp.190http://dx.doi.org/10.1109/ISEMANTIC.2018.8549757[22] Mihuandayani，E. Utami，E.T. Luthfi，基于税收评论的文本挖掘，使用SVM和特征选择进行大数据分析，在：2018 Int. Conf. Inf.Commun 。 Technol.ICOIACT2018 ， IEEE ， 2018 ， pp.537http://dx.doi.org/10.1109/ICOIACT.2018.8350743[23] Nurhayati，A.E.布城Wardhani，Busiman，卡方特征选择对情绪分析的朴素贝叶斯分类器算法性能的影响文档，在：2019年第7届国际会议网络IT服务。管理，2019年，页1-7号。[24] Y. Zhai，W.宋，X。柳湖，加-地Liu，X.赵，一种基于卡方统计的文本

下载后可阅读完整内容，剩余1页未读，立即下载