![](https://csdnimg.cn/release/download_crawler_static/86290439/bg8.jpg)
等(2016)对 KNN 文本分类方法进行了改进,将改进的卡方统计量作为特征选
取的依据。戴维(2018)使用逻辑回归算法处理文本分类问题,特征选取是基于
传统的 TF-IDF 算法,但仅从理论角度阐述使用逻辑回归问题,并未给出实证过
程。Hui Wang 等(2020)使用 K 均值聚类的文本聚类算法,引入了 Canopy 算
法以对权重数据进行聚类,并为 KMC 确定初始聚类中心。
就新文本分类算法的创新而言。王云和李丛(2020)提出基于自适应引力搜
索的支持向量机分类方法,产生了较高的精度和较强的泛化能力。Ankita Dhar
等(2020)提出了一种模糊推理规则,可有效处理不同领域之间的词汇重叠。孙
彦雄等(2020)提出一种大数据量文本分类的随机森林算法,并在中英文两种文
本数据中进行训练及验证。
传统机器学习算法在现有的研究中应用最为广泛,比基于规则的分类方法耗
时更短,准确率更高。
(3)基于深度学习的文本分类
随着深度学习的发展,研究学者开始将深度学习算法用于文本分类。胡朝举
等(2018)以融合情感信息的 word2vec-ST 为词向量层基础,融合了 LSTM 和
CNN 两种模型来进行实证分析,获得了很好的准确率和 F 值。金志刚等(2018)
将深度学习模型和集成学习思想相结合,利用得到的新模型—Bi-LSTMM-B 模型
进行情感分析,提高情感分析的准确率。李松如和陈锻生(2018)引入注意力机
制,提出一种基于循环神经网络的情感词注意力模型,并利用该模型进行实证分
析,发现确实提高了情感分析效果。MaosenWang 等(2019)提出了基于残差连
接的算法,利用卷积神经网络(CNN)代替了 RNN 实现了序列文本的识别任务。
深度学习能自动从数据中学习提取特征,克服了传统机器学习方法特征选择
的局限性,大大提高了分类的准确率。
1.2.4 文献评述
通过梳理文献,就旅客满意度分析而言,多数文章主要结合管理学知识使用
传统统计方法分析;部分文章借助 ROST Content Mining 软件等文本挖掘软件分
析。就模型而言,LDA 模型和文本分类算法较为成熟、应用广泛,对分析旅客
满意度有较高的适配性。目前,使用 LDA 模型和文本分类算法,对旅客满意度
进行分析的研究较少,有待进一步完善。
本文将根据中文及旅客满意度文本数据特点,使用 python 语言实现旅客满
意度文本分类全过程。通过使用 LDA 模型,并且比较多种文本分类算法;研究
旅客满意度有效分析途径;并为提高旅客满意度提供参考。