没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报探索在线社交网络中的人口统计信息以改进内容分类RandaBenkhelifa,Fatima Zohra LaallamFaculté des nouvelles technologies de阿提奇莱因福奥文章历史记录:2018年5月1日收到2018年10月9日修订2018年10月21日接受在线发售2018年关键词:人口统计学属性在线社交网络机器学习文本分类文本挖掘特征提取A B S T R A C T在线社交网络(OSN)内的用户之间的日常交互是实时分析和解释其上下文以便捕获OSN用户的兴趣、偏好和关注的有效方式。这些提供了一个独特的信息源,在几个领域的几个应用程序,如趋势,未来预测,推荐系统,社区检测和营销。现有的OSN文本分类研究大多依赖于基于内容的方法,通过对用户共享的非结构化文本内容进行挖掘和分类来获取用户兴趣。此外,在OSN上可用的用户公共简档通常揭示他们的人口统计属性,诸如年龄、性别、教育、婚姻状况等,其可以在识别用户兴趣和偏好方面发挥重要作用用户人口统计属性可以为一些感兴趣的主题提供一些偏好。具有不同人口统计属性的人可能对不同的主题感兴趣,而具有相似人口统计属性的人可能具有相同的兴趣。通常,年轻人比老年人对技术更感兴趣,老年人比年轻人对政治新闻更感兴趣。在本文中,我们提出了一种基于人口统计内容的方法,该方法使用用户的人口统计属性和文本内容,使用六个分类器ANN,k-NN,朴素贝叶斯,决策树,决策规则和SVM对OSN的帖子进行分类。实验是在一个大型的Facebook数据集上进行的,以分析这些人口统计属性对OSN中共享文本内容分类性能的影响。©2018作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍如今,在线社交网络(OSN)网站已经变得越来越受欢迎。用户在OSN中扮演着重要的角色,通过向他们提供人口统计信息、对话和涵盖多个主题的内容。许多社会研究,如趋势设定,未来预测,推荐系统,社区检测,商业营销和情感分类已经吸引了很多注意力,自动利用这些信息。*通讯作者。电 子 邮 件 地 址 : randa.univ-ouargla.dz ( R.Benkhelifa ) , laallam.fatima_zohra@univ-ouargla.dzwww.example.com Laallam)。在沙特国王大学负责的CTAN同行审查的elsarticle包中提供了有充分记录的模板制作和主办:Elsevier任何OSN都由一组用户组成,其中任何用户都由配置文件表征。通常,用户简档包括个人统计信息,其被称为用户人口统计属性或用户特征,诸如性别、年龄、位置、婚姻状况、教育、职业等。多年来的一些论文集中于基于他们在OSN中共享的文本内容(文本特征)的作者特征分 类 主 题 。 一 些其 中 重 点 是 检 测 作 者 性 别 的 任 务 Mihalcea 和Garimella ( 2016 ) ; Mukherjee 和 Bala ( 2017 ) ; Yu 和 Yao( 2017 ) 。 其 他 工 作 集 中 在 确 定 作 者 的 年 龄 , Guimaraes 等 人(2017)提出了一种确定Twitter用户年龄组的方法。其他人都集中在其他具体特点池田等人。(2013年)。所有这些先前的研究试图利用用户生成的文本来识别用户的人口统计属性。因此,我们得出结论,用户的人口统计属性和用户生成的内容之间存在着很强的联系。换句话说,当用户生成文本用于用户人口统计属性检测时,为什么不使用这些人口统计属性进行用户生成文本分类呢?这可能会影响https://doi.org/10.1016/j.jksuci.2018.10.0121319-1578/©2018作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comR. Benkhelifa,F.Z.Laallam/沙特国王大学学报1035的分类?知道用户人口统计属性可以影响用户的兴趣,如图所示。1.一、以往的OSNs文本分类研究主要集中在基于内容的方法上,只考虑文本特征来提高社会文本分类的性能。一些工作是基于嵌入模型Yang etal.(2018)。其他人提出了处理社会短文本Yang et al.(2018)和Benkhelifa andLaallam(2016)的具体特征的方法。其他人则基于Benkhelifa 和 Laallam ( 2018 ) 等 情 绪 袋 。 Al-Anzi 和 AbuZeina(2018)的工作利用一阶马尔可夫模型进行分层阿拉伯语文本分类。Al-Anzi和AbuZeina(2017)的工作使用奇异值分解方法来提取文本特征,其中Bahassine等人(2020)提出了一种改进的卡方特征选择方法。尽管在线社交网络中有相当数量的用户简档,但人口统计信息可与多种多样的用户生成的内容一起获得。以往的OSN文本分类研究都只利用从用户交互中提取的文本数据,忽略了用户的人口统计特征,而将这些特征结合起来可以提高分类性能。因此,利用这些属性来构建更智能的分类器并实现更好的性能是可行的。在这项工作中,我们研究如何利用用户生成的内容(文本数据)和个人属性来按主题对文本内容进行分类。在本文中,我们建议:对用户的人口统计属性和用户生成的文本之间的联系进行定量分析一种基于人口统计学内容的方法,在分类中考虑文本特征和人口统计学特征,通过感兴趣的主题对文本内容进行分类本文的其余部分如下。在第二节中,我们讨论了以前的相关工作。在第3节中,我们介绍了我们的方法,包括我们提出的方法。在第4节中,我们介绍了我们实验的细节。在第5节中,我们详细介绍了应用于从Facebook提取的数据集的结果,最后在第6节中,我们提出了结论和观点。2. 相关作品在本节中,我们将重点介绍与本研究相关的以前的工作,并指出他们的文本特征的基础上提高分类性能的方法。大量的研究已经进行了分类OSN中的用户生成的内容,特别是文本内容。作者Agichteinet al. (2008)提出了一个通用分类框架,以便从不同的信息来源收集证据,这些信息可以针对给定的社交媒体自动调整。基于文本的隐马尔可夫模型是由Kang等人提出的. (2018年)。这些模型使用词序而不需要句子词典。Chen和Ku(2016)提出的工作开发了一种神经网络模型,该模型结合了用户口味,主题口味和用户对帖子的评论,以便对其进行分类该论文的作者Yang et al. (2018),描述了一个旨在检测与选举相关的推文的Twitter警告分类任务。这项工作是基于嵌入模型,以提高分类性能。Alsmadi和Hoon(2018)提出了一种方法,该方法处理社会短文本的局限性,此外,Benkhelifa和Laallam(2016)引入了适应社会文本特殊特征的新预处理方法Benkhelifa和Laallam(2018)开发了一个实时系统,用于自动提取和分类YouTube烹饪食谱评论在这个系统中,一些情感袋,基于表情和注入已被构造,以提高类,图1.一、举例说明用户属性-兴趣关系,兴趣话题和相似兴趣。● 兴趣主题:用户人口统计属性可以提供对某些兴趣主题的偏好,具有不同属性的人可能对相同的主题不感兴趣● 相似的兴趣:具有相似属性的人可能会分享具有相同兴趣的帖子通常,受过高等教育的人对科学文章比其他人更感兴趣●●1036R. Benkhelifa,F.Z.Laallam/沙特国王大学学报2fg¼ðÞ化性能作者Al-Anzi和AbuZeina(2018)提出了一种文本分类方法,这是一种利用一阶马尔可夫模型进行分层阿拉伯语文本分类的空间有效方法。Al-Anzi和AbuZeina(2017)的工作使用奇异值分解方法来提取文本特征。他们比较了一些著名的分类方法。Bahassine等人(2020)的研究提出了一种改进的卡方特征选择方法,以最小化数据并产生更高的分类精度。这些研究都是基于内容的方法,特别是文本特征来分析和分类社会文本。他们完全忽略了用户的人口统计学方面,这对内容分类起着至关重要的作用。此外,我们注意到用户生成的内容和他/她的人口统计属性之间的强有力的联系,通过几个以前的研究,已经利用这个文本共享OSN检测一个或多个人口统计属性的用户(作者许多研究都集中在对作者性别的捕捉上作者Mukherjee和Bala(2017)考虑了一组文本特征,如功能词和词性n-gram,以提供性别分类系统。作者Yu和Yao(2017)提出了一种有效的性别分类模型,用于预测从中国微博服务中抓取的指定用户的性别值Mihalcea和Garimella(2016)已经处理了性别分类的问题,他们提出了一种典型的表层文本分类方法,通过识别性别之间在使用相同单词的方式上的差异。其他工作集中在年龄检测上,作者Guimaraes等人(2017)提出了一种考虑写作风格以及用户历史和个人资料的方法,其他研究集中在其他几个特征上,其中Ikeda等人提出了一种混合 的 基 于 文 本 和 基 于 社 区 的 方 法 来 估 计 Twitter 用 户 的 demo-graphic。(2013年)。在这项工作中,我们提出了一种基于内容人口统计的方法,它不仅使用文本特征,但由用户共享的文本内容和他/她的人口统计属性,以提高分类的文本内容的兴趣主题。为了评估所提出的方法,六个著名的分类器,从不同的设计方法和最常用的文本分类(ANN,K-NN,NB,DT,DR和SVM)将被用来比较我们提出的方法的性能。3. 该方法本节详细介绍这项工作所采用的方法。这项工作的目的是显示的影响,考虑到用户3.1. 一些符号在这里,我们给出一些符号。假设我们的数据集D有n篇文章。 对于每个帖子P i,我们注意到它的内容di和它的标签yi,由具有人口统计属 性 的 用 户 u 共 享 。 我 们 为 -malize的数 据 集D¼fpi;di;A;yig;i¼1.. . n.和c c1;c2;. c n表示要通过分类方法预测的类。3.2. 基于人口统计内容的方法在文本分类中,一般的机器学习分类器都是基于内容的方法,其中,输入属性向量X x1;x2;... ;x m一个分类器的关键词是构建文档。ment(在这种情况下为post),并且类对应于文本类别。在基于内容的方法中,分类器仅使用文本内容来将类c分配给帖子pi。在这项工作中,我们的目标是学习这些分类器不仅使用帖子的文本内容(单词),还有帖子作者的人口统计属性。图 2我们提供了一个基于人口统计内容的分类过程,展示了如何将人口统计属性整合到分类过程中。如图2所示,demographic属性被集成在分类器的输入现在,我们介绍如何在每个分类器中输入人口统计属性。我们利用六个著名的分类器,从最常用的分类器在文本分类和不同的设计方法。在这项工作中考虑的分类器是(人工神经网络,K近邻,朴素贝叶斯,决策树,决策规则和支持向量机分类器)。图二. 基于人口统计内容的分类过程。R. Benkhelifa,F.Z.Laallam/沙特国王大学学报1037半].XXk0;PK RcðÞ人工神经网络(ANN)人工神经网络由相互紧密连接的计算元素(神经元)组成Bilski(2011)。形式神经元是一个参数化的代数函数,具有有界值,称为输入的实变量。作为一般规则,该函数的值的计算可以通过根据激活函数f(例如线性、双曲正切或S形)将加权w个输入的和d1映射到输出s通常,基于内容的ANN分类中的输出s如下:Pc=piPc=di;A6● 决策树(DT)通常,使用基于内容的方法对帖子pi进行分类,决策树分类器将帖子内容di放置在根中并将其推过整个查询结构,t n表示与节点o相关的某个测试;o r是来自节点o的分支所通向的后代节点或后代叶子。这个分支对应于结果r。的处理以这种方式继续,直到它到达表示特定类别C的叶。在建议的人口统计内容为基础的方法类-s/fM第1页wjωxj!ð1Þ对于帖子pi,决策树分类器输入帖子内容di和帖子作者人口统计属性Ai。● 决策规则(DR)这种分类是基于规则的现在,我们介绍基于人口统计内容的ANN分类输出,对于每个帖子pi,向量V是对应的内容和人口统计属性向量。的演绎。对于每个类别c,算法创建对应于该类别的简档的规则集规则通常构造如下:如果条件,那么结论。s/fK第1页w jωvj!ð2Þ在基于内容的方法中,条件部分是基于与某一类别相关的帖子的代表性文本特征,而结论部分则表示在文本分类中,使用ANN可以处理大量特征集,并在存在噪声的情况下进行正确分类Bilski(2011)。此外,ANN能够执行并行计算,其中层中的所有神经元独立地处理数据Myllymaki和Tirri(1993)。最近,人工神经网络被用于文档分类,并取得了令人鼓舞的结果。Yu等人介绍了基于误差反向传播学习方法的神经网络(BPNN -反向传播神经网络)及其改进版本(MBPNN -改进的反向传播神经网络)的文本分类模型。(2008年)。K近邻(K-NN)k-NN分类器在训练文档中寻找K-近邻,并使用K-近邻的类来加权类候选。每个最近邻文档与测试文档的相似性得分被用作邻文档的类的权重。形式上,基于内容的k-NN类别.在这里,我们介绍了一种基于人口统计内容的基于规则的方法,其中条件部分基于每个类别c的代表性文本特征和代表性人口统计特征。支持向量机(SVM)大多数文本分类问题都是线性可分的.支持向量机(SVM)Dumais et al.(1998)以其线性形式是一种由超平面正式定义的判别分类器,该超平面将一组正例与一组负例以最大裕度分开 (见图2)。 3)。对于每个postpi,相应的内容向量仅基于文本文章的内容线性SVM的输出公式fpiw~:~dib7分类可以写成:其中w~是超平面的法向量,而~di是评分:pi;cpk2KNNpiSimdi;dkdpk;c3输入向量post类由f的符号表示:h<$f p。1;如果fpi>0我在上面,KNN_p_i_n指示该节点的k个最近邻的集合波斯特皮岛dpk;c是岗位pk的分类,-1;elsec类的含量dk,即:dmp;c. 1;pk2c具有最高结果加权和的类应被分配给帖子pi。现在,我们将人口统计属性包括到决策规则KNN分类中,我们得到:评分:pi;c对于多类SVM模型,通过组合一组二元分类器f1,f2,. . 对于M个类,每个分类器被训练以区分类和剩下的在应用符号函数Weston和Watkins(1998)之前,根据最大输出进行组合。现在,我们将人口统计属性包含到输出中pk2XKNNpiSiml/2di;Au;dk;Aw]dpk;c4朴素贝叶斯(NB)朴素贝叶斯分类器的概率模型基于贝叶斯定理,形容词朴素来自数据集中的特征相互独立的假设。在实践中,独立性假设经常被违反,但朴素贝叶斯分类器仍然倾向于在这个不切实际的假设下表现得非常好。Pc=piPc=di5其中Pc=pi可以用任何生成或判别模型计算。图3.第三章。 线性支持向量机Dumais等人, 1998年●.X●●●1038R. Benkhelifa,F.Z.Laallam/沙特国王大学学报的线性SVM分类,对于每个帖子pi. 向量是对应的内容和人口统计属性向量。fpiw~:~vib84. 实验4.1. 数据集收集和构建Facebook的帖子非常适合这些实验,因为它们的丰富性和短的长度。此外,Facebook是一个流行的社交网络,用户配置文件的多样性,这意味着用户的社交信息(人口统计属性)和从他们的互动生成的文本内容的可用性。因此,我们从特定的墙收集了足够大的数据集,这些墙是公开的,并使用Facebook API收集了我们的数据。该数据由文本内容和用户人口统计属性组成。为了确保我们提出的方法的一致性和可靠性,我们在72,900个集合上测试了我们的分类和方法,每个用户在2016年7月至9月期间收集了243条消息,这些消息来自300个非常活跃和真实的人的Facebook个人资料,这些个人资料包含有关用户特征的正确信息。这些文本由三名人工注释员手动注释为八(8)个不同类别(艺术、时尚、体育、技术、商业、新闻、科学和教育以及其他)。出于隐私考虑,用户名将被删除,所有用户的Facebook ID将被匿名的唯一ID取代。我们总结了我们数据的基本统计数据(即,每个类别中的平均帖子数和平均用户数)。统计数据见表1。了解用户的性别、年龄和婚姻状况等信息有助于检测用户的兴趣和偏好。我们不是手动识别这些有用的人口统计属性,而是从Facebook上用户公共档案中的属性开始。我们确定了五个主要的人口统计特征:性别、年龄、婚姻状况、工作和教育。为了定量测量这些属性,我们在表2中总结了它们的详细信息。4.2. 其他选定的人口特征在本小节中,我们描述了每个分类中每个数据集版本(V1- V7)中考虑的替代特征(用户人口统计属性)。(see表3):4.3. 用户人口统计学属性与用户生成文本之间联系的定量分析在OSN中,用户生成的文本包含丰富的评论、讨论和观点,是揭示用户偏好和兴趣的重要资源。因此,我们的假设是,用户的人口统计属性可以在预测他们的兴趣,并提高文本分类的性能是有用的。表1我们的数据统计。类别平均员额平均用户新闻8748127业务8311121技术13413133艺术9112113体育6561107时尚风尚678092科学教育816556其他11810263表2人口统计属性列表。数值和分布性别女性(42.66%)、男性(57.34%)年龄13有工作的工人(60.3%),失业(20.3%),不关心(19.4%)学历大学(是,44.1%),(否,55.9%)婚姻状况已婚(46.1%),未婚(34.5%),不关心(19.4%)是的。一直缺乏定量分析显示用户的人口统计属性和用户生成的文本(社交文本)之间的联系。为了理解用户人口统计属性和用户生成的文本之间的联系,我们建议计算每个类别中具有相似人口统计属性 图 4详细显示了每个人口统计属性的结果,我们可以从中得出以下结论:观察图4(a),关于(8)类别的性别属性分布,我们注意到,男性在每个类别中出现得更多,在新闻、技术、体育和其他类别中,女性在艺术、时尚等类别中出现的更多,在其他类别中几乎是平等的。我们推断,性别属性对大多数类别(新闻,科技,体育,艺术,时尚和其他)有很强的影响,对其余类别的影响很弱。图 4(b)表示年龄属性在(8)选择类别。我们注意到:(13-17)中的人需要(艺术和其他)类别。他们主要出现在(科技体育和时尚),而在(新闻,商业和科学和教育)的每一个没有。(18-27)中的人以不同的比例出现在所有类别中。它们涵盖(商业、技术、体育、科学教育和时尚)类别;此外,它们主要出现在(艺术和其他)类别中,在新闻类别中占很小的比例。(28-37)的人在所有类别中的比例都是中等的,特别是在(技术,新闻)类别中。(38-60)封面人物(新闻)类别。他们也出现在(科学、教育、体育和其他)的每一个类别中,在(商业)类别中所占比例很小。年龄属性影响所有类别。图4(c)表示工作属性在(8)选择类别。我们注意到,工人完全覆盖了类别新闻,几乎覆盖了所有类别(商业,其他和科学教育),也出现在其余类别中,而失业人员出现在除新闻外的所有类别中。不关心的人主要存在于艺术和技术领域。他们也出现在体育,时尚和其他。工作属性影响最大的是新闻、商业、艺术、科学、教育。图4(d)表示教育属性在(8)个所选类别上的分布。我们注意到,受过高等教育的人涵盖了大多数类别(科学教育和新闻),而其他人则更多地出现在类别(时尚,商业,技术和艺术)中,并且在其他类别中几乎相等。我们推断,性别属性有很强的影响,对大多数类别(新闻,技术,商业,艺术,科学教育,时尚和其他)的影响很小(体育和其他)。图4(e)表示婚姻状况属性在(8)个所选类别上的分布。我们注意到已婚人士涵盖了大部分类别(新闻和科学教育)。 未婚的人涵盖了大多数类别(技术),而不关心的人大多出现在(艺术)中,在所有(新闻,商业和科学教育)。此属性对类别(新闻、商业、艺术、科学)R. Benkhelifa,F.Z.Laallam/沙特国王大学学报1039表3在每个数据集版本(V1-V7)中选择的用户人口统计属性。属性V1V2V3V4V5V6V7内容*******性别–*––––*年龄––*–––*有工作–––*––*教育––––*–*婚姻状况–––––**见图4。 8类人口统计学属性分布。&教育),对类别(技术,体育,时尚和其他)的影响较弱。在一般情况下,我们推断,用户的人口统计属性和用户生成的文本之间的联系是强或弱相对于所讨论的类别。换句话说,每个属性对某些类别有很强的影响,而对其他类别的影响很弱,如上所示。4.4. 数据预处理出现少于三(3)次的术语将被删除;删除标点符号(.,!?)和符号([<>());所采用的词干分析器是文献中使用的lovenStemmer。4.5. 术语加权方案在这项工作中,四种不同的监督和无监督的术语加权方案被选择,由于他们的报告优越的分类结果或其在文本分类中的典型代表是的。我们用a,b,c和d来表示不同的b是不包含该术语的肯定类别中的文档数c是否定类别中包含以下内容的文件的数量这术语d是否定类别中不包含该术语的文档数因此,N是所有文档的数量利用这些符号,几个广泛使用的收集频率因子和信息论函数。tf是原始术语频率(术语在文档中出现的次数表4.给出了实验中使用的所有加权方案及其数学形式。表4实验中使用的所有加权方案及其数学形式。名称数学形式二进制二进制(1表示存在,0表示不存在)文件如下:词频反向词频TFIDFtf:logNaca是包含该术语卡方ChiStf:Naωd-bω c<$2a比值比OddsRtf:logaωdbωc●●●●●●●1040R. Benkhelifa,F.Z.Laallam/沙特国王大学学报¼¼¼¼4.6. 绩效评价所提出的集成学习方法的预测性能在准确度(A),精确度(P)和召回率(R)方面进行评估,定义为文本分类的常用方式Lewis(1995)。作为结合P和R的有效性度量,我们使用了著名的F度量(F)。A、P、R和F定义为:正确预测的数量预测P正确归入一类的员额数目第一类员额共计R正确归入一类的员额数目i所有员额的数目本应属于第一类F2×P×RPR5. 结果和讨论ð9Þð10Þð11Þð12Þ见图6。使用KNN分类器在我们的数据集版本(V1-V7)上获得的F测量结果。在本节中,我们评估我们提出的方法的性能。现在,我们必须使用WEKAWitten和Frank(2000)的10倍交叉验证来实验训练模型,其中所有使用的分类器都已经实现。 图图5 - 10描绘了分别使用项权重方案二进制、TFIDF、ChiS和OddsR作为特征选择模型的每个版本的数据(V1-V7)中的每个所用分类器的F测量结果。所有数据集版本(V1-V7)的六(6)个分类器所图在图5 - 10中,将使用(V2-V7)数据版本获得的结果与关于所有使用的项加权方案的基线(VI)结果进行比较,我们注意到所有分类器的F测量结果的显著增强。在图5中,使用分类器ANN,对于所有数据集版本(V1-V7),基于TFIDF的模型优于其他模型。其次是OddsR模型,然后是Binary模型,而ChiS模型的结果最差。图6表示使用KNN分类器获得的F测量结果。对于所有数据集版本(V1-V7),我们注意到基于TFIDF的模型获得了最好的结果,基于OddsR的模型排名第二。在V2、V3、V4和V6中,基于二进制的模型的性能优于基于Chis的模型,其中在V1、V5和V7中,基于ChiS的模型的性能优于基于二进制的模型。图7表示使用NB分类器获得的F测量结果。对于所有数据集版本(V1-V7),TFIDF模型图五.使用ANN分类器在我们的数据集版本(V1-V7)上获得的F测量结果。见图7。使用NB分类器在我们的数据集版本(V1-V7)上获得的F测量结果。比其他人表现更好其次是OddsR模型,然后是Binary模型,而ChiS模型的结果最差。在图8中,使用DT分类器,对于所有数据集版本(V1-V7),我们没有发现基于TFIDF的模型获得了最佳结果,基于OddsR的模型排名第二。基于二进制的模型在V1、V2、V4和V7中的性能优于基于Chis的模型在V3、V5和V6中,ChiS的模型得到了比基于二进制的模型更好的结果。 图9示出了使用DR分类器获得的F测量结果。基于TFIDF的模型对所有版本的数据集都得到了最好的结果。基于OddsR的模型在所有数据集版本上都得到了比基于二进制和ChiS的模型更好的结果,除了V2,它是由基于二进制的模型得到的。后者已经好转见图8。使用DT分类器在我们的数据集版本(V1-V7)上获得的F测量结果。R. Benkhelifa,F.Z.Laallam/沙特国王大学学报1041见图9。使用DR分类器在我们的数据集版本(V1-V7)上获得的F测量结果。在V5、V6和V7中,基于ChiS的模型的结果优于基于ChiS的模型,其中在其余数据集版本中,基于ChiS的模型的结果优于基于Binary的模型。图10示出了使用SVM分类器获得的F测量结果。基于TFIDF的模型对所有版本的数据集(V1-V7)都获得了最佳结果然后是V2、V3、V4和V5的基于二进制的模型,以及V1、V6和V7数据集版本的基于Chis的模型。对于所使用的六(6)个分类器,显然基于TFIDF的模型获得最高的F测量结果。其次是基于OddsR的模型,而F-measure结果性能在基于Binary的模型和基于ChiS的模型之间从分类器到其他分类器以及从数据集版本到其他分类器交替相关。由于对于所有分类器和数据集版本,TFIDF比其他术语权重方案执行得更表5详细显示了每个版本中六个分类器获得的结果,包括准确率,精确率,召回率和F-测量。使用TFIDF的(V1-V7)数据集。每个数据版本在包含所有用户特征的V7数据集上,分类器SVM的最高分类准确率为90.01%,准确率为0.896,召回率为0.9,F-测度为0.96。首先,使用V1(基线)数据集,我们只关注Facebook上共享的文本内容,而不考虑演示图形属性。 我们得到这些分类器的准确率51.9%使用k-NN,58.2%使用DT,56.9%使用NB,71.6%使用DT,74.6%使用ANN,和75.55%,这代表了SVM分类器获得的最佳准确率。在精度方面,人工神经网络的结果最好,见图10。使用SVM分类器在我们的数据集版本(V1-V7)上获得的F测量结果。0.796,其次是SVM 0.774,DT 0.719,DR 0.677,NB 0.656,k-NN0.628。在召回率和F-Measure方面,我们分别得到了这些结果,(0.755和0.761)代表最佳结果,其次是ANN,(0.748和0.746),DT ( 0.716 和 0.711 ) , NB ( 0.652 和 0.654 ) , DR ( 0.569 和0.571),最后k-NN(0.519和0.505)。现在,我们示出了在分类过程中包括用户特征(用户人口统计属性)的所获得的结果,其中在每个版本的数据(V2-V6)中,我们结合了这些属性之一(参见表2)。在V7数据版本中,我们已经包含了所有的属性。所有结果示于表4中。在V2版本的数据中,我们已经包括了作者的性别。因此,SVM在准确率、精确率、召回率和F-测度方面分别获得了最好的结果(79%,0.793 , 0.79 和 0.79 ) , 其 次 是 ANN ( 75.9% , 0.797 , 0.759 和0.79)。0.757),NB(74.9%,0.754,0.749和0.749),DT(72.3%,0.728、0.723和0.72)、DR(58.2%、0.693、0.582、0.581),最后k-NN与(56.6%,0.663,0.566和0.563)。在V3数据版本中,我们包含了年龄属性,其中我们关注了四个不同的年龄间隔。在准确率、精确率、召回率和F值方面,SVM的结果最好( 分 别为 83.9% 、 0.84 、 0.839 和 0.838 ) , 其次 是 ANN ( 分 别为77.9%、0.809、0.779和0.778),NB(分别为76.5%、0.773、0.765和0.778),0.765),DT(71.2%,0.714,0.712和0.709),DR(62.7%,0.703,0.627和0.633),以及k-NN(56.1%,0.67,0.561和0.633)0.555)。在V4中,我们包含了工作的方面(如果用户是工人或失业者)。在准确率、精确率、召回率和F值方面,SVM的结果最好(分别为82.5%、0.825、0.825和0.824),其次是ANN(80.2%、0.806、0.802和0.801),NB(76.6%、0.773、0.766和0.766),DT(74.6%、0.747、0.746和0.743),DR(62.5%、0.704、0.625和0.766),0.627),和k-NN(53.5%,0.665,0.535和0.534)。在V5中承认用户的教育(如果用户其中,SVM在准确率、精确率、召回率和F-测度上分别达到最好的结果(81.4%,0.814,0.814和0.812 ) , 其 次 是 ANN ( 79.6% , 0.801 , 0.796 和 0.795 ) , NB(75.4%,0.765,0.754,和0.756),DT与(71.9%,0.721,0.719和0.714),DR与(59.1%,0.695,0.591和0.588),以及k-NN具有(54.2%,0.676,0.542和0.543)。最后一个特征是包含在V6中的婚姻状况(已婚或未婚),其中SVM在 准 确 率 、 精 确 率 、 召 回 率 和 F- 测 量 方 面 分 别 获 得 最 好 的 结 果(81.6%,0.817,0.816和0.815),其次是ANN(79.3%,0.798,0.793和0.793),NB(75.8%,0.765,0.758和0.793),0.758)、DT(71.18%,0.718,0.718和0.714)、DR(58.9%,0.708,0.589和0.594),以及k-NN(53.3%,0.659,0.533和0.594)0.532)。最后,我们将文章作者的所有这些特征收集到V7数据集中,其中SVM在准确率,精确率,召回率和F-度量方面分别优于其他分类器(90.01%,0.896,0.9和0.897),其次是ANN(87.6%,0.876,0.876和0.875),DT(80.2%,0.8,0.802和0.799),DR(80.2%,0.802和(76.5%,0.783,0.765和0.764),NB与(76.4%,0.772,0.764,和0.765),和k-NN(68.8%,0.062,0.688和0.612)。基线和其他数据版本之间的比较将使用(V2-V7)数据版本获得的结果使用V2,准确率提高为(使用ANN从74.6%提高到75.9%)(使用k-NN从51.9%提高到56.6%),(使用NB从65.2%提高到74.9%),(使用DT从 71.6%提高到72.3%),(使用DR从 56.9%提高对于V3,与基线(V1)相比,所有分类器的性能的结果得到改善(从74.6%到77.9%1042R. Benkhelifa,F.Z.Laallam/沙特国王大学学报表5使用10倍交叉验证,在每个数据集版本(V1-V7)中选择的用户人口统计学属性、精确度(P)、召回率(R)、F-测量(F)和准确度(A)数据集分类器A(%)PRF数据集分类器A(%)PRFV1(基线)安74.60.7960.7480.746V5安79.60.8010.7960.795k-NN51.90.6280.5190.505k-NN54.20.6760.5420.543NB65.20.6560.6520.654NB75.40.7650.7540.756DT71.20.7140.7120.709DT71.90.7210.7190.714博士56.90.6770.5690.571博士59.10.6950.5910.588SVM75.550.7740.7550.761SVM81.40.8140.8140.812V2安75.90.7970.7590.757V6安79.30.7980.7930.793k-NN56.60.6630.5660.563k-NN53.30.6590.5330.532NB74.90.7540.7490.749NB75.80.7650.7580.758DT72.30.7280.7230.72DT71.180.7180.7180.714博士58.20.6930.5820.581博士58.90.7080.5890.594SVM790.7930.790.79SVM81.60.8170.8160.815V3安77.90.8090.7790.778V7安87.60.8760.8760.875k-NN56.10.670.5610.555k-NN68.80.0620.6880.612NB76.50.7730.7650.765NB76.40.7720.7640.765DT71.60.7190.7160.711DT80.20.80.8020.799博士62.70.7030.6270.633博士76.50.7830.7650.764SVM83.90.840.8390.838SVM90.010.8960.90.897V4安80.20.8060.8020.801k-NN53.50.6650.5350.534NB76.60.7730.7660.766DT74,60.7470.7460.743博士62.50.7040.6250.627SVM82.50.8250.8250.824使用ANN)(使用k-NN从51.9%到56.1%)、(使用NB从65.2%到76.5%)(使用DT从71.6%到71.2%)(使用DR从56.9%到62.7%)和对于SVM分类器(从75.55%到83.3%)。使用V4数据集,所有分类器的性能都得到了提高(使用ANN从74.6%提高到80.2%)(使用k-NN从51.9%提高到53.5%),(使用NB从 65.2%提高到76.6%)(使用 DT 从 71.6% 提高到 74.6% ),(使用DR 从56.9% 提高到62.5%)以及SVM分类器(从75.55%提高到82.1%)。使用V5,我们观察到所有分类器的性能都有所改善(从74.6%到20.6%)。79.6使用人工神经网络)(从51.9%到54.2%使用k-NN),(从65.2%使用NB的从71.6%到75.4%)(使用DT的从71.6%到71.9%),(使用DT的从56.9%到59.1%使用DR)和SVM分类器(从75.55%到81.4%)。使用V6,分类器性能提高(使用ANN从74.6%提高到79.3%)(使用k-NN从51.9%提高到53.3%),(使用NB从65.2%提高到75.8%)(使用DT从71.6%提高到71.18%),(使用DR从56.9%提高到58.9%)和(使用SVM从75.55%提高到81.2%)。最后,我们将帖子作者的所有这些特征收集到V7数据集中,在那里我们得到了所有分类器的最佳结果(使用87.6%ANN时为74.6%),(使用k-NN从51.9%到68.8%),分类器的准确率从NB的65.2%提高到76.4%,从DT的71.6%提高到80.2%,从DR的56.9%提高到76.5%,从SVM的7
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功