没有合适的资源?快使用搜索试试~ 我知道了~
主题:利用社交媒体进行紧急救援和准备WWW 2018,2018年4月23日至27日,法国里昂1629∈类特定的TF-IDF Boosting短文本分类算法在灾难期间生成的短文本中的应用摘要Samujjwal GhoshIIT Hyderabad海得拉巴,Telangana,INcs16resch01001@iith.ac.in毛南德拉·桑卡尔·德萨尔卡尔IITHyderabadHyderabad,Telangana,maunendra@iith.ac.inTF-IDF特征表示,每个文档或短文本都表示在短文本分类任务中,由于可用文本的数量非常少,特征的正确表达起着重要的作用。在文献中,术语频率-逆文档频率(TF-IDF)通常用于创建用于此类任务的特征向量然而,TF-IDF公式化不利用监督学习中可用的类信息对于分类问题,如果有可能识别出能够在类别之间强烈区分的术语,那么在进行FEA时就可以给予这些术语更多的权重表示为向量,其中字段对应于词汇表中的术语。存储在字段中的值是相应术语的TF-IDF分数。TF-IDF分数是该文档中的术语的术语频率(TF)和语料库中的该术语的逆文档频率(IDF)的乘积在数学上,TF-IDF可以表示为:TF IDF=t fi×logN真正的建设阶段。这可以通过并入额外的类标签相关信息而导致改进的分类器性能我们提出了一种有监督的特征构造方法dd fi其中tfi是项i在文档d中出现的次数,分类推文,基于可操作的信息,可能是DN是语料库中的文档总数,d f是是在不同的灾难场景中发布用于这种分类任务的改进的分类器性能可以在救援和救济操作中是有帮助的。我们使用了三个基准数据集,分别包含2015年和2016年尼泊尔和意大利地震期间发布的推文。实验结果表明,该方法在这些基准数据集上取得了较好的分类性能.关键词信息检索;短文本分类;特征工程;基于熵的特征生成ACM参考格式:Samujjwal Ghosh和Maunendra Sankar Desarkar。2018.用于短文本分类的类特定TF-IDF提升:应用于灾难期间生成的短文本。 In The 2018 WebConference Companion,2018年4月23日至27日,法国里昂。ACM,NewYork,NY,USA,9页。网址://doi. 沪ICP备11014558号-11引言像tweet这样的短文本由于其长度限制而包含非常有限的上下文信息。 因此,使用机器学习技术对短文本进行分类是一项具有挑战性的任务。在这种情况下,特征向量的正确表达起着重要的作用在使用文本特征的减灾相关文献中,用于特征表示的最常见技术是词频-逆文档频率(TF-IDF)。在本文在知识共享署名4.0国际(CC BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191621出现术语i的文档数TF捕获文档中的术语的重要性,并且被计算为术语的频率的递增函数。 另一方面,IDF试图衡量一个术语在语料库中的信息量。这里通常的假设是,如果一个术语在语料库中是频繁的,那么它没有太多的信息,而罕见的术语是更多的信息,因此是重要的。IDF被建模为术语的文档频率的递减函数。 这种使用TF-IDF的特征构建策略通常用于分类文本文档-短[24]和长[25]。对于监督分类问题,假设标记的训练数据是可用的。基于TF-IDF的方法在特征构造期间不考虑这些类标签然而,从标记的数据中,可以识别具有区分性的术语,因此可以识别某些类别的强指标。我们希望在特征构造过程中添加不同类别之间的术语重要性(区分能力)作为额外信息。如果一个术语在特定类别中出现足够多的次数,但在其他类别中很少出现,则该术语被认为是有区别的。设t1和t2是在语料库中出现k次的两个术语。然而,t1在所有类别的文档中均匀出现,但t2在类别ci中出现的次数比在其他类别中出现的次数多得多(即cjC;cj≠ci)。项t1和t2的IDF得分将相同。然而,明显的是,项t2具有更大的辨别力,因为其在未来文档中的存在在我们的例子中是类Ci)。我们希望抓住不同术语的这种区别力并在特征构造阶段期间使用该信息在这项工作中,我们提出了技术,提高TF-IDF分数,以更好地代表类之间的长期分布然后,分类器可以利用这些额外的信息来做出更好的决策。这些通用技术可以应用于使用基于词袋的TF-IDF特征的不同应用我们应用了我们的建议主题:利用社交媒体进行紧急救援和准备WWW 2018,2018年4月23日至27日,法国里昂1630方法对灾害相关推文进行分类,以了解其对使用传统TF-IDF的影响和有用性在灾难发生时,人们会在Twitter、微博等微博网站上发布大量的信息。这些帖子中的一些可能实际上包含关于对基础设施的损害、诸如水、药品等资源的需求的用它们包含的信息对这些帖子进行适当的注释可以帮助救援和救济行动,从而减轻受灾害影响的人们的痛苦。在文献中有许多关于正确利用灾害期间生成的短文本以有效地计划救援和救济行动的研究[8],[10],[11],[13],[18],[20],[23]。在这里,我们提出了与灾害相关的推文分类的不同工作的综合摘要。论文[8]提出了使用具有TF-IDF特征的各种算法对灾害相关推文分类的比较研究[10]中的作者提出了一个系统,该系统不仅可以过滤和分类英语推文,还可以处理与台风Lawin(国际名称:Haima)和Karen(国际名称:Sarika)相关的多语言推该系统是通过使用TF-IDF特征与支持向量机(SVM)分类器构建的。虽然[11]主要集中在基于神经网络的方法来检索与灾害相关的微博,但他们使用TF-IDF Rocchio分数来扩展他们的查询,然后在神经网络上使用它们[13]中采用了从未标记的目标数据中学习分类器的域自适应方法,其中作者利用从过去灾难中获得的信息来过滤与新灾难相关的推文。在改进的TF-IDF特征加权朴素贝叶斯分类器上使用自训练技术实现了领域自适应。[18]建立了一个系统,可以通过监控Twitter流来自动检测任何灾难的作者使用朴素贝叶斯和支持向量机作为他们的分类器与TF-IDF为基础的特征向量。在[20]中,作者提出了一种自动文本分类系统,该系统仅过滤与灾害相关的短文本。该方法的工作原理,通过选择突出的TF-IDF功能,使用卡方技术。[23]的作者进行了一项基于匹配和基于学习的方法之间的研究,以过滤灾难期间生成的相关推文。 他们采用了各种技术,如地理标签信息,word 2 vec [17]嵌入以及TF-IDF分数。从这些讨论中我们可以看到,TF-IDF的使用在与灾害相关的推文分类领域非常常见。在这项工作中,我们专注于在灾难期间发布的信息推文分类的任务。我们考虑的示例类是与资源可用性和需求相关的、与基础设施损坏相关的等。即使分类性能的微小改进也可以帮助救援组织查看特定消息,并相应地做出决定以适当的方式引导救援操作。我们使用了三个灾难相关的鸣叫数据集来测试我们提出的功能constrc- tion技术的有效性。在这些基准数据集上,我们的方法显著优于基于TF-IDF的分类方法。本文的其余部分组织如下。在第二节中,我们讨论了TF-IDF评分修正领域的相关工作。 我们在第3节中定义了这个问题。第4节详细讨论了所提出的方法。关于我们的实验设置以及数据集详细信息的讨论见第节5. 最后,我们将在第6节中介绍我们的实验结果。2相关工作在本节中,我们将从文献中查看不同的工作,这些工作涉及TF-IDF修改的变体以用于分类任务。然而,大多数技术是基于特征选择方法,而不是TF-IDF得分修改,其中基于术语的区分能力选择特征的子集。该子集选择可以使用各种方法来完成,如信息增益(IG)[2]、卡方[19]、互信息[26]等。 然而,这些方法没有充分利用词在类中的出现频率. 然而,人们已经试验了不同的TF-IDF修饰技术。下面我们讨论文献中存在的一些这样的方法。[3]中的作者将二元语法与传统的基于一元语法的特征结合在一起,以结合额外的信息。 虽然这种方法不会改变TF-IDF的值,但它们会增加词汇表中唯一特征的数量。 他们表明,增加词汇量可能会提高分类器的性能。[5]的作者在生成特征时使用双正态分离(BNS)代替IDF。BNS根据其区分能力对术语进行排名。作者发现BNS的缩放项的重要性,没有任何特征选择,提高了他们的分类器的准确性。 在[12]中,提出了一种基于熵的方法,称为基于熵的类别覆盖差异(ECCD),在该方法中,他们计算跨类的每个术语的熵,以获得不同类别浓度的术语的重要性。为了解决类别不平衡问题,[14]提出了一种基于概率的术语加权方案,该方案提高了数据点数量少于其他类别的类别的分类器性能 在另一种方法中,使用语义修改的TF-IDF评分对生物医学数据进行分类[15]。使用修改后的特征集的SVM分类器的性能更好。Delta TF-IDF由[16]提出,它修改了TF-IDF分数,以更好地理解博客的情感 Delta部分通过取训练数据的积极和消极情绪的TF-IDF得分的差异来计算。在[21]中,作者使用了类似于IDF的逆类频率(ICF),其表示术语的重要性。 ICF对出现在少数类别中的术语给予最高分,对出现在许多类别中的术语给予最低分。结果表明,使用ICF而不是IDF可以获得更好的分类器性能。[22]显示了使用IG选择最突出的特征而不是使用所有特征的效果。他们发现使用IG提高了他们的分类准确性。[24]的工作提出了用于短文本分类任务的低粒度特征,主要关注中文文本。作者在[25]中还提出了两种基于熵的方法,称为tf.dc和tf.bdc,它们测量类之间的分布集中度(DC)在DC方法中,在类而不是文档上计算第二种方法提出了平衡分布集中度(BDC),它考虑了类大小来计算DC。然而,这些方法中的大多数针对长文本进行了调整,并且不针对上下文信息有限的短文本进行优化。3问题定义我们在这项工作中的主要目标是分类短文本,给定一组短文本和它们的类。该问题可以公式化为:主题:利用社交媒体进行紧急救援和准备WWW 2018,2018年4月23日至27日,法国里昂1631Ic0,c,T F. IDFit>CC1()下一页KC2C所有类别的计数,即TC=k= 1tck。∑∑令T={tl,t2,···,tN}是N个文本数据点的集合,并且C={1, 2,···,m}是m个类的集合给定一个形式为{ti,ci,···,ci}的映射集,其中数据ti∈T4.2类归一化熵提升在这里,我们提出了第二种方法,它处理了4.1节中提到的低重调用问题。这种方法保留了AC-和类ci,···,ci∈C,我们的目标是找到所有适用的实际TF-IDF得分,并提高类特定术语1K新新数据t的类。作为边信息。这样,我们就可以保留一个...下面我们讨论我们提出在构造TF-IDF特征时利用术语类关系的方法。4该方法我们希望对未见过的短文本进行分类,给定一组短文本及其类标签作为训练数据。考虑到这一目标,我们首先尝试确定衡量术语关系的方法基于TF-IDF的分数的icance,并且还能够对已知的重要术语给予额外的提升在上文第4.1节中描述的熵度量遭受类大小不平衡,主要针对较小的类。 在这种方法中,我们在计算术语的重要性权重(IW)时还考虑了类大小。我们可以如下计算类别c的项ti的IW:tciIW(t)=与不同阶级的关系然后我们看到这些信息ckc可以用来将新的tweet分配给适当的类。对于固有地特定于某些类的术语,我们期望它们的分布集中在这些类中。另一方面,在一项研究中,其中kc表示类别c中存在的项的数目。现在,我们通过根据以下等式考虑熵和重要性来计算类归一化熵(CNE)。通用术语可以大致均匀地分布在iTF. IDF(ti)+(1)A(1)A()0所有的班级。一种常见的识别存在或不存在这种集中是通过熵。我们计算熵TF. C(tc)=中文(简体)否则的项tiasH(ti)=−∑pi×log(pi)C分母k用作归一化超参数。附加增压的效果可以通过改变增压器的温度来控制其中pi是如果术语ti存在于文档中的概率5实验细节Ci则该文档来自C类。 我们将pc估计为ti在类c中存在的次数与它在所有类中存在的次数的比率。然后,用于计算项ti的熵的公式可以被写为:在我们的实验中,我们使用具有线性核的支持向量机(SVM)[4]作为我们的分类器。许多研究[8],[10],[18],[20]发现SVM在disas中使用TF-IDF特征向量效果最好称为场景。具有三种不同TF-IDF提升方法的SVMMH(ti)=−TCI×log2(tci).(一)用于实验。TFIDF表示简单TF-IDF值,表示具有归一化熵的TF-IDF值我们c=1tciTCI第4.2节中的另一种方法表示为TF。. 我们也其中tci表示类别c中的项ti的计数,并且tci表示类别c中的项t i的计数。在[12]中讨论的方法被称为ECCD和de-ci m i4.1归一化熵提升一旦我们计算了语料库中每个术语的熵,我们就想得到一个术语对每个类的信息量(集中)的估计。 我们提出了一种基于熵的方法,称为归一化熵提升。我们通过下式计算项ti的归一化熵(NE):在表4 1中标记为TF.IDFECCD。5.1数据集三个灾难相关的推文数据集被用于实验。[6] 和2017年(FIRE17)[1]数据集,其中包含2015年尼泊尔地震期间发布的推文。FIRE16和FIRE17的类别详细信息分别在表1a和1b中提及。我们还测试了“社交媒体用于紧急救援和准备-NE(ti)=Hmax−H(ti)(2)HMaxnessSMERP17数据集的详细信息见表1c2。我们还通过合并创建了一个自定义数据集其中,Hmax = max ti Hti,并且Hmax表示所有熵的最大值。 我们通过以下等式修改TF-IDF值,TF IDFN E(ti)= TF。IDF(ti)×NE(ti)(3)集中在几个类中的项应该具有较高的NE,而几乎均匀分布在类中的项应该具有较低的NE。虽然TF-IDF NE给出比传统TF-IDF更好的精确度,但是召回率非常低,如表4所示。我们在4.2节中提出了另一种方法来改进将SMERP17和FIRE16数据集表示为FIRE16+SMERP17 1d。 由于类的数量在它们之间变化,我们将FIRE16映射到类似于SMERP17的4个类。两个数据集之间的映射在表3中给出。我们无法找到数据集FIRE16的类5的任何合适的映射,因此我们删除了仅在类5中出现的所有推文。 所有上述数据集被分为训练集和测试集,分别占总可用标记数据的70%和30%。给出了类的详细信息1复制研究的源代码可以在github上找到2需要注意的是,数据计数可能与上述原始数据集不同笨蛋性能超过TF.IDFN E.ter不允许直接分享推文,推文在体验之前被下载如果它被删除或设为私有,则可能无法检索到片段和一些推文k的值。在5.3节中讨论了k的更详细的影响。主题:利用社交媒体进行紧急救援和准备WWW 2018,2018年4月23日至27日,法国里昂1632<相关消息必须提及某些特定基础设施资源的损坏或恢复,例如结构(例如,水坝、房屋、移动塔),通信基础设施(例如,道路、跑道、铁路)、电力、移动或互联网连接等。没有提及基础设施资源的一般性陈述是不相关的。TREC格式。 每个类的描述包含四个字段:类ID、标题(表示类的小标题)、desc(类的简短描述)和narr(该类应考虑的文本的详细叙述)。 下面针对FIRE16数据集的类7和S的类1给出TREC格式的类描述的示例表1:班级编号、标题以及培训和测试数据计数(a) 数据集FIRE16的类特定详细信息类标题列车试验包含与基础设施7基础设施受损修复17874损坏或修复。每节课的平均推文数21191(b) 数据集FIRE17的类特定详细信息类标题列车试验1需求相关四六一二○七2可用性相关一四八五十五每节课的平均推文数三零四一三一(c) 数据集SMERP17的类特定详细信息类标题火车 测试1可用资源228822需资源152623基础设施损坏、恢复、事故14056114救援活动非政府组织/政府255105每节课的平均推文数510215(d)数据集FIRE16 + SMERP17的类特定详细信息类标题列车试验1可用资源2需资源7334023671563基础设施受损修复16106584活动非政府组织/政府494237每节课的平均推文数8093545.2预处理在处理数据之前,我们通过依次执行下面提到的步骤对其进行(1) 首字母缩略词扩展:推文通常使用各种首字母缩略词编写。我们使用了文[9]中给出的词典的修改版本,我们自己增加了一些额外的术语所有的缩写词都被字典中给出的短语/单词所取代。(2) 删除表情符号和非ASCII字符:tweet的另一个普遍问题是表情符号。我们通过模式匹配搜索并删除所有表情符号和非ASCII字符。(3) 大小写折叠:在完成上述所有处理后,所有推文文本都转换为小写(4) 停用词和标点符号删除:在所有上述步骤完成后,我们从tweet中删除了nltk停用词3中存在的任何单词。(5) 特殊字符删除:我们删除了“#”,“@”等字符,但没有删除相应的标签或用户提及。此外,我们删除了一些其他特殊的词,如“rt”,“via”和“amp”,它们不是停止词,但不包含任何值。(6) URL和电话号码处理:任何推文中出现的URL3https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/stopwords.zip编号:SMERP-T1可用资源标识描述某些资源可用性的消息。<相关的信息必须提到一些资源的可用性,如食物,饮用水,住所,衣服,毯子,血液,人力资源,如志愿者,建造或支持基础设施的资源,如帐篷,滤水器,电力供应等。通知运输车辆的可用性以协助资源分配过程的信息也是相关的。此外,消息指示任何服务,如免费的wi-fi,短信,呼叫设施等。也将是相关的。此外,任何有关捐款的消息或公告也将是相关的。然而,没有提及任何资源的概括性陈述是不相关的。MERP17数据集。1可 用 资源4011752所需资源编号:FMT7<标题>报告了哪些基础设施损坏和恢复情况说明:识别3456医疗资源可用医疗资源所需资源特定地点活动非政府组织/政府231751352521003653119主题:利用社交媒体进行紧急救援和准备WWW 2018,2018年4月23日至27日,法国里昂1633····【· · ·】下面我们展示了一条原始形式的推文,经过预处理:表2:预处理前后的推文是-前:马耳他骑士团意大利医生救济团为意大利遭受强烈地震的地区提供帮助https://t.co/DDszXXhKgnAf-之三:医生意大利救济团命令马耳他提供帮助意大利发生强烈地震5.3参数调整和交叉验证我们有两种不同类型的超参数。第一个参数是等式(4)中的k的值,其决定6.1完整集合的结果-所有类一起表4列出了我们在第5.1节中提到的4个数据集上的实验的F1,精度和召回率。 我们可以从表4中观察到,在TF-IDF公式中并入类别特定信息在所有数据集中显著增加了传统TF-IDF的分类器准确性。在NE方法(TF.IDFNE)中,我们可以清楚地看到,与传统TF.IDF相比,精确度有所增加,但召回率下降,从而降低了F1得分。 虽然TF-IDF NE给出比传统TF-IDF更好的精确度,但它未能概括新数据点不包含来自现有训练集词汇表的任何重要术语的情况。结果,那些新项的NE值将非常低,并且TF.IDF NE对该数据点给出非常低的分数。 这是由于等式(3)的乘法性质而发生的。这实际上是TF的局限性之一。IDF N E助推我们的方法TF的类特定助推.IDFCN E和规则approach. 当我们将提升值与TF-IDF相乘时,如果提升值低,则会降低整体得分支持向量机分类器参数优化我们首先在不调整正则化参数4的情况下调整提升参数k。我们考虑1、2、3、10作为k的值来调整提升参数,并且发现k = 2给出最佳结果5。我们固定了所有后续操作的k值我们在训练集上使用5折交叉验证来调整SVM的正则化参数。它的调谐值为[10 −1,10 0,10 1,,10 4]。支持向量机中的正则化参数表示对错误分类的重要程度。值越高表示未命中分类的成本越高然而,增量有一个折衷,因为它缩小了类之间的差距。因此,我们将得到一个具有小余量的分类器应当注意的是,在TF.IDF的情况下,CN E正则化参数在我们的提升参数调整完成之后被调整6结果在本节中,我们讨论了我们的研究结果有关的影响,TF-IDF提升灾害相关的鸣叫。4在调整增强参数k期间,将正则化参数设置为15表4中的TF.IDFCNE的结果是在调整正则化参数表3:FIRE16和SMERP17之间的类映射FIRE16型类SMERP17类类可用资源1可用资源1医疗资源可用3需资源2需资源2医疗资源再-要求的4资源特定日志阳离子5-非政府组织/政府政府6救援活动非政府组织/政府4基础设施损坏恢复7基础设施损坏,恢复,伤亡3TF.IDFN E.我们发现这种情况在较小的类(训练集中的数据点数量较少)中发生得更多,因为该类的词汇量非常有限。但是,在“精确”优先级高于“召回”优先级的情况下,此技术可能很有用。我们的第二种方法称为TF.IDF CNE比TF.IDF NE更好地推广,如表4所示。 该技术能够更好地处理未看到的术语,并且对于较小的数据集工作良好,其中一些实际重要的术语可能在观察到的数据中没有足够的统计数据,因为它包含每个类的词汇大小。我们的方法给出了更好的结果比TF。IDFECCD。然而,我们仍然看到前两个数据集中的召回率较低。 这是因为数据点的数量很少。这个问题的一个明显的补救措施是拥有更多的数据。 FIRE16和FIRE17平均每类分别有211和304个数据点,如表1a和1b所示。更多的数据将很可能包括词汇表中所有可能的重要术语。 在SMERP17和FIRE16 + SMERP17数据集的情况下可以观察到这种行为,因为它们平均每个类别分别具有510(表1c)和809(表1d)个数据点。6.2单个类的结果在本节中,我们将更深入地研究我们提出的方法的单个类标签性能。 表5、6、7和8提供了第4.2节中提到的所有方法的综合性能。我们看到更好的性能,我们提出的方法比传统的TF-IDF时,可用的训练数据是大的。 我们的方法TF.IDF CNE仅对于FIRE16数据集的类别4表现得比传统的TF.IDF差,如表5d中所观察到的。还应该注意的是,FIRE16的类别4在所有数据集的所有类别中只有75个训练数据,如表1所示。 图1a 、1b 、1c 、1d 分别显示了FIRE16、FIRE17、SMERP17和FIRE16 + SMERP17数据集的F1评分。第七章结论在本文中,我们研究了类特定的TF-IDF分数提升的有用性。很明显,通过主题:利用社交媒体进行紧急救援和准备WWW 2018,2018年4月23日至27日,法国里昂1634表4:TF-IDF增强方法的综合结果数据集特征F1评分精准召回TF.IDF0.6936(a) 数据集FIRE16F1得分消防16消防17SMERP17FIRE16 +SMERP17TF.IDFN E0.6535 0.7396 0.6081国防军TF.IDFCN E0.6856 0.76430.6380TF.IDF0.8801TF.IDFN E0.8417 0.8647 0.8237以色列国防军TF.IDFCN E0.8767 0.88490.8692运输工具TF.IDF N E0.87710.88510.8711以色列国防军TF.IDFCN E0.88250.8994 0.8680运输队TF.IDF N E0.83650.83860.8350国防军TF.IDFCN E0.84520.8663 0.8260(b) 数据集FIRE17F1(c) 数据集SMERP17的不同类别F1评分(d) 数据集FIRE16 + SMERP17的不同类别的F1得分图1:不同班级的F1熵和术语频率的手段可以在纯TF-IDF评分方案上提高分类器的准确性我们展示了我们在4个不同的多标签灾害相关短文本数据集上工作的方法然而,我们也发现,如果类足够大,我们的方法效果更好。 在我们未来的工作中,我们希望以这样的方式处理提升,以便它可以处理不平衡的班级规模。 如果可以并入额外的维度信息以用于更好的性能,则可以探索另一种改进。致谢作者要感谢匿名评审的宝贵意见和有益的建议。 本工作得到了以下项目的资助:EE/2016-17/034/MLA/MZAK/0235。主题:利用社交媒体进行紧急救援和准备WWW 2018,2018年4月23日至27日,法国里昂1635表5:FIRE16的类别特定结果(a) 具有TF.IDF的FIRE16数据集的类特定结果F1级-得分 精准召回1 0.6949 0.7028 0.68712 0.6708 0.6543 0.68833 0.7794 0.76004 0.4666 0.38885 0.5420 0.54712019 - 06 - 21 00:00:00表6:FIRE17的类别特定结果(a) 具有TF.IDF的FIRE17数据集的类特定结果F1级-得分 精准召回1 0.9466 0.9512 0.942020.8035 0.7894 0.8181(b) 具有TF的FIRE17数据集的类特定结果。IDFNEF1级-得分 精准召回70.92510.91890.931510.93830.92090.956520.74500.80850.6909(b) 具有TF的FIRE16数据集的类特定结果NEF1级-得分 精准召回1 0.7288 0.7206 0.73712 0.7125 0.7215 0.70373 0.8205 0.84212019年12月31日50.5000 0.6285 0.41502019 - 06 - 21 00:00:002019 - 04 -22 00:00:00(c) 使用TF.IDFECCD的FIRE17数据集的类特定结果F1级-得分 精准召回1 0.9496 0.9428 0.95652 0.7924 0.8235 0.7636(d)具有TF的FIRE17数据集的类特定结果。IDFCNEF1级-得分 精准召回10.94960.94280.9428(c)使用TF.IDFECCD的20.80370.82690.7818F1级-得分 精准召回10.73650.73030.742820.73740.74680.728330.82420.86510.770040.42300.68750.305550.56170.69440.471660.59990.69230.529470.88730.92640.8513(d)具有TF的FIRE16数据集的类特定结果。IDFCNEF1级-得分 精准召回1 0.7380 0.7277 0.74852 0.7530 0.7530 0.75302019 - 04 - 28 00:002019 - 04 - 26 00:00:002016年12月31日2019 - 05 - 29 00:00:002019 - 04 - 25 00:00:00主题:利用社交媒体进行紧急救援和准备WWW 2018,2018年4月23日至27日,法国里昂1636表7:SMERP17的类别特异性结果(a)具有TF.IDF的SMERP17数据集的类别特定结果F1级-得分 精准召回表8:FIRE16 + SMERP17的类别特异性结果(a) 具有TF.IDF的FIRE16 + SMERP17数据集的类特定结果F1级-得分 精准召回10.79310.75000.841410.78080.81180.752020.78330.79660.770420.76220.83850.698730.99010.98850.991830.97490.97710.972640.87560.91660.838040.69570.68290.7089(b) 具有TF的SMERP17数据集的类别特定结果NEF1级-得分 精准召回1 0.8352 0.8068 0.8658(b) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFNEF1级-得分 精准召回(c) 具有TF.IDFECCD的F1级-得分 精准召回1 0.8148 0.8250 0.804820.77470.8600.70493 0.9934 0.99182019 - 04 - 28 00:00:00(d) 具有TF的SMERP17数据集的类别特定结果。IDFCNEF1级-得分 精准召回1 0.8352 0.8255 0.86582 0.7931 0.8363 0.75403 0.9918 0.98864 0.9000 0.9473 0.8571(c) 具有TF.IDFECCD的FIRE16 + SMERP17数据集的类特定结果F1级-得分 精准召回1 0.8446 0.8768 0.81472 0.8054 0.8613 0.75643 0.9831 0.99074 0.7441 0.7457(d) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFCNEF1级-得分 精准召回1 0.8455 0.8724 0.820120.8095 0.8623 0.76283 0.9802 0.98174 0.7457 0.748920.77580.81810.737710.83540.84830.822830.99020.98540.995020.79730.81330.782040.90730.93000.885730.97560.97560.975640.73770.71710.7594主题:利用社交媒体进行紧急救援和准备WWW 2018,2018年4月23日至27日,法国里昂1637引用[1] MoumitaBasu、AnuragRoy、KripabandhuGhosh、SomprakashBandyopadhyay和Saptarshi Ghosh。2017年。 灾难情境下的微博检索:一种新的评估测试集。 在第一届国际工作坊关于利用社交媒体进行紧 急 救 援 和 准 备 的 会 议 记 录 中 , 与 欧 洲 信 息 检 索 会 议 共 同 举 办 ,SMERP@ECIR 2017 , 阿 伯 丁 , 英 国 。 22-31 http://ceur-ws.org/Vol-1832/SMERP_2017_peer_review_paper_3.pdf[2] Iyad Batal和Milos Hauskrecht。2009年通 过 使 用 监 督 术 语 加 权 方 案 提高KNN文本分类准确率。第18届ACM信息与知识管理会议论文集。ACM,2041[3] Constantinos Boulis和Mari Ostendorf2005年 通过用冗余补偿的二元组来增强词袋表示的文本分类。在proc 数据挖掘中的特征选择国际研讨会。Citeseer,9-16.[4] 科 琳 娜 · 科 尔 特 斯 和 弗 拉 基 米 尔 · 瓦 普 尼 克 一 九 九 五 年 支 持 向 量 网 络 。Machinelearning 20,3(1995),273-297.[5] 乔治·福尔曼。2008. BNS功能缩放:一种改进的基于TF-IDF的SVM文本分类表示方法。第17届ACM信息与知识管理会议论文集。ACM,263[6] Saptarshi Ghosh和Kripabandhu Ghosh。2016. FIRE 2016微博主题概述:从灾 难 期间发布的微博中提取信息。在FIRE 2016-Forum for InformationRetrieval Evaluation工作笔记中印度加尔各答。56-61. http://ceur-ws.org/Vol-1737/T2-1.pdf[7] SaptarshiGhosh , KripabandhuGhosh , DebasisGanguly , TanmoyChakraborty,Gareth J.F. Jones和Marie-Francine Moens。2017. ECIR 2017研讨 会 关 于 利 用 社 交 媒 体 进 行 紧 急 救 援 和 准 备 ( SMERP 2017 ) 。 SIGIRForum51,1(Aug. 2017),36-41. https://doi.org/10.1145/3130332的网站。3130338[8] Samujjwal Ghosh,Srijith P.K.,和莫南德拉·桑卡·德萨尔卡2017年。使用社交媒 体 对 灾 难 场 景 中 的 可 操 作 见 解 进 行 InternationalJournal of Advances inEngineering Sciences 9,4(2017年12月),224-237。https://doi.org/10.1007/s12572-017-0197-2[9] Muhammad Imran , Prasenjit Mitra , and Carlos Castillo.2016 年 。Twitter作为生命线:人类注释的Twitter语料库用于危机相关消息的NLP。CoRRabs/1605.05894(2016)。arXiv:1605.05894http://arxiv.org/abs/1605.05894[10] 兰迪·乔伊和玛格诺·文泰恩2017年。微博中地方语言灾害相关推文的分类研究。《Asia Pacific Journal of Multidisciplinary Research》[11] Prannay Khosla 、 Moumita Basu 、 Kripabandhu Ghosh 和 Saptarshi Ghosh 。2017年。灾后救助微博检索:应用和比较神经IR模型。arXiv预印本arXiv:1707.06112(2017)。[12] Christine Largeron、Christophe Moulin和Mathias Géry。2011年。基于熵的文本分类特征选择 在2011年ACM Symposiumon Applied Computing会议录中。ACM,924[13] Hongmin Li ,Doina Caragea , Cornelia Caragea ,and Nic Herndon.2017年。用域适应方法通过推文分类辅助的灾害响应《突发事件与危机管理杂志》(Journal of Contingencies and Crisis Management,2017)[14] Ying Liu,Han Tong Loh,and Aixin Sun.2009年不平衡文本分类:一种术语加权方法。Expert systems with Applications36,1(2009),690[15] Xinghua Lu,Bin Zheng,Atulya Velivelli,and ChengXiang Zhai.2006年通 过 语 义 丰 富 的表 示 和 训 练 数 据 增 强 来增 强 文 本 分 类。 Journal of theAmerican Medical Informatics Association13,5(2006),526[16] Justin Martineau和Tim Finin2009年 Delta TFIDF:一种用于情感分析的改进特征空间。Icwsm9(2009),106.[17] Tomas Mikolov、Ilya Sutskever、Ka
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功