社交媒体在紧急救援和准备中的应用及TF-IDFBoosting算法的研究

45 浏览量更新于2023-10-15 收藏 710KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1629∈类特定的TF-IDF Boosting短文本分类算法在灾难期间生成的短文本中的应用摘要Samujjwal GhoshIIT Hyderabad海得拉巴，Telangana，INcs16resch01001@iith.ac.in毛南德拉·桑卡尔·德萨尔卡尔IITHyderabadHyderabad，Telangana，maunendra@iith.ac.inTF-IDF特征表示，每个文档或短文本都表示在短文本分类任务中，由于可用文本的数量非常少，特征的正确表达起着重要的作用。在文献中，术语频率-逆文档频率（TF-IDF）通常用于创建用于此类任务的特征向量然而，TF-IDF公式化不利用监督学习中可用的类信息对于分类问题，如果有可能识别出能够在类别之间强烈区分的术语，那么在进行FEA时就可以给予这些术语更多的权重表示为向量，其中字段对应于词汇表中的术语。存储在字段中的值是相应术语的TF-IDF分数。TF-IDF分数是该文档中的术语的术语频率（TF）和语料库中的该术语的逆文档频率（IDF）的乘积在数学上，TF-IDF可以表示为：TF IDF=t fi×logN真正的建设阶段。这可以通过并入额外的类标签相关信息而导致改进的分类器性能我们提出了一种有监督的特征构造方法dd fi其中tfi是项i在文档d中出现的次数，分类推文，基于可操作的信息，可能是DN是语料库中的文档总数，d f是是在不同的灾难场景中发布用于这种分类任务的改进的分类器性能可以在救援和救济操作中是有帮助的。我们使用了三个基准数据集，分别包含2015年和2016年尼泊尔和意大利地震期间发布的推文。实验结果表明，该方法在这些基准数据集上取得了较好的分类性能.关键词信息检索;短文本分类;特征工程;基于熵的特征生成ACM参考格式：Samujjwal Ghosh和Maunendra Sankar Desarkar。2018.用于短文本分类的类特定TF-IDF提升：应用于灾难期间生成的短文本。 In The 2018 WebConference Companion，2018年4月23日至27日，法国里昂。ACM，NewYork，NY，USA，9页。网址：//doi. 沪ICP备11014558号-11引言像tweet这样的短文本由于其长度限制而包含非常有限的上下文信息。因此，使用机器学习技术对短文本进行分类是一项具有挑战性的任务。在这种情况下，特征向量的正确表达起着重要的作用在使用文本特征的减灾相关文献中，用于特征表示的最常见技术是词频-逆文档频率（TF-IDF）。在本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191621出现术语i的文档数TF捕获文档中的术语的重要性，并且被计算为术语的频率的递增函数。另一方面，IDF试图衡量一个术语在语料库中的信息量。这里通常的假设是，如果一个术语在语料库中是频繁的，那么它没有太多的信息，而罕见的术语是更多的信息，因此是重要的。IDF被建模为术语的文档频率的递减函数。这种使用TF-IDF的特征构建策略通常用于分类文本文档-短[24]和长[25]。对于监督分类问题，假设标记的训练数据是可用的。基于TF-IDF的方法在特征构造期间不考虑这些类标签然而，从标记的数据中，可以识别具有区分性的术语，因此可以识别某些类别的强指标。我们希望在特征构造过程中添加不同类别之间的术语重要性（区分能力）作为额外信息。如果一个术语在特定类别中出现足够多的次数，但在其他类别中很少出现，则该术语被认为是有区别的。设t1和t2是在语料库中出现k次的两个术语。然而，t1在所有类别的文档中均匀出现，但t2在类别ci中出现的次数比在其他类别中出现的次数多得多（即cjC;cj≠ci）。项t1和t2的IDF得分将相同。然而，明显的是，项t2具有更大的辨别力，因为其在未来文档中的存在在我们的例子中是类Ci）。我们希望抓住不同术语的这种区别力并在特征构造阶段期间使用该信息在这项工作中，我们提出了技术，提高TF-IDF分数，以更好地代表类之间的长期分布然后，分类器可以利用这些额外的信息来做出更好的决策。这些通用技术可以应用于使用基于词袋的TF-IDF特征的不同应用我们应用了我们的建议主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1630方法对灾害相关推文进行分类，以了解其对使用传统TF-IDF的影响和有用性在灾难发生时，人们会在Twitter、微博等微博网站上发布大量的信息。这些帖子中的一些可能实际上包含关于对基础设施的损害、诸如水、药品等资源的需求的用它们包含的信息对这些帖子进行适当的注释可以帮助救援和救济行动，从而减轻受灾害影响的人们的痛苦。在文献中有许多关于正确利用灾害期间生成的短文本以有效地计划救援和救济行动的研究[8]，[10]，[11]，[13]，[18]，[20]，[23]。在这里，我们提出了与灾害相关的推文分类的不同工作的综合摘要。论文[8]提出了使用具有TF-IDF特征的各种算法对灾害相关推文分类的比较研究[10]中的作者提出了一个系统，该系统不仅可以过滤和分类英语推文，还可以处理与台风Lawin（国际名称：Haima）和Karen（国际名称：Sarika）相关的多语言推该系统是通过使用TF-IDF特征与支持向量机（SVM）分类器构建的。虽然[11]主要集中在基于神经网络的方法来检索与灾害相关的微博，但他们使用TF-IDF Rocchio分数来扩展他们的查询，然后在神经网络上使用它们[13]中采用了从未标记的目标数据中学习分类器的域自适应方法，其中作者利用从过去灾难中获得的信息来过滤与新灾难相关的推文。在改进的TF-IDF特征加权朴素贝叶斯分类器上使用自训练技术实现了领域自适应。[18]建立了一个系统，可以通过监控Twitter流来自动检测任何灾难的作者使用朴素贝叶斯和支持向量机作为他们的分类器与TF-IDF为基础的特征向量。在[20]中，作者提出了一种自动文本分类系统，该系统仅过滤与灾害相关的短文本。该方法的工作原理，通过选择突出的TF-IDF功能，使用卡方技术。[23]的作者进行了一项基于匹配和基于学习的方法之间的研究，以过滤灾难期间生成的相关推文。他们采用了各种技术，如地理标签信息，word 2 vec [17]嵌入以及TF-IDF分数。从这些讨论中我们可以看到，TF-IDF的使用在与灾害相关的推文分类领域非常常见。在这项工作中，我们专注于在灾难期间发布的信息推文分类的任务。我们考虑的示例类是与资源可用性和需求相关的、与基础设施损坏相关的等。即使分类性能的微小改进也可以帮助救援组织查看特定消息，并相应地做出决定以适当的方式引导救援操作。我们使用了三个灾难相关的鸣叫数据集来测试我们提出的功能constrc- tion技术的有效性。在这些基准数据集上，我们的方法显著优于基于TF-IDF的分类方法。本文的其余部分组织如下。在第二节中，我们讨论了TF-IDF评分修正领域的相关工作。我们在第3节中定义了这个问题。第4节详细讨论了所提出的方法。关于我们的实验设置以及数据集详细信息的讨论见第节5. 最后，我们将在第6节中介绍我们的实验结果。2相关工作在本节中，我们将从文献中查看不同的工作，这些工作涉及TF-IDF修改的变体以用于分类任务。然而，大多数技术是基于特征选择方法，而不是TF-IDF得分修改，其中基于术语的区分能力选择特征的子集。该子集选择可以使用各种方法来完成，如信息增益（IG）[2]、卡方[19]、互信息[26]等。然而，这些方法没有充分利用词在类中的出现频率. 然而，人们已经试验了不同的TF-IDF修饰技术。下面我们讨论文献中存在的一些这样的方法。[3]中的作者将二元语法与传统的基于一元语法的特征结合在一起，以结合额外的信息。虽然这种方法不会改变TF-IDF的值，但它们会增加词汇表中唯一特征的数量。他们表明，增加词汇量可能会提高分类器的性能。[5]的作者在生成特征时使用双正态分离（BNS）代替IDF。BNS根据其区分能力对术语进行排名。作者发现BNS的缩放项的重要性，没有任何特征选择，提高了他们的分类器的准确性。在[12]中，提出了一种基于熵的方法，称为基于熵的类别覆盖差异（ECCD），在该方法中，他们计算跨类的每个术语的熵，以获得不同类别浓度的术语的重要性。为了解决类别不平衡问题，[14]提出了一种基于概率的术语加权方案，该方案提高了数据点数量少于其他类别的类别的分类器性能在另一种方法中，使用语义修改的TF-IDF评分对生物医学数据进行分类[15]。使用修改后的特征集的SVM分类器的性能更好。Delta TF-IDF由[16]提出，它修改了TF-IDF分数，以更好地理解博客的情感 Delta部分通过取训练数据的积极和消极情绪的TF-IDF得分的差异来计算。在[21]中，作者使用了类似于IDF的逆类频率（ICF），其表示术语的重要性。 ICF对出现在少数类别中的术语给予最高分，对出现在许多类别中的术语给予最低分。结果表明，使用ICF而不是IDF可以获得更好的分类器性能。[22]显示了使用IG选择最突出的特征而不是使用所有特征的效果。他们发现使用IG提高了他们的分类准确性。[24]的工作提出了用于短文本分类任务的低粒度特征，主要关注中文文本。作者在[25]中还提出了两种基于熵的方法，称为tf.dc和tf.bdc，它们测量类之间的分布集中度（DC）在DC方法中，在类而不是文档上计算第二种方法提出了平衡分布集中度（BDC），它考虑了类大小来计算DC。然而，这些方法中的大多数针对长文本进行了调整，并且不针对上下文信息有限的短文本进行优化。3问题定义我们在这项工作中的主要目标是分类短文本，给定一组短文本和它们的类。该问题可以公式化为：主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1631Ic0，c，T F. IDFit>CC1（）下一页KC2C所有类别的计数，即TC=k= 1tck。∑∑令T={tl，t2，···，tN}是N个文本数据点的集合，并且C={1， 2，···，m}是m个类的集合给定一个形式为{ti，ci，···，ci}的映射集，其中数据ti∈T4.2类归一化熵提升在这里，我们提出了第二种方法，它处理了4.1节中提到的低重调用问题。这种方法保留了AC-和类ci，···，ci∈C，我们的目标是找到所有适用的实际TF-IDF得分，并提高类特定术语1K新新数据t的类。作为边信息。这样，我们就可以保留一个...下面我们讨论我们提出在构造TF-IDF特征时利用术语类关系的方法。4该方法我们希望对未见过的短文本进行分类，给定一组短文本及其类标签作为训练数据。考虑到这一目标，我们首先尝试确定衡量术语关系的方法基于TF-IDF的分数的icance，并且还能够对已知的重要术语给予额外的提升在上文第4.1节中描述的熵度量遭受类大小不平衡，主要针对较小的类。在这种方法中，我们在计算术语的重要性权重（IW）时还考虑了类大小。我们可以如下计算类别c的项ti的IW：tciIW（t）=与不同阶级的关系然后我们看到这些信息ckc可以用来将新的tweet分配给适当的类。对于固有地特定于某些类的术语，我们期望它们的分布集中在这些类中。另一方面，在一项研究中，其中kc表示类别c中存在的项的数目。现在，我们通过根据以下等式考虑熵和重要性来计算类归一化熵（CNE）。通用术语可以大致均匀地分布在iTF. IDF（ti）+（1）A（1）A（）0所有的班级。一种常见的识别存在或不存在这种集中是通过熵。我们计算熵TF. C（tc）=中文（简体）否则的项tiasH（ti）=−∑pi×log（pi）C分母k用作归一化超参数。附加增压的效果可以通过改变增压器的温度来控制其中pi是如果术语ti存在于文档中的概率5实验细节Ci则该文档来自C类。我们将pc估计为ti在类c中存在的次数与它在所有类中存在的次数的比率。然后，用于计算项ti的熵的公式可以被写为：在我们的实验中，我们使用具有线性核的支持向量机（SVM）[4]作为我们的分类器。许多研究[8]，[10]，[18]，[20]发现SVM在disas中使用TF-IDF特征向量效果最好称为场景。具有三种不同TF-IDF提升方法的SVMMH（ti）=−TCI×log2（tci）.（一）用于实验。TFIDF表示简单TF-IDF值，表示具有归一化熵的TF-IDF值我们c=1tciTCI第4.2节中的另一种方法表示为TF。. 我们也其中tci表示类别c中的项ti的计数，并且tci表示类别c中的项t i的计数。在[12]中讨论的方法被称为ECCD和de-ci m i4.1归一化熵提升一旦我们计算了语料库中每个术语的熵，我们就想得到一个术语对每个类的信息量（集中）的估计。我们提出了一种基于熵的方法，称为归一化熵提升。我们通过下式计算项ti的归一化熵（NE）：在表4 1中标记为TF.IDFECCD。5.1数据集三个灾难相关的推文数据集被用于实验。[6] 和2017年（FIRE17）[1]数据集，其中包含2015年尼泊尔地震期间发布的推文。FIRE16和FIRE17的类别详细信息分别在表1a和1b中提及。我们还测试了“社交媒体用于紧急救援和准备-NE（ti）=Hmax−H（ti）（2）HMaxnessSMERP17数据集的详细信息见表1c2。我们还通过合并创建了一个自定义数据集其中，Hmax = max ti Hti，并且Hmax表示所有熵的最大值。我们通过以下等式修改TF-IDF值，TF IDFN E（ti）= TF。IDF（ti）×NE（ti）（3）集中在几个类中的项应该具有较高的NE，而几乎均匀分布在类中的项应该具有较低的NE。虽然TF-IDF NE给出比传统TF-IDF更好的精确度，但是召回率非常低，如表4所示。我们在4.2节中提出了另一种方法来改进将SMERP17和FIRE16数据集表示为FIRE16+SMERP17 1d。由于类的数量在它们之间变化，我们将FIRE16映射到类似于SMERP17的4个类。两个数据集之间的映射在表3中给出。我们无法找到数据集FIRE16的类5的任何合适的映射，因此我们删除了仅在类5中出现的所有推文。所有上述数据集被分为训练集和测试集，分别占总可用标记数据的70%和30%。给出了类的详细信息1复制研究的源代码可以在github上找到2需要注意的是，数据计数可能与上述原始数据集不同笨蛋性能超过TF.IDFN E.ter不允许直接分享推文，推文在体验之前被下载如果它被删除或设为私有，则可能无法检索到片段和一些推文k的值。在5.3节中讨论了k的更详细的影响。主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1632<相关消息必须提及某些特定基础设施资源的损坏或恢复，例如结构（例如，水坝、房屋、移动塔），通信基础设施（例如，道路、跑道、铁路）、电力、移动或互联网连接等。没有提及基础设施资源的一般性陈述是不相关的。TREC格式。每个类的描述包含四个字段：类ID、标题（表示类的小标题）、desc（类的简短描述）和narr（该类应考虑的文本的详细叙述）。下面针对FIRE16数据集的类7和S的类1给出TREC格式的类描述的示例表1：班级编号、标题以及培训和测试数据计数(a) 数据集FIRE16的类特定详细信息类标题列车试验包含与基础设施7基础设施受损修复17874损坏或修复。每节课的平均推文数21191(b) 数据集FIRE17的类特定详细信息类标题列车试验1需求相关四六一二○七2可用性相关一四八五十五每节课的平均推文数三零四一三一(c) 数据集SMERP17的类特定详细信息类标题火车测试1可用资源228822需资源152623基础设施损坏、恢复、事故14056114救援活动非政府组织/政府255105每节课的平均推文数510215(d)数据集FIRE16 + SMERP17的类特定详细信息类标题列车试验1可用资源2需资源7334023671563基础设施受损修复16106584活动非政府组织/政府494237每节课的平均推文数8093545.2预处理在处理数据之前，我们通过依次执行下面提到的步骤对其进行(1) 首字母缩略词扩展：推文通常使用各种首字母缩略词编写。我们使用了文[9]中给出的词典的修改版本，我们自己增加了一些额外的术语所有的缩写词都被字典中给出的短语/单词所取代。(2) 删除表情符号和非ASCII字符：tweet的另一个普遍问题是表情符号。我们通过模式匹配搜索并删除所有表情符号和非ASCII字符。(3) 大小写折叠：在完成上述所有处理后，所有推文文本都转换为小写(4) 停用词和标点符号删除：在所有上述步骤完成后，我们从tweet中删除了nltk停用词3中存在的任何单词。(5) 特殊字符删除：我们删除了“#”，“@”等字符，但没有删除相应的标签或用户提及。此外，我们删除了一些其他特殊的词，如“rt”，“via”和“amp”，它们不是停止词，但不包含任何值。(6) URL和电话号码处理：任何推文中出现的URL3https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/stopwords.zip编号：SMERP-T1可用资源<desc>标识描述某些资源可用性的消息。<相关的信息必须提到一些资源的可用性，如食物，饮用水，住所，衣服，毯子，血液，人力资源，如志愿者，建造或支持基础设施的资源，如帐篷，滤水器，电力供应等。通知运输车辆的可用性以协助资源分配过程的信息也是相关的。此外，消息指示任何服务，如免费的wi-fi，短信，呼叫设施等。也将是相关的。此外，任何有关捐款的消息或公告也将是相关的。然而，没有提及任何资源的概括性陈述是不相关的。MERP17数据集。1可用资源4011752所需资源<num>编号：FMT7<标题>报告了哪些基础设施损坏和恢复情况<desc>说明：识别3456医疗资源可用医疗资源所需资源特定地点活动非政府组织/政府231751352521003653119主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1633····【· · ·】下面我们展示了一条原始形式的推文，经过预处理：表2：预处理前后的推文是-前：马耳他骑士团意大利医生救济团为意大利遭受强烈地震的地区提供帮助https://t.co/DDszXXhKgnAf-之三：医生意大利救济团命令马耳他提供帮助意大利发生强烈地震5.3参数调整和交叉验证我们有两种不同类型的超参数。第一个参数是等式（4）中的k的值，其决定6.1完整集合的结果-所有类一起表4列出了我们在第5.1节中提到的4个数据集上的实验的F1，精度和召回率。我们可以从表4中观察到，在TF-IDF公式中并入类别特定信息在所有数据集中显著增加了传统TF-IDF的分类器准确性。在NE方法（TF.IDFNE）中，我们可以清楚地看到，与传统TF.IDF相比，精确度有所增加，但召回率下降，从而降低了F1得分。虽然TF-IDF NE给出比传统TF-IDF更好的精确度，但它未能概括新数据点不包含来自现有训练集词汇表的任何重要术语的情况。结果，那些新项的NE值将非常低，并且TF.IDF NE对该数据点给出非常低的分数。这是由于等式（3）的乘法性质而发生的。这实际上是TF的局限性之一。IDF N E助推我们的方法TF的类特定助推.IDFCN E和规则approach. 当我们将提升值与TF-IDF相乘时，如果提升值低，则会降低整体得分支持向量机分类器参数优化我们首先在不调整正则化参数4的情况下调整提升参数k。我们考虑1、2、3、10作为k的值来调整提升参数，并且发现k = 2给出最佳结果5。我们固定了所有后续操作的k值我们在训练集上使用5折交叉验证来调整SVM的正则化参数。它的调谐值为[10 −1，10 0，10 1，，10 4]。支持向量机中的正则化参数表示对错误分类的重要程度。值越高表示未命中分类的成本越高然而，增量有一个折衷，因为它缩小了类之间的差距。因此，我们将得到一个具有小余量的分类器应当注意的是，在TF.IDF的情况下，CN E正则化参数在我们的提升参数调整完成之后被调整6结果在本节中，我们讨论了我们的研究结果有关的影响，TF-IDF提升灾害相关的鸣叫。4在调整增强参数k期间，将正则化参数设置为15表4中的TF.IDFCNE的结果是在调整正则化参数表3：FIRE16和SMERP17之间的类映射FIRE16型类SMERP17类类可用资源1可用资源1医疗资源可用3需资源2需资源2医疗资源再-要求的4资源特定日志阳离子5-非政府组织/政府政府6救援活动非政府组织/政府4基础设施损坏恢复7基础设施损坏，恢复，伤亡3TF.IDFN E.我们发现这种情况在较小的类（训练集中的数据点数量较少）中发生得更多，因为该类的词汇量非常有限。但是，在“精确”优先级高于“召回”优先级的情况下，此技术可能很有用。我们的第二种方法称为TF.IDF CNE比TF.IDF NE更好地推广，如表4所示。该技术能够更好地处理未看到的术语，并且对于较小的数据集工作良好，其中一些实际重要的术语可能在观察到的数据中没有足够的统计数据，因为它包含每个类的词汇大小。我们的方法给出了更好的结果比TF。IDFECCD。然而，我们仍然看到前两个数据集中的召回率较低。这是因为数据点的数量很少。这个问题的一个明显的补救措施是拥有更多的数据。 FIRE16和FIRE17平均每类分别有211和304个数据点，如表1a和1b所示。更多的数据将很可能包括词汇表中所有可能的重要术语。在SMERP17和FIRE16 + SMERP17数据集的情况下可以观察到这种行为，因为它们平均每个类别分别具有510（表1c）和809（表1d）个数据点。6.2单个类的结果在本节中，我们将更深入地研究我们提出的方法的单个类标签性能。表5、6、7和8提供了第4.2节中提到的所有方法的综合性能。我们看到更好的性能，我们提出的方法比传统的TF-IDF时，可用的训练数据是大的。我们的方法TF.IDF CNE仅对于FIRE16数据集的类别4表现得比传统的TF.IDF差，如表5d中所观察到的。还应该注意的是，FIRE16的类别4在所有数据集的所有类别中只有75个训练数据，如表1所示。图1a 、1b 、1c 、1d 分别显示了FIRE16、FIRE17、SMERP17和FIRE16 + SMERP17数据集的F1评分。第七章结论在本文中，我们研究了类特定的TF-IDF分数提升的有用性。很明显，通过主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1634表4：TF-IDF增强方法的综合结果数据集特征F1评分精准召回TF.IDF0.6936(a) 数据集FIRE16F1得分消防16消防17SMERP17FIRE16 +SMERP17TF.IDFN E0.6535 0.7396 0.6081国防军TF.IDFCN E0.6856 0.76430.6380TF.IDF0.8801TF.IDFN E0.8417 0.8647 0.8237以色列国防军TF.IDFCN E0.8767 0.88490.8692运输工具TF.IDF N E0.87710.88510.8711以色列国防军TF.IDFCN E0.88250.8994 0.8680运输队TF.IDF N E0.83650.83860.8350国防军TF.IDFCN E0.84520.8663 0.8260(b) 数据集FIRE17F1(c) 数据集SMERP17的不同类别F1评分(d) 数据集FIRE16 + SMERP17的不同类别的F1得分图1：不同班级的F1熵和术语频率的手段可以在纯TF-IDF评分方案上提高分类器的准确性我们展示了我们在4个不同的多标签灾害相关短文本数据集上工作的方法然而，我们也发现，如果类足够大，我们的方法效果更好。在我们未来的工作中，我们希望以这样的方式处理提升，以便它可以处理不平衡的班级规模。如果可以并入额外的维度信息以用于更好的性能，则可以探索另一种改进。致谢作者要感谢匿名评审的宝贵意见和有益的建议。本工作得到了以下项目的资助：EE/2016-17/034/MLA/MZAK/0235。主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1635表5：FIRE16的类别特定结果(a) 具有TF.IDF的FIRE16数据集的类特定结果F1级-得分精准召回1 0.6949 0.7028 0.68712 0.6708 0.6543 0.68833 0.7794 0.76004 0.4666 0.38885 0.5420 0.54712019 - 06 - 21 00：00：00表6：FIRE17的类别特定结果(a) 具有TF.IDF的FIRE17数据集的类特定结果F1级-得分精准召回1 0.9466 0.9512 0.942020.8035 0.7894 0.8181(b) 具有TF的FIRE17数据集的类特定结果。IDFNEF1级-得分精准召回70.92510.91890.931510.93830.92090.956520.74500.80850.6909(b) 具有TF的FIRE16数据集的类特定结果NEF1级-得分精准召回1 0.7288 0.7206 0.73712 0.7125 0.7215 0.70373 0.8205 0.84212019年12月31日50.5000 0.6285 0.41502019 - 06 - 21 00：00：002019 - 04 -22 00：00：00(c) 使用TF.IDFECCD的FIRE17数据集的类特定结果F1级-得分精准召回1 0.9496 0.9428 0.95652 0.7924 0.8235 0.7636(d)具有TF的FIRE17数据集的类特定结果。IDFCNEF1级-得分精准召回10.94960.94280.9428(c)使用TF.IDFECCD的20.80370.82690.7818F1级-得分精准召回10.73650.73030.742820.73740.74680.728330.82420.86510.770040.42300.68750.305550.56170.69440.471660.59990.69230.529470.88730.92640.8513(d)具有TF的FIRE16数据集的类特定结果。IDFCNEF1级-得分精准召回1 0.7380 0.7277 0.74852 0.7530 0.7530 0.75302019 - 04 - 28 00：002019 - 04 - 26 00：00：002016年12月31日2019 - 05 - 29 00：00：002019 - 04 - 25 00：00：00主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1636表7：SMERP17的类别特异性结果(a)具有TF.IDF的SMERP17数据集的类别特定结果F1级-得分精准召回表8：FIRE16 + SMERP17的类别特异性结果(a) 具有TF.IDF的FIRE16 + SMERP17数据集的类特定结果F1级-得分精准召回10.79310.75000.841410.78080.81180.752020.78330.79660.770420.76220.83850.698730.99010.98850.991830.97490.97710.972640.87560.91660.838040.69570.68290.7089(b) 具有TF的SMERP17数据集的类别特定结果NEF1级-得分精准召回1 0.8352 0.8068 0.8658(b) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFNEF1级-得分精准召回(c) 具有TF.IDFECCD的F1级-得分精准召回1 0.8148 0.8250 0.804820.77470.8600.70493 0.9934 0.99182019 - 04 - 28 00：00：00(d) 具有TF的SMERP17数据集的类别特定结果。IDFCNEF1级-得分精准召回1 0.8352 0.8255 0.86582 0.7931 0.8363 0.75403 0.9918 0.98864 0.9000 0.9473 0.8571(c) 具有TF.IDFECCD的FIRE16 + SMERP17数据集的类特定结果F1级-得分精准召回1 0.8446 0.8768 0.81472 0.8054 0.8613 0.75643 0.9831 0.99074 0.7441 0.7457(d) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFCNEF1级-得分精准召回1 0.8455 0.8724 0.820120.8095 0.8623 0.76283 0.9802 0.98174 0.7457 0.748920.77580.81810.737710.83540.84830.822830.99020.98540.995020.79730.81330.782040.90730.93000.885730.97560.97560.975640.73770.71710.7594主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1637引用[1] MoumitaBasu、AnuragRoy、KripabandhuGhosh、SomprakashBandyopadhyay和Saptarshi Ghosh。2017年。灾难情境下的微博检索：一种新的评估测试集。在第一届国际工作坊关于利用社交媒体进行紧急救援和准备的会议记录中，与欧洲信息检索会议共同举办，SMERP@ECIR 2017 ，阿伯丁，英国。 22-31 http://ceur-ws.org/Vol-1832/SMERP_2017_peer_review_paper_3.pdf[2] Iyad Batal和Milos Hauskrecht。2009年通过使用监督术语加权方案提高KNN文本分类准确率。第18届ACM信息与知识管理会议论文集。ACM，2041[3] Constantinos Boulis和Mari Ostendorf2005年通过用冗余补偿的二元组来增强词袋表示的文本分类。在proc 数据挖掘中的特征选择国际研讨会。Citeseer，9-16.[4] 科琳娜 · 科尔特斯和弗拉基米尔 · 瓦普尼克一九九五年支持向量网络。Machinelearning 20，3（1995），273-297.[5] 乔治·福尔曼。2008. BNS功能缩放：一种改进的基于TF-IDF的SVM文本分类表示方法。第17届ACM信息与知识管理会议论文集。ACM，263[6] Saptarshi Ghosh和Kripabandhu Ghosh。2016. FIRE 2016微博主题概述：从灾难期间发布的微博中提取信息。在FIRE 2016-Forum for InformationRetrieval Evaluation工作笔记中印度加尔各答。56-61. http://ceur-ws.org/Vol-1737/T2-1.pdf[7] SaptarshiGhosh ， KripabandhuGhosh ， DebasisGanguly ， TanmoyChakraborty，Gareth J.F. Jones和Marie-Francine Moens。2017. ECIR 2017研讨会关于利用社交媒体进行紧急救援和准备（ SMERP 2017 ）。 SIGIRForum51，1（Aug. 2017），36-41. https://doi.org/10.1145/3130332的网站。3130338[8] Samujjwal Ghosh，Srijith P.K.，和莫南德拉·桑卡·德萨尔卡2017年。使用社交媒体对灾难场景中的可操作见解进行 InternationalJournal of Advances inEngineering Sciences 9，4（2017年12月），224-237。https：//doi.org/10.1007/s12572-017-0197-2[9] Muhammad Imran ， Prasenjit Mitra ， and Carlos Castillo.2016 年。Twitter作为生命线：人类注释的Twitter语料库用于危机相关消息的NLP。CoRRabs/1605.05894（2016）。arXiv：1605.05894http://arxiv.org/abs/1605.05894[10] 兰迪·乔伊和玛格诺·文泰恩2017年。微博中地方语言灾害相关推文的分类研究。《Asia Pacific Journal of Multidisciplinary Research》[11] Prannay Khosla 、 Moumita Basu 、 Kripabandhu Ghosh 和 Saptarshi Ghosh 。2017年。灾后救助微博检索：应用和比较神经IR模型。arXiv预印本arXiv：1707.06112（2017）。[12] Christine Largeron、Christophe Moulin和Mathias Géry。2011年。基于熵的文本分类特征选择在2011年ACM Symposiumon Applied Computing会议录中。ACM，924[13] Hongmin Li ，Doina Caragea ， Cornelia Caragea ，and Nic Herndon.2017年。用域适应方法通过推文分类辅助的灾害响应《突发事件与危机管理杂志》（Journal of Contingencies and Crisis Management，2017）[14] Ying Liu，Han Tong Loh，and Aixin Sun.2009年不平衡文本分类：一种术语加权方法。Expert systems with Applications36，1（2009），690[15] Xinghua Lu，Bin Zheng，Atulya Velivelli，and ChengXiang Zhai.2006年通过语义丰富的表示和训练数据增强来增强文本分类。 Journal of theAmerican Medical Informatics Association13，5（2006），526[16] Justin Martineau和Tim Finin2009年 Delta TFIDF：一种用于情感分析的改进特征空间。Icwsm9（2009），106.[17] Tomas Mikolov、Ilya Sutskever、Ka</div> <div class="more_warp" data-v-03e86d15><div class="bottom_hover" data-v-03e86d15>  <p class="downText" data-v-03e86d15> 下载后可阅读完整内容，剩余1页未读，<a data-v-03e86d15>立即下载<i class="el-icon-arrow-down" style="margin-left: 4px" data-v-03e86d15></i></a></p></div></div></div></div> </div></div></div></div> <div class="space" data-v-1ad8b000></div></div>  <div id="recommend" type="recommend" class="nav-item nav-item-recommend"><div class="el-card is-never-shadow"><div class="el-card__body"><div class="recommend-list" data-v-6b3d4552><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://img-home.csdnimg.cn/images/20210720083512.png" alt="pdf" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="0" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-1-21123860-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-1-21123860-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fdownload.csdn.net%2Fdownload%2Fu013883025%2F21123860&spm=1003.2020.3001.6616.1" href="https://download.csdn.net/download/u013883025/21123860" title="基于Word2vec和改进TF-IDF算法的深度学习模型研究.pdf" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>基于Word2vec和改进TF-IDF算法的深度学习模型研究.pdf</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="0" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-1-21123860-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-1-21123860-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fdownload.csdn.net%2Fdownload%2Fu013883025%2F21123860&spm=1003.2020.3001.6616.1" href="https://download.csdn.net/download/u013883025/21123860" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>基于Word2vec和改进TF-IDF算法的深度学习模型研究.pdf</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://img-home.csdnimg.cn/images/20210720083331.png" alt="docx" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="1" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-2-5265895-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-2-5265895-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fdownload.csdn.net%2Fdownload%2Fu010266343%2F5265895&spm=1003.2020.3001.6616.2" href="https://download.csdn.net/download/u010266343/5265895" title="TF-IDF与余弦相似性的应用" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>TF-IDF与余弦相似性的应用</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="1" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-2-5265895-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-2-5265895-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fdownload.csdn.net%2Fdownload%2Fu010266343%2F5265895&spm=1003.2020.3001.6616.2" href="https://download.csdn.net/download/u010266343/5265895" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>TF-IDF算法的优点是简单快速，结果比较符合实际情况</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://img-home.csdnimg.cn/images/20210720083327.png" alt="doc" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="2" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-3-11154121-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-3-11154121-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fdownload.csdn.net%2Fdownload%2Fyuqianly%2F11154121&spm=1003.2020.3001.6616.3" href="https://download.csdn.net/download/yuqianly/11154121" title="基于TF-IDF算法抽取" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>基于TF-IDF算法抽取</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="2" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-3-11154121-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-3-11154121-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fdownload.csdn.net%2Fdownload%2Fyuqianly%2F11154121&spm=1003.2020.3001.6616.3" href="https://download.csdn.net/download/yuqianly/11154121" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>实现基于TF-IDF算法抽取，对关键词进行抽取的算法，程序</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="3" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-4-16bc753621ea4ce3b3ea286e20016f0c-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-4-16bc753621ea4ce3b3ea286e20016f0c-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F16bc753621ea4ce3b3ea286e20016f0c&spm=1003.2020.3001.6616.4" href="https://wenku.csdn.net/answer/16bc753621ea4ce3b3ea286e20016f0c" title="tf-idf算法和应用场景" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>tf-idf算法和应用场景</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="3" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-4-16bc753621ea4ce3b3ea286e20016f0c-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-4-16bc753621ea4ce3b3ea286e20016f0c-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F16bc753621ea4ce3b3ea286e20016f0c&spm=1003.2020.3001.6616.4" href="https://wenku.csdn.net/answer/16bc753621ea4ce3b3ea286e20016f0c" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>TF-IDF算法通过统计每个词语在文档中出现的频率和在整个文集中出现的频率，计算出每个词语的TF-IDF值，从而评估其重要程度。 TF-IDF算法主要应用于文本分类、信息检索、搜索引擎、自然语言处理等领域。例如，在搜索...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="4" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-5-ce73de4763964faea8811bd87aa072a3-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-5-ce73de4763964faea8811bd87aa072a3-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2Fce73de4763964faea8811bd87aa072a3&spm=1003.2020.3001.6616.5" href="https://wenku.csdn.net/answer/ce73de4763964faea8811bd87aa072a3" title="TF-IDF 算法应用举例" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>TF-IDF 算法应用举例</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="4" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-5-ce73de4763964faea8811bd87aa072a3-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-5-ce73de4763964faea8811bd87aa072a3-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2Fce73de4763964faea8811bd87aa072a3&spm=1003.2020.3001.6616.5" href="https://wenku.csdn.net/answer/ce73de4763964faea8811bd87aa072a3" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>TF-IDF算法是一种经典的文本信息处理算法，它可以用于文本分类、信息检索、关键词提取等领域。...总之，TF-IDF算法是一种非常实用的文本信息处理算法，可以应用于各种领域，帮助我们更好地理解和利用文本信息。</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="5" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-6-7c36717132e449eda9a7b6a76f7a140f-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-6-7c36717132e449eda9a7b6a76f7a140f-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F7c36717132e449eda9a7b6a76f7a140f&spm=1003.2020.3001.6616.6" href="https://wenku.csdn.net/answer/7c36717132e449eda9a7b6a76f7a140f" title="LSI算法和tf-idf算法的区别" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>LSI算法和tf-idf算法的区别</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="5" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-6-7c36717132e449eda9a7b6a76f7a140f-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-6-7c36717132e449eda9a7b6a76f7a140f-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F7c36717132e449eda9a7b6a76f7a140f&spm=1003.2020.3001.6616.6" href="https://wenku.csdn.net/answer/7c36717132e449eda9a7b6a76f7a140f" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>LSI算法和tf-idf算法都是用于文本相似性计算的算法，但它们的思路和实现方式有所不同： 1. LSI算法：LSI算法是一种基于语义的文本相似性计算方法，其核心思想是将文本数据转换为低维空间向量来进行文本相似性计算。...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="6" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-7-e50741a99e5f406095642f968ed2a265-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-7-e50741a99e5f406095642f968ed2a265-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2Fe50741a99e5f406095642f968ed2a265&spm=1003.2020.3001.6616.7" href="https://wenku.csdn.net/answer/e50741a99e5f406095642f968ed2a265" title="TF-IDF算法概念及原理" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>TF-IDF算法概念及原理</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="6" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-7-e50741a99e5f406095642f968ed2a265-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-7-e50741a99e5f406095642f968ed2a265-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2Fe50741a99e5f406095642f968ed2a265&spm=1003.2020.3001.6616.7" href="https://wenku.csdn.net/answer/e50741a99e5f406095642f968ed2a265" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>TF-IDF算法基于词频和逆文档频率两个指标来衡量一个词在文本中的重要性。在TF-IDF算法中，TF（Term Frequency）指的是某个词在文本中出现的频率，IDF（Inverse Document Frequency）指的是某个词在所有文档中出现...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="7" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-8-5eb61c604f4145c398dee728ee166347-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-8-5eb61c604f4145c398dee728ee166347-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F5eb61c604f4145c398dee728ee166347&spm=1003.2020.3001.6616.8" href="https://wenku.csdn.net/answer/5eb61c604f4145c398dee728ee166347" title="tf-idf算法和sentence-transformers算法的区别" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>tf-idf算法和sentence-transformers算法的区别</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="7" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-8-5eb61c604f4145c398dee728ee166347-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-8-5eb61c604f4145c398dee728ee166347-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F5eb61c604f4145c398dee728ee166347&spm=1003.2020.3001.6616.8" href="https://wenku.csdn.net/answer/5eb61c604f4145c398dee728ee166347" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>因此，TF-IDF算法根据一个词在文档中出现的频率和在整个语料库中出现的频率来计算每个词的权重。这样，每篇文档都可以表示为一个向量，这个向量中每个维度代表一个词的权重。 Sentence-Transformers算法则是基于...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="8" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-9-2cd2e9bf868911ed9a8700163e34985e-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-9-2cd2e9bf868911ed9a8700163e34985e-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F2cd2e9bf868911ed9a8700163e34985e&spm=1003.2020.3001.6616.9" href="https://wenku.csdn.net/answer/2cd2e9bf868911ed9a8700163e34985e" title="TF-IDF算法思想" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>TF-IDF算法思想</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="8" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-9-2cd2e9bf868911ed9a8700163e34985e-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-9-2cd2e9bf868911ed9a8700163e34985e-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F2cd2e9bf868911ed9a8700163e34985e&spm=1003.2020.3001.6616.9" href="https://wenku.csdn.net/answer/2cd2e9bf868911ed9a8700163e34985e" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>TF-IDF算法的思想是将TF值和IDF值结合起来，计算一个词在文档中的重要程度。具体做法是将词频TF乘以逆文档频率IDF，得到的结果即为TF-IDF值。 TF-IDF算法的作用是过滤掉在语料库中出现频率较高的普通词语，突出在...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="9" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-10-1m8fmmpp8u-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-10-1m8fmmpp8u-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F1m8fmmpp8u&spm=1003.2020.3001.6616.10" href="https://wenku.csdn.net/answer/1m8fmmpp8u" title="TF-IDF算法分析岗位需求关键词" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>TF-IDF算法分析岗位需求关键词</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="9" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-10-1m8fmmpp8u-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-10-1m8fmmpp8u-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F1m8fmmpp8u&spm=1003.2020.3001.6616.10" href="https://wenku.csdn.net/answer/1m8fmmpp8u" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>在分析岗位需求关键词时，TF-IDF算法可以帮助我们确定哪些词在招聘信息中具有较高的重要性。 TF-IDF算法的计算公式如下： TF-IDF = TF * IDF 其中，TF表示词频（Term Frequency），指的是某个词在文档中出现的频率...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="10" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-11-2of2v7ducj-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-11-2of2v7ducj-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F2of2v7ducj&spm=1003.2020.3001.6616.11" href="https://wenku.csdn.net/answer/2of2v7ducj" title="什么是tf-idf算法？" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>什么是tf-idf算法？</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="10" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-11-2of2v7ducj-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-11-2of2v7ducj-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F2of2v7ducj&spm=1003.2020.3001.6616.11" href="https://wenku.csdn.net/answer/2of2v7ducj" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>TF-IDF算法是一种用于信息检索和文本挖掘的常用技术。TF代表词频（Term Frequency）...在信息检索和文本挖掘任务中，我们可以使用TF-IDF算法来衡量一个词语与文档之间的相关性，从而进行相关性排序和关键词提取等操作。</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="11" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-12-e7220b5800ac488cbbf0f6c302e2a02c-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-12-e7220b5800ac488cbbf0f6c302e2a02c-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2Fe7220b5800ac488cbbf0f6c302e2a02c&spm=1003.2020.3001.6616.12" href="https://wenku.csdn.net/answer/e7220b5800ac488cbbf0f6c302e2a02c" title="TF-IDF算法伪代码" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>TF-IDF算法伪代码</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="11" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-12-e7220b5800ac488cbbf0f6c302e2a02c-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-12-e7220b5800ac488cbbf0f6c302e2a02c-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2Fe7220b5800ac488cbbf0f6c302e2a02c&spm=1003.2020.3001.6616.12" href="https://wenku.csdn.net/answer/e7220b5800ac488cbbf0f6c302e2a02c" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>以下是基于TF-IDF算法的文本处理的伪代码： 1. 文本预处理 1.1 分词：将文本按照单词或字符进行...注意：以上是基本的TF-IDF算法的伪代码，实际应用中还需要考虑一些优化和改进，如加入词性标注、使用BM25算法等。</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="12" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-13-d1835b7169b20081381a57347da5f0f1-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-13-d1835b7169b20081381a57347da5f0f1-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2Fd1835b7169b20081381a57347da5f0f1&spm=1003.2020.3001.6616.13" href="https://wenku.csdn.net/answer/d1835b7169b20081381a57347da5f0f1" title="tf-idf算法改进python实现" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>tf-idf算法改进python实现</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="12" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-13-d1835b7169b20081381a57347da5f0f1-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-13-d1835b7169b20081381a57347da5f0f1-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2Fd1835b7169b20081381a57347da5f0f1&spm=1003.2020.3001.6616.13" href="https://wenku.csdn.net/answer/d1835b7169b20081381a57347da5f0f1" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>2. 调整权重：TF-IDF算法中，词频和逆文档频率的权重默认是相等的，但实际上不同的文本可能需要不同的权重。可以通过调整权重来提高算法的效果。 3. 使用n-gram模型：n-gram模型是指将文本中的词语按照一定的顺序...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="13" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-14-9tjbyyin4h-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-14-9tjbyyin4h-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F9tjbyyin4h&spm=1003.2020.3001.6616.14" href="https://wenku.csdn.net/answer/9tjbyyin4h" title="tf-idf算法优缺点" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>tf-idf算法优缺点</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="13" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-14-9tjbyyin4h-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-14-9tjbyyin4h-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F9tjbyyin4h&spm=1003.2020.3001.6616.14" href="https://wenku.csdn.net/answer/9tjbyyin4h" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>2. 考虑词频和文档频率：TF-IDF综合考虑了词在文档中的频率和在整个文档集合中的频率，能够准确反映词的重要性。 3. 适用于文本分类和信息检索：TF-IDF广泛应用于文本分类、信息检索等任务中，能够帮助快速定位...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="14" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-15-670e7e3828aff2da69de17f0383fb051-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-15-670e7e3828aff2da69de17f0383fb051-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F670e7e3828aff2da69de17f0383fb051&spm=1003.2020.3001.6616.15" href="https://wenku.csdn.net/answer/670e7e3828aff2da69de17f0383fb051" title="nltk实现tf-idf算法python" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>nltk实现tf-idf算法python</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="14" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-15-670e7e3828aff2da69de17f0383fb051-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-15-670e7e3828aff2da69de17f0383fb051-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F670e7e3828aff2da69de17f0383fb051&spm=1003.2020.3001.6616.15" href="https://wenku.csdn.net/answer/670e7e3828aff2da69de17f0383fb051" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>tf-idf算法是一种用于文本挖掘和信息检索的常用算法，它可以计算一个词在文本中的重要性。在nltk中，可以使用TfidfVectorizer类来实现tf-idf算法。首先需要导入nltk和TfidfVectorizer类： ``` import nltk from ...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="15" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-16-67d1254f193f4c039132fc88bdcd5f93-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-16-67d1254f193f4c039132fc88bdcd5f93-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F67d1254f193f4c039132fc88bdcd5f93&spm=1003.2020.3001.6616.16" href="https://wenku.csdn.net/answer/67d1254f193f4c039132fc88bdcd5f93" title="垃圾短信分类TF-IDF算法" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>垃圾短信分类TF-IDF算法</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="15" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-16-67d1254f193f4c039132fc88bdcd5f93-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-16-67d1254f193f4c039132fc88bdcd5f93-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F67d1254f193f4c039132fc88bdcd5f93&spm=1003.2020.3001.6616.16" href="https://wenku.csdn.net/answer/67d1254f193f4c039132fc88bdcd5f93" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>该算法基于文本中单词的出现频率和在文本集合中的重要性进行计算，从而识别文本的主题或类别。在垃圾短信分类中，我们可以使用TF-IDF算法来计算每个单词在短信中的重要性，然后根据这些重要性来将短信分为垃圾短信...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="16" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-17-2p5dm8d0mh-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-17-2p5dm8d0mh-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F2p5dm8d0mh&spm=1003.2020.3001.6616.17" href="https://wenku.csdn.net/answer/2p5dm8d0mh" title="textrank算法和tf-IDF算法优缺点" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>textrank算法和tf-IDF算法优缺点</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="16" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-17-2p5dm8d0mh-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-17-2p5dm8d0mh-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F2p5dm8d0mh&spm=1003.2020.3001.6616.17" href="https://wenku.csdn.net/answer/2p5dm8d0mh" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>TF-IDF算法是一种常用的文本特征提取方法，它通过计算每个单词在文本中的出现频率和在整个语料库中的出现频率来计算每个单词的重要性。相比于TextRank算法，TF-IDF算法的优点在于： 1. 算法简单易懂，容易实现； 2....</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="17" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-18-664kcpoopx-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-18-664kcpoopx-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F664kcpoopx&spm=1003.2020.3001.6616.18" href="https://wenku.csdn.net/answer/664kcpoopx" title="tf-idf算法和textrank算法" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>tf-idf算法和textrank算法</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="17" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-18-664kcpoopx-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-18-664kcpoopx-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F664kcpoopx&spm=1003.2020.3001.6616.18" href="https://wenku.csdn.net/answer/664kcpoopx" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>TF-IDF算法和TextRank算法都是用于文本处理的算法，但它们的应用场景和实现方式有所不同。 TF-IDF算法是一种统计方法，用于评估一个词在文档集或一个语料库中的重要程度。它的值越大，表示这个词在整个语料库中就越...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="18" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-19-dc443f8943f4456687f1f3006ac3af7d-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-19-dc443f8943f4456687f1f3006ac3af7d-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2Fdc443f8943f4456687f1f3006ac3af7d&spm=1003.2020.3001.6616.19" href="https://wenku.csdn.net/answer/dc443f8943f4456687f1f3006ac3af7d" title="tf-idf算法提取关键词" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>tf-idf算法提取关键词</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="18" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-19-dc443f8943f4456687f1f3006ac3af7d-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-19-dc443f8943f4456687f1f3006ac3af7d-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2Fdc443f8943f4456687f1f3006ac3af7d&spm=1003.2020.3001.6616.19" href="https://wenku.csdn.net/answer/dc443f8943f4456687f1f3006ac3af7d" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>TF-IDF算法的主要思想是，一个词在一篇文档中出现的次数（Term Frequency，简称TF）越多，同时在所有文档中出现的次数越少（Inverse Document Frequency，简称IDF），则这个词在这篇文档中的重要程度越高。...</span></a></div></div></div><div class="flex mb-16 item" data-v-6b3d4552><div class="mr-16" data-v-6b3d4552><img width="48" height="48px" src="https://csdnimg.cn/download_wenku/file_type_ask_c1.png" class="bor-r" data-v-6b3d4552></div> <div class="flex-1" data-v-6b3d4552><div class="fs-md flex" data-v-6b3d4552><a index="19" target="_blank" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-20-40270cec039811eeb1bbfa163eeb3507-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-20-40270cec039811eeb1bbfa163eeb3507-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F40270cec039811eeb1bbfa163eeb3507&spm=1003.2020.3001.6616.20" href="https://wenku.csdn.net/answer/40270cec039811eeb1bbfa163eeb3507" title="python使用 tf-idf 算法提取关键词" class="flex-1" data-v-6b3d4552><h4 class="flex-1 line" data-v-6b3d4552>python使用 tf-idf 算法提取关键词</h4> </a></div> <div class="mt-4 pr-16" data-v-6b3d4552><a target="_blank" index="19" data-report-query="utm_medium=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-20-40270cec039811eeb1bbfa163eeb3507-download-d8w814d85u.315%5Ev3%5Econtrol_v4&depth_1-utm_source=distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-20-40270cec039811eeb1bbfa163eeb3507-download-d8w814d85u.315%5Ev3%5Econtrol_v4&dest=https%3A%2F%2Fwenku.csdn.net%2Fanswer%2F40270cec039811eeb1bbfa163eeb3507&spm=1003.2020.3001.6616.20" href="https://wenku.csdn.net/answer/40270cec039811eeb1bbfa163eeb3507" class="line" style="color:#777888;" data-v-6b3d4552><span data-v-6b3d4552>具体来说，TF-IDF算法把一个词在一个文档中的频率（TF）和在所有文档中出现的频率（IDF）结合起来计算该词的重要性。在Python中，我们可以使用scikit-learn库中的TfidfVectorizer类来实现该算法，它能够自动将文本...</span></a></div></div></div></div></div></div></div> <div class="space"></div> </div> </div> <div class="layout-right" data-v-1caecc57><div data-v-76a4b887 data-v-1caecc57><div class="file-owner-card" data-v-18de6965 data-v-76a4b887><div class="card-content" data-v-18de6965><div class="content-top" data-v-18de6965><div class="logo" style="cursor:pointer;" data-v-18de6965><img src="https://profile-avatar.csdnimg.cn/default.jpg!1" class="img-logo" data-v-18de6965> </div> <div class="detail" data-v-18de6965><div class="username" style="cursor:pointer;" data-v-18de6965>cpongm</div> <ul class="d-ib mt-4" data-v-18de6965><li class="fans-count d-ib mr-8" data-v-18de6965> 粉丝: 4 </li> <li class="d-ib" data-v-18de6965><span class="fans-count" data-v-18de6965>资源:</span> <a rel="nofollow" href="https://download.csdn.net/user/cpongm" target="_blank" class="highlight-font d-ib" data-v-18de6965>2万+</a></li></ul></div> <div class="ml-8" data-v-18de6965><button type="button" class="el-button el-button--default el-button--small" data-v-18de6965><span> 私信 </span></button></div></div></div></div>  <div class="upload-sidebar mt-10" data-v-d2529d5a data-v-76a4b887><div class="upload-button" data-v-d2529d5a><div class="btn" data-v-d2529d5a><i class="el-icon-plus" data-v-d2529d5a></i> 上传资源快速赚钱 </div></div> <div class="user-info" data-v-d2529d5a><ul data-v-d2529d5a><li data-v-d2529d5a><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/source.ac4c7e83.png" data-v-d2529d5a> <span data-v-d2529d5a>我的内容管理</span> <span class="tip" data-v-d2529d5a> 收起 <i class="el-icon-arrow-down" data-v-d2529d5a></i></span></li> <div class="ml-16" data-v-d2529d5a data-v-d2529d5a><li data-v-d2529d5a><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/source.ac4c7e83.png" data-v-d2529d5a> <span data-v-d2529d5a> 我的资源</span> <span class="tip" data-v-d2529d5a> 快来上传第一个资源 <i class="el-icon-arrow-right" data-v-d2529d5a></i></span></li> <li data-v-d2529d5a><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/source-wallet.b4362fe7.png" data-v-d2529d5a> <span data-v-d2529d5a> 我的收益 </span> <div class="tip" data-v-d2529d5a><span data-v-d2529d5a>登录查看自己的收益</span> <i class="el-icon-arrow-right" data-v-d2529d5a></i></div></li> <li data-v-d2529d5a><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/source-points.06ca666d.png" data-v-d2529d5a> <span data-v-d2529d5a>我的积分</span> <span class="tip" data-v-d2529d5a> 登录查看自己的积分 <i class="el-icon-arrow-right" data-v-d2529d5a></i></span></li> <li data-v-d2529d5a><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/source-c.87c53263.png" data-v-d2529d5a> <span data-v-d2529d5a>我的C币</span> <span class="tip" data-v-d2529d5a> 登录后查看C币余额 </span> <i class="el-icon-arrow-right" data-v-d2529d5a></i></li> <li data-v-d2529d5a><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/source-collect.0655e61c.png" data-v-d2529d5a> <span data-v-d2529d5a> 我的收藏</span> <div class="tip" data-v-d2529d5a><i class="el-icon-arrow-right" data-v-d2529d5a></i></div></li> <li data-v-d2529d5a><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/source-download.f1f40a4f.png" data-v-d2529d5a> <span data-v-d2529d5a>我的下载 </span> <div class="tip" data-v-d2529d5a><i class="el-icon-arrow-right" data-v-d2529d5a></i></div></li> <li data-v-d2529d5a><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/source-help.7427e86d.png" data-v-d2529d5a> <span data-v-d2529d5a> 下载帮助 </span> <div class="tip" data-v-d2529d5a><i class="el-icon-arrow-right" data-v-d2529d5a></i></div></li></div></ul></div> <div class="user-tip" data-v-d2529d5a><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png" data-v-d2529d5a> <div class="el-carousel el-carousel--vertical" data-v-d2529d5a><div class="el-carousel__container"></div></div></div></div> <div class="vip-equity-box mt-10" data-v-5f71935c data-v-76a4b887><div class="section1" data-v-5f71935c><h4 class="title" data-v-5f71935c>会员权益专享</h4> <div class="cont bg1" data-v-5f71935c><div class="item-list" data-v-5f71935c><a target="_blank" href="https://devbit.csdn.net/pdf/imgtotext?utm_source=xiangqingye" class="item" data-v-5f71935c><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/icon3.d093cb5b.png" class="icon" data-v-5f71935c> <span class="text" data-v-5f71935c>图片转文字</span></a><a target="_blank" href="https://devbit.csdn.net/pdf/pdftotext?utm_source=xiangqingye" class="item" data-v-5f71935c><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/icon2.1059df89.png" class="icon" data-v-5f71935c> <span class="text" data-v-5f71935c>PDF转文字</span></a><a target="_blank" href="https://devbit.csdn.net/pdf/pdftoword?utm_source=xiangqingye" class="item" data-v-5f71935c><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/icon5.aa001cf9.png" class="icon" data-v-5f71935c> <span class="text" data-v-5f71935c>PDF转Word</span></a><a target="_blank" href="https://devbit.csdn.net/pdf/pdfaddware?utm_source=xiangqingye" class="item" data-v-5f71935c><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/icon1.6a570976.png" class="icon" data-v-5f71935c> <span class="text" data-v-5f71935c>PDF加水印</span></a></div> <a target="_blank" href="https://mall.csdn.net/vip?spm=1055.2568" class="btn" data-v-5f71935c><span class="text1" data-v-5f71935c>全年可省5，000元</span><span style="color:#fff" data-v-5f71935c>立即开通</span></a></div></div></div>  <div class="sticky-content" data-v-76a4b887><div class="latest-file-card mt-10" data-v-f7fbb29e data-v-76a4b887><h3 class="title" data-v-f7fbb29e>最新资源</h3> <ul data-v-f7fbb29e><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/c65b460ttn" target="_blank" class="title-new" data-v-f7fbb29e> zigbee-cluster-library-specification </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/77312nm2h3" target="_blank" class="title-new" data-v-f7fbb29e> JSBSim Reference Manual </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/7tp4av6ah3" target="_blank" class="title-new" data-v-f7fbb29e> c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/7tdrin4mbd" target="_blank" class="title-new" data-v-f7fbb29e> 建筑供配电系统相关课件.pptx </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/4wz7u4cmws" target="_blank" class="title-new" data-v-f7fbb29e> 企业管理规章制度及管理模式.doc </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/6im7vk7q8h" target="_blank" class="title-new" data-v-f7fbb29e> vb打开摄像头.doc </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/12ahyfn4wx" target="_blank" class="title-new" data-v-f7fbb29e> 云计算-可信计算中认证协议改进方案.pdf </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/2u87w34or8" target="_blank" class="title-new" data-v-f7fbb29e> [详细完整版]单片机编程4.ppt </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/46ui5uwewo" target="_blank" class="title-new" data-v-f7fbb29e> c语言常用算法.pdf </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/7s36nj9ex1" target="_blank" class="title-new" data-v-f7fbb29e> c++经典程序代码大全.pdf </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/5h1xz8pcdq" target="_blank" class="title-new" data-v-f7fbb29e> 单片机数字时钟资料.doc </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/79h2eo7ftg" target="_blank" class="title-new" data-v-f7fbb29e> 11项目管理前沿1.0.pptx </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/1qzt78v65r" target="_blank" class="title-new" data-v-f7fbb29e> 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/2q4370ov89" target="_blank" class="title-new" data-v-f7fbb29e> 智慧交通综合解决方案.pptx </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/ewxh862fyu" target="_blank" class="title-new" data-v-f7fbb29e> 建筑防潮设计-PowerPointPresentati.pptx </a></li><li data-v-f7fbb29e><a href="https://wenku.csdn.net/doc/2k7jfj7omn" target="_blank" class="title-new" data-v-f7fbb29e> SPC统计过程控制程序.pptx </a></li></ul></div> <div class="mt-10" data-v-33bcb4e9 data-v-76a4b887> </div> <div class="feedback mt-10" data-v-d951529e data-v-76a4b887><div class="left-content" data-v-d951529e><span data-v-d951529e>资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！</span> <a rel="nofollow" href="https://gitcode.net/csdn/download/-/issues" target="_blank" class="btn mt-8" data-v-d951529e> 点击此处反馈 <img src="https://img-home.csdnimg.cn/images/20220527035711.png" data-v-d951529e></a></div> <img src="https://img-home.csdnimg.cn/images/20220527035111.png" class="right-img ml-16" data-v-d951529e></div></div></div></div></div>          <div class="el-dialog__wrapper" style="display:none;" data-v-1caecc57><div role="dialog" aria-modal="true" aria-label="dialog" class="el-dialog lottery" style="margin-top:15vh;width:500px;"><div class="el-dialog__header"><span class="el-dialog__title"></span></div></div></div> <div class="el-dialog__wrapper coupon-dialog" style="display:none;" data-v-7e9c3e49 data-v-1caecc57><div role="dialog" aria-modal="true" aria-label="dialog" class="el-dialog" style="margin-top:15vh;width:422px;"><div class="el-dialog__header"><span class="el-dialog__title"></span><button type="button" aria-label="Close" class="el-dialog__headerbtn"><i class="el-dialog__close el-icon el-icon-close"></i></button></div></div></div> <div class="el-dialog__wrapper" style="display:none;" data-v-63e113a1 data-v-1caecc57><div role="dialog" aria-modal="true" aria-label="安全验证" class="el-dialog" style="margin-top:15vh;width:300px;"><div class="el-dialog__header"><span class="el-dialog__title">安全验证</span><button type="button" aria-label="Close" class="el-dialog__headerbtn"><i class="el-dialog__close el-icon el-icon-close"></i></button></div></div></div> <div class="el-dialog__wrapper copy-check" style="display:none;" data-v-0a933a23 data-v-1caecc57><div role="dialog" aria-modal="true" aria-label="文档复制为VIP权益，开通VIP直接复制" class="el-dialog el-dialog--center" style="margin-top:15vh;width:470px;"><div class="el-dialog__header"><span class="el-dialog__title">文档复制为VIP权益，开通VIP直接复制</span><button type="button" aria-label="Close" class="el-dialog__headerbtn"><i class="el-dialog__close el-icon el-icon-close"></i></button></div><div class="el-dialog__footer"><span class="dialog-footer" data-v-0a933a23><button type="button" class="el-button jump-button el-button--primary" data-v-0a933a23><span>开通VIP，畅享复制特权不限次数</span></button></span></div></div></div> <div class="el-dialog__wrapper" style="display:none;" data-v-1672b810 data-v-1caecc57><div role="dialog" aria-modal="true" aria-label="dialog" class="el-dialog" style="margin-top:15vh;width:400px;"><div class="el-dialog__header"><div class="title" data-v-1672b810><div class="flex-1 flex top-content" data-v-1672b810><img src="https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png" class="dialog-icon" data-v-1672b810> <span data-v-1672b810>信息提交成功</span></div> <div class="el-dialog__close el-icon el-icon-close" data-v-1672b810></div></div></div><div class="el-dialog__footer"><button type="button" class="el-button button el-button--default" data-v-1672b810><span>暂时放弃优惠</span></button> <button type="button" class="el-button btn-light button el-button--primary" data-v-1672b810><span>立即享受8折</span></button></div></div></div>    </div></div> <div class="global-modal" data-v-11673da2></div></div></div><script> window.__INITIAL_STATE__= {"csrf":"iwGbsNqA-CgFnMFnaiZA8szstj-YnSBP7KoM","origin":"http:\u002F\u002Fwenku.csdn.net","isMobile":false,"cookie":"uuid_tt_dd=10_3165316800-1716940722380-151228; dc_session_id=10_1716940722380.276501; uuid_tt_dd=10_3165316800-1716940722380-151228; csrfToken=oDojVL3uUjysFGaOi1j6B-Z2","ip":"18.221.227.224","pageData":{"sourceBaseInfo":{"sourceId":88432731,"sourcesIsessence":6,"loginUsername":"","rating":0,"isWhiteListAuthor":false,"isAllowDownload":true,"blindBox":{"url":"https:\u002F\u002Fmall.csdn.net\u002Fvip?utm_source=vip_cth_xzxqy_xfc","imgUrl":"https:\u002F\u002Fimg-home.csdnimg.cn\u002Fimages\u002F20240521045217.gif"},"userIsVip":false,"previewData":{"previewList":[{"index":1,"content":"主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1629∈类特定的TF-IDF Boosting短文本分类算法在灾难期间生成的短文本中的应用摘要Samujjwal GhoshIIT Hyderabad海得拉巴，Telangana，INcs16resch01001@iith.ac.in毛南德拉·桑卡尔·德萨尔卡尔IITHyderabadHyderabad，Telangana，maunendra@iith.ac.inTF-IDF特征表示，每个文档或短文本都表示在短文本分类任务中，由于可用文本的数量非常少，特征的正确表达起着重要的作用。在文献中，术语频率-逆文档频率（TF-IDF）通常用于创建用于此类任务的特征向量然而，TF-IDF公式化不利用监督学习中可用的类信息对于分类问题，如果有可能识别出能够在类别之间强烈区分的术语，那么在进行FEA时就可以给予这些术语更多的权重表示为向量，其中字段对应于词汇表中的术语。存储在字段中的值是相应术语的TF-IDF分数。TF-IDF分数是该文档中的术语的术语频率（TF）和语料库中的该术语的逆文档频率（IDF）的乘积在数学上，TF-IDF可以表示为：TF IDF=t fi×logN真正的建设阶段。这可以通过并入额外的类标签相关信息而导致改进的分类器性能我们提出了一种有监督的特征构造方法dd fi其中tfi是项i在文档d中出现的次数，分类推文，基于可操作的信息，可能是DN是语料库中的文档总数，d f是是在不同的灾难场景中发布用于这种分类任务的改进的分类器性能可以在救援和救济操作中是有帮助的。我们使用了三个基准数据集，分别包含2015年和2016年尼泊尔和意大利地震期间发布的推文。实验结果表明，该方法在这些基准数据集上取得了较好的分类性能.关键词信息检索;短文本分类;特征工程;基于熵的特征生成ACM参考格式：Samujjwal Ghosh和Maunendra Sankar Desarkar。2018.用于短文本分类的类特定TF-IDF提升：应用于灾难期间生成的短文本。 In The 2018 WebConference Companion，2018年4月23日至27日，法国里昂。ACM，NewYork，NY，USA，9页。网址：\u002F\u002Fdoi. 沪ICP备11014558号-11引言像tweet这样的短文本由于其长度限制而包含非常有限的上下文信息。因此，使用机器学习技术对短文本进行分类是一项具有挑战性的任务。在这种情况下，特征向量的正确表达起着重要的作用在使用文本特征的减灾相关文献中，用于特征表示的最常见技术是词频-逆文档频率（TF-IDF）。在本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4\u002F18\u002F04。https:\u002F\u002Fdoi.org\u002F10.1145\u002F3184558.3191621出现术语i的文档数TF捕获文档中的术语的重要性，并且被计算为术语的频率的递增函数。另一方面，IDF试图衡量一个术语在语料库中的信息量。这里通常的假设是，如果一个术语在语料库中是频繁的，那么它没有太多的信息，而罕见的术语是更多的信息，因此是重要的。IDF被建模为术语的文档频率的递减函数。这种使用TF-IDF的特征构建策略通常用于分类文本文档-短[24]和长[25]。对于监督分类问题，假设标记的训练数据是可用的。基于TF-IDF的方法在特征构造期间不考虑这些类标签然而，从标记的数据中，可以识别具有区分性的术语，因此可以识别某些类别的强指标。我们希望在特征构造过程中添加不同类别之间的术语重要性（区分能力）作为额外信息。如果一个术语在特定类别中出现足够多的次数，但在其他类别中很少出现，则该术语被认为是有区别的。设t1和t2是在语料库中出现k次的两个术语。然而，t1在所有类别的文档中均匀出现，但t2在类别ci中出现的次数比在其他类别中出现的次数多得多（即cjC;cj≠ci）。项t1和t2的IDF得分将相同。然而，明显的是，项t2具有更大的辨别力，因为其在未来文档中的存在在我们的例子中是类Ci）。我们希望抓住不同术语的这种区别力并在特征构造阶段期间使用该信息在这项工作中，我们提出了技术，提高TF-IDF分数，以更好地代表类之间的长期分布然后，分类器可以利用这些额外的信息来做出更好的决策。这些通用技术可以应用于使用基于词袋的TF-IDF特征的不同应用我们应用了我们的建议主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1630方法对灾害相关推文进行分类，以了解其对使用传统TF-IDF的影响和有用性在灾难发生时，人们会在Twitter、微博等微博网站上发布大量的信息。这些帖子中的一些可能实际上包含关于对基础设施的损害、诸如水、药品等资源的需求的用它们包含的信息对这些帖子进行适当的注释可以帮助救援和救济行动，从而减轻受灾害影响的人们的痛苦。在文献中有许多关于正确利用灾害期间生成的短文本以有效地计划救援和救济行动的研究[8]，[10]，[11]，[13]，[18]，[20]，[23]。在这里，我们提出了与灾害相关的推文分类的不同工作的综合摘要。论文[8]提出了使用具有TF-IDF特征的各种算法对灾害相关推文分类的比较研究[10]中的作者提出了一个系统，该系统不仅可以过滤和分类英语推文，还可以处理与台风Lawin（国际名称：Haima）和Karen（国际名称：Sarika）相关的多语言推该系统是通过使用TF-IDF特征与支持向量机（SVM）分类器构建的。虽然[11]主要集中在基于神经网络的方法来检索与灾害相关的微博，但他们使用TF-IDF Rocchio分数来扩展他们的查询，然后在神经网络上使用它们[13]中采用了从未标记的目标数据中学习分类器的域自适应方法，其中作者利用从过去灾难中获得的信息来过滤与新灾难相关的推文。在改进的TF-IDF特征加权朴素贝叶斯分类器上使用自训练技术实现了领域自适应。[18]建立了一个系统，可以通过监控Twitter流来自动检测任何灾难的作者使用朴素贝叶斯和支持向量机作为他们的分类器与TF-IDF为基础的特征向量。在[20]中，作者提出了一种自动文本分类系统，该系统仅过滤与灾害相关的短文本。该方法的工作原理，通过选择突出的TF-IDF功能，使用卡方技术。[23]的作者进行了一项基于匹配和基于学习的方法之间的研究，以过滤灾难期间生成的相关推文。他们采用了各种技术，如地理标签信息，word 2 vec [17]嵌入以及TF-IDF分数。从这些讨论中我们可以看到，TF-IDF的使用在与灾害相关的推文分类领域非常常见。在这项工作中，我们专注于在灾难期间发布的信息推文分类的任务。我们考虑的示例类是与资源可用性和需求相关的、与基础设施损坏相关的等。即使分类性能的微小改进也可以帮助救援组织查看特定消息，并相应地做出决定以适当的方式引导救援操作。我们使用了三个灾难相关的鸣叫数据集来测试我们提出的功能constrc- tion技术的有效性。在这些基准数据集上，我们的方法显著优于基于TF-IDF的分类方法。本文的其余部分组织如下。在第二节中，我们讨论了TF-IDF评分修正领域的相关工作。我们在第3节中定义了这个问题。第4节详细讨论了所提出的方法。关于我们的实验设置以及数据集详细信息的讨论见第节5. 最后，我们将在第6节中介绍我们的实验结果。2相关工作在本节中，我们将从文献中查看不同的工作，这些工作涉及TF-IDF修改的变体以用于分类任务。然而，大多数技术是基于特征选择方法，而不是TF-IDF得分修改，其中基于术语的区分能力选择特征的子集。该子集选择可以使用各种方法来完成，如信息增益（IG）[2]、卡方[19]、互信息[26]等。然而，这些方法没有充分利用词在类中的出现频率. 然而，人们已经试验了不同的TF-IDF修饰技术。下面我们讨论文献中存在的一些这样的方法。[3]中的作者将二元语法与传统的基于一元语法的特征结合在一起，以结合额外的信息。虽然这种方法不会改变TF-IDF的值，但它们会增加词汇表中唯一特征的数量。他们表明，增加词汇量可能会提高分类器的性能。[5]的作者在生成特征时使用双正态分离（BNS）代替IDF。BNS根据其区分能力对术语进行排名。作者发现BNS的缩放项的重要性，没有任何特征选择，提高了他们的分类器的准确性。在[12]中，提出了一种基于熵的方法，称为基于熵的类别覆盖差异（ECCD），在该方法中，他们计算跨类的每个术语的熵，以获得不同类别浓度的术语的重要性。为了解决类别不平衡问题，[14]提出了一种基于概率的术语加权方案，该方案提高了数据点数量少于其他类别的类别的分类器性能在另一种方法中，使用语义修改的TF-IDF评分对生物医学数据进行分类[15]。使用修改后的特征集的SVM分类器的性能更好。Delta TF-IDF由[16]提出，它修改了TF-IDF分数，以更好地理解博客的情感 Delta部分通过取训练数据的积极和消极情绪的TF-IDF得分的差异来计算。在[21]中，作者使用了类似于IDF的逆类频率（ICF），其表示术语的重要性。 ICF对出现在少数类别中的术语给予最高分，对出现在许多类别中的术语给予最低分。结果表明，使用ICF而不是IDF可以获得更好的分类器性能。[22]显示了使用IG选择最突出的特征而不是使用所有特征的效果。他们发现使用IG提高了他们的分类准确性。[24]的工作提出了用于短文本分类任务的低粒度特征，主要关注中文文本。作者在[25]中还提出了两种基于熵的方法，称为tf.dc和tf.bdc，它们测量类之间的分布集中度（DC）在DC方法中，在类而不是文档上计算第二种方法提出了平衡分布集中度（BDC），它考虑了类大小来计算DC。然而，这些方法中的大多数针对长文本进行了调整，并且不针对上下文信息有限的短文本进行优化。3问题定义我们在这项工作中的主要目标是分类短文本，给定一组短文本和它们的类。该问题可以公式化为：主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1631Ic0，c，T F. IDFit\u003ECC1（）下一页KC2C所有类别的计数，即TC=k= 1tck。∑∑令T={tl，t2，···，tN}是N个文本数据点的集合，并且C={1， 2，···，m}是m个类的集合给定一个形式为{ti，ci，···，ci}的映射集，其中数据ti∈T4.2类归一化熵提升在这里，我们提出了第二种方法，它处理了4.1节中提到的低重调用问题。这种方法保留了AC-和类ci，···，ci∈C，我们的目标是找到所有适用的实际TF-IDF得分，并提高类特定术语1K新新数据t的类。作为边信息。这样，我们就可以保留一个...下面我们讨论我们提出在构造TF-IDF特征时利用术语类关系的方法。4该方法我们希望对未见过的短文本进行分类，给定一组短文本及其类标签作为训练数据。考虑到这一目标，我们首先尝试确定衡量术语关系的方法基于TF-IDF的分数的icance，并且还能够对已知的重要术语给予额外的提升在上文第4.1节中描述的熵度量遭受类大小不平衡，主要针对较小的类。在这种方法中，我们在计算术语的重要性权重（IW）时还考虑了类大小。我们可以如下计算类别c的项ti的IW：tciIW（t）=与不同阶级的关系然后我们看到这些信息ckc可以用来将新的tweet分配给适当的类。对于固有地特定于某些类的术语，我们期望它们的分布集中在这些类中。另一方面，在一项研究中，其中kc表示类别c中存在的项的数目。现在，我们通过根据以下等式考虑熵和重要性来计算类归一化熵（CNE）。通用术语可以大致均匀地分布在iTF. IDF（ti）+（1）A（1）A（）0所有的班级。一种常见的识别存在或不存在这种集中是通过熵。我们计算熵TF. C（tc）=中文（简体）否则的项tiasH（ti）=−∑pi×log（pi）C分母k用作归一化超参数。附加增压的效果可以通过改变增压器的温度来控制其中pi是如果术语ti存在于文档中的概率5实验细节Ci则该文档来自C类。我们将pc估计为ti在类c中存在的次数与它在所有类中存在的次数的比率。然后，用于计算项ti的熵的公式可以被写为：在我们的实验中，我们使用具有线性核的支持向量机（SVM）[4]作为我们的分类器。许多研究[8]，[10]，[18]，[20]发现SVM在disas中使用TF-IDF特征向量效果最好称为场景。具有三种不同TF-IDF提升方法的SVMMH（ti）=−TCI×log2（tci）.（一）用于实验。TFIDF表示简单TF-IDF值，表示具有归一化熵的TF-IDF值我们c=1tciTCI第4.2节中的另一种方法表示为TF。. 我们也其中tci表示类别c中的项ti的计数，并且tci表示类别c中的项t i的计数。在[12]中讨论的方法被称为ECCD和de-ci m i4.1归一化熵提升一旦我们计算了语料库中每个术语的熵，我们就想得到一个术语对每个类的信息量（集中）的估计。我们提出了一种基于熵的方法，称为归一化熵提升。我们通过下式计算项ti的归一化熵（NE）：在表4 1中标记为TF.IDFECCD。5.1数据集三个灾难相关的推文数据集被用于实验。[6] 和2017年（FIRE17）[1]数据集，其中包含2015年尼泊尔地震期间发布的推文。FIRE16和FIRE17的类别详细信息分别在表1a和1b中提及。我们还测试了“社交媒体用于紧急救援和准备-NE（ti）=Hmax−H（ti）（2）HMaxnessSMERP17数据集的详细信息见表1c2。我们还通过合并创建了一个自定义数据集其中，Hmax = max ti Hti，并且Hmax表示所有熵的最大值。我们通过以下等式修改TF-IDF值，TF IDFN E（ti）= TF。IDF（ti）×NE（ti）（3）集中在几个类中的项应该具有较高的NE，而几乎均匀分布在类中的项应该具有较低的NE。虽然TF-IDF NE给出比传统TF-IDF更好的精确度，但是召回率非常低，如表4所示。我们在4.2节中提出了另一种方法来改进将SMERP17和FIRE16数据集表示为FIRE16+SMERP17 1d。由于类的数量在它们之间变化，我们将FIRE16映射到类似于SMERP17的4个类。两个数据集之间的映射在表3中给出。我们无法找到数据集FIRE16的类5的任何合适的映射，因此我们删除了仅在类5中出现的所有推文。所有上述数据集被分为训练集和测试集，分别占总可用标记数据的70%和30%。给出了类的详细信息1复制研究的源代码可以在github上找到2需要注意的是，数据计数可能与上述原始数据集不同笨蛋性能超过TF.IDFN E.ter不允许直接分享推文，推文在体验之前被下载如果它被删除或设为私有，则可能无法检索到片段和一些推文k的值。在5.3节中讨论了k的更详细的影响。主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1632\u003C相关消息必须提及某些特定基础设施资源的损坏或恢复，例如结构（例如，水坝、房屋、移动塔），通信基础设施（例如，道路、跑道、铁路）、电力、移动或互联网连接等。没有提及基础设施资源的一般性陈述是不相关的。TREC格式。每个类的描述包含四个字段：类ID、标题（表示类的小标题）、desc（类的简短描述）和narr（该类应考虑的文本的详细叙述）。下面针对FIRE16数据集的类7和S的类1给出TREC格式的类描述的示例表1：班级编号、标题以及培训和测试数据计数(a) 数据集FIRE16的类特定详细信息类标题列车试验包含与基础设施7基础设施受损修复17874损坏或修复。每节课的平均推文数21191(b) 数据集FIRE17的类特定详细信息类标题列车试验1需求相关四六一二○七2可用性相关一四八五十五每节课的平均推文数三零四一三一(c) 数据集SMERP17的类特定详细信息类标题火车测试1可用资源228822需资源152623基础设施损坏、恢复、事故14056114救援活动非政府组织\u002F政府255105每节课的平均推文数510215(d)数据集FIRE16 + SMERP17的类特定详细信息类标题列车试验1可用资源2需资源7334023671563基础设施受损修复16106584活动非政府组织\u002F政府494237每节课的平均推文数8093545.2预处理在处理数据之前，我们通过依次执行下面提到的步骤对其进行(1) 首字母缩略词扩展：推文通常使用各种首字母缩略词编写。我们使用了文[9]中给出的词典的修改版本，我们自己增加了一些额外的术语所有的缩写词都被字典中给出的短语\u002F单词所取代。(2) 删除表情符号和非ASCII字符：tweet的另一个普遍问题是表情符号。我们通过模式匹配搜索并删除所有表情符号和非ASCII字符。(3) 大小写折叠：在完成上述所有处理后，所有推文文本都转换为小写(4) 停用词和标点符号删除：在所有上述步骤完成后，我们从tweet中删除了nltk停用词3中存在的任何单词。(5) 特殊字符删除：我们删除了“#”，“@”等字符，但没有删除相应的标签或用户提及。此外，我们删除了一些其他特殊的词，如“rt”，“via”和“amp”，它们不是停止词，但不包含任何值。(6) URL和电话号码处理：任何推文中出现的URL3https:\u002F\u002Fraw.githubusercontent.com\u002Fnltk\u002Fnltk_data\u002Fgh-pages\u002Fpackages\u002Fcorpora\u002Fstopwords.zip\u003Cnum\u003E编号：SMERP-T1\u003Ctitle\u003E可用资源\u003Cdesc\u003E标识描述某些资源可用性的消息。\u003C相关的信息必须提到一些资源的可用性，如食物，饮用水，住所，衣服，毯子，血液，人力资源，如志愿者，建造或支持基础设施的资源，如帐篷，滤水器，电力供应等。通知运输车辆的可用性以协助资源分配过程的信息也是相关的。此外，消息指示任何服务，如免费的wi-fi，短信，呼叫设施等。也将是相关的。此外，任何有关捐款的消息或公告也将是相关的。然而，没有提及任何资源的概括性陈述是不相关的。MERP17数据集。1可用资源4011752所需资源\u003Cnum\u003E编号：FMT7\u003C标题\u003E报告了哪些基础设施损坏和恢复情况\u003Cdesc\u003E说明：识别3456医疗资源可用医疗资源所需资源特定地点活动非政府组织\u002F政府231751352521003653119主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1633····【· · ·】下面我们展示了一条原始形式的推文，经过预处理：表2：预处理前后的推文是-前：马耳他骑士团意大利医生救济团为意大利遭受强烈地震的地区提供帮助https:\u002F\u002Ft.co\u002FDDszXXhKgnAf-之三：医生意大利救济团命令马耳他提供帮助意大利发生强烈地震5.3参数调整和交叉验证我们有两种不同类型的超参数。第一个参数是等式（4）中的k的值，其决定6.1完整集合的结果-所有类一起表4列出了我们在第5.1节中提到的4个数据集上的实验的F1，精度和召回率。我们可以从表4中观察到，在TF-IDF公式中并入类别特定信息在所有数据集中显著增加了传统TF-IDF的分类器准确性。在NE方法（TF.IDFNE）中，我们可以清楚地看到，与传统TF.IDF相比，精确度有所增加，但召回率下降，从而降低了F1得分。虽然TF-IDF NE给出比传统TF-IDF更好的精确度，但它未能概括新数据点不包含来自现有训练集词汇表的任何重要术语的情况。结果，那些新项的NE值将非常低，并且TF.IDF NE对该数据点给出非常低的分数。这是由于等式（3）的乘法性质而发生的。这实际上是TF的局限性之一。IDF N E助推我们的方法TF的类特定助推.IDFCN E和规则approach. 当我们将提升值与TF-IDF相乘时，如果提升值低，则会降低整体得分支持向量机分类器参数优化我们首先在不调整正则化参数4的情况下调整提升参数k。我们考虑1、2、3、10作为k的值来调整提升参数，并且发现k = 2给出最佳结果5。我们固定了所有后续操作的k值我们在训练集上使用5折交叉验证来调整SVM的正则化参数。它的调谐值为[10 −1，10 0，10 1，，10 4]。支持向量机中的正则化参数表示对错误分类的重要程度。值越高表示未命中分类的成本越高然而，增量有一个折衷，因为它缩小了类之间的差距。因此，我们将得到一个具有小余量的分类器应当注意的是，在TF.IDF的情况下，CN E正则化参数在我们的提升参数调整完成之后被调整6结果在本节中，我们讨论了我们的研究结果有关的影响，TF-IDF提升灾害相关的鸣叫。4在调整增强参数k期间，将正则化参数设置为15表4中的TF.IDFCNE的结果是在调整正则化参数表3：FIRE16和SMERP17之间的类映射FIRE16型类SMERP17类类可用资源1可用资源1医疗资源可用3需资源2需资源2医疗资源再-要求的4资源特定日志阳离子5-非政府组织\u002F政府政府6救援活动非政府组织\u002F政府4基础设施损坏恢复7基础设施损坏，恢复，伤亡3TF.IDFN E.我们发现这种情况在较小的类（训练集中的数据点数量较少）中发生得更多，因为该类的词汇量非常有限。但是，在“精确”优先级高于“召回”优先级的情况下，此技术可能很有用。我们的第二种方法称为TF.IDF CNE比TF.IDF NE更好地推广，如表4所示。该技术能够更好地处理未看到的术语，并且对于较小的数据集工作良好，其中一些实际重要的术语可能在观察到的数据中没有足够的统计数据，因为它包含每个类的词汇大小。我们的方法给出了更好的结果比TF。IDFECCD。然而，我们仍然看到前两个数据集中的召回率较低。这是因为数据点的数量很少。这个问题的一个明显的补救措施是拥有更多的数据。 FIRE16和FIRE17平均每类分别有211和304个数据点，如表1a和1b所示。更多的数据将很可能包括词汇表中所有可能的重要术语。在SMERP17和FIRE16 + SMERP17数据集的情况下可以观察到这种行为，因为它们平均每个类别分别具有510（表1c）和809（表1d）个数据点。6.2单个类的结果在本节中，我们将更深入地研究我们提出的方法的单个类标签性能。表5、6、7和8提供了第4.2节中提到的所有方法的综合性能。我们看到更好的性能，我们提出的方法比传统的TF-IDF时，可用的训练数据是大的。我们的方法TF.IDF CNE仅对于FIRE16数据集的类别4表现得比传统的TF.IDF差，如表5d中所观察到的。还应该注意的是，FIRE16的类别4在所有数据集的所有类别中只有75个训练数据，如表1所示。图1a 、1b 、1c 、1d 分别显示了FIRE16、FIRE17、SMERP17和FIRE16 + SMERP17数据集的F1评分。第七章结论在本文中，我们研究了类特定的TF-IDF分数提升的有用性。很明显，通过主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1634表4：TF-IDF增强方法的综合结果数据集特征F1评分精准召回TF.IDF0.6936(a) 数据集FIRE16F1得分消防16消防17SMERP17FIRE16 +SMERP17TF.IDFN E0.6535 0.7396 0.6081国防军TF.IDFCN E0.6856 0.76430.6380TF.IDF0.8801TF.IDFN E0.8417 0.8647 0.8237以色列国防军TF.IDFCN E0.8767 0.88490.8692运输工具TF.IDF N E0.87710.88510.8711以色列国防军TF.IDFCN E0.88250.8994 0.8680运输队TF.IDF N E0.83650.83860.8350国防军TF.IDFCN E0.84520.8663 0.8260(b) 数据集FIRE17F1(c) 数据集SMERP17的不同类别F1评分(d) 数据集FIRE16 + SMERP17的不同类别的F1得分图1：不同班级的F1熵和术语频率的手段可以在纯TF-IDF评分方案上提高分类器的准确性我们展示了我们在4个不同的多标签灾害相关短文本数据集上工作的方法然而，我们也发现，如果类足够大，我们的方法效果更好。在我们未来的工作中，我们希望以这样的方式处理提升，以便它可以处理不平衡的班级规模。如果可以并入额外的维度信息以用于更好的性能，则可以探索另一种改进。致谢作者要感谢匿名评审的宝贵意见和有益的建议。本工作得到了以下项目的资助：EE\u002F2016-17\u002F034\u002FMLA\u002FMZAK\u002F0235。主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1635表5：FIRE16的类别特定结果(a) 具有TF.IDF的FIRE16数据集的类特定结果F1级-得分精准召回1 0.6949 0.7028 0.68712 0.6708 0.6543 0.68833 0.7794 0.76004 0.4666 0.38885 0.5420 0.54712019 - 06 - 21 00：00：00表6：FIRE17的类别特定结果(a) 具有TF.IDF的FIRE17数据集的类特定结果F1级-得分精准召回1 0.9466 0.9512 0.942020.8035 0.7894 0.8181(b) 具有TF的FIRE17数据集的类特定结果。IDFNEF1级-得分精准召回70.92510.91890.931510.93830.92090.956520.74500.80850.6909(b) 具有TF的FIRE16数据集的类特定结果NEF1级-得分精准召回1 0.7288 0.7206 0.73712 0.7125 0.7215 0.70373 0.8205 0.84212019年12月31日50.5000 0.6285 0.41502019 - 06 - 21 00：00：002019 - 04 -22 00：00：00(c) 使用TF.IDFECCD的FIRE17数据集的类特定结果F1级-得分精准召回1 0.9496 0.9428 0.95652 0.7924 0.8235 0.7636(d)具有TF的FIRE17数据集的类特定结果。IDFCNEF1级-得分精准召回10.94960.94280.9428(c)使用TF.IDFECCD的20.80370.82690.7818F1级-得分精准召回10.73650.73030.742820.73740.74680.728330.82420.86510.770040.42300.68750.305550.56170.69440.471660.59990.69230.529470.88730.92640.8513(d)具有TF的FIRE16数据集的类特定结果。IDFCNEF1级-得分精准召回1 0.7380 0.7277 0.74852 0.7530 0.7530 0.75302019 - 04 - 28 00：002019 - 04 - 26 00：00：002016年12月31日2019 - 05 - 29 00：00：002019 - 04 - 25 00：00：00主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1636表7：SMERP17的类别特异性结果(a)具有TF.IDF的SMERP17数据集的类别特定结果F1级-得分精准召回表8：FIRE16 + SMERP17的类别特异性结果(a) 具有TF.IDF的FIRE16 + SMERP17数据集的类特定结果F1级-得分精准召回10.79310.75000.841410.78080.81180.752020.78330.79660.770420.76220.83850.698730.99010.98850.991830.97490.97710.972640.87560.91660.838040.69570.68290.7089(b) 具有TF的SMERP17数据集的类别特定结果NEF1级-得分精准召回1 0.8352 0.8068 0.8658(b) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFNEF1级-得分精准召回(c) 具有TF.IDFECCD的F1级-得分精准召回1 0.8148 0.8250 0.804820.77470.8600.70493 0.9934 0.99182019 - 04 - 28 00：00：00(d) 具有TF的SMERP17数据集的类别特定结果。IDFCNEF1级-得分精准召回1 0.8352 0.8255 0.86582 0.7931 0.8363 0.75403 0.9918 0.98864 0.9000 0.9473 0.8571(c) 具有TF.IDFECCD的FIRE16 + SMERP17数据集的类特定结果F1级-得分精准召回1 0.8446 0.8768 0.81472 0.8054 0.8613 0.75643 0.9831 0.99074 0.7441 0.7457(d) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFCNEF1级-得分精准召回1 0.8455 0.8724 0.820120.8095 0.8623 0.76283 0.9802 0.98174 0.7457 0.748920.77580.81810.737710.83540.84830.822830.99020.98540.995020.79730.81330.782040.90730.93000.885730.97560.97560.975640.73770.71710.7594主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1637引用[1] MoumitaBasu、AnuragRoy、KripabandhuGhosh、SomprakashBandyopadhyay和Saptarshi Ghosh。2017年。灾难情境下的微博检索：一种新的评估测试集。在第一届国际工作坊关于利用社交媒体进行紧急救援和准备的会议记录中，与欧洲信息检索会议共同举办，SMERP@ECIR 2017 ，阿伯丁，英国。 22-31 http:\u002F\u002Fceur-ws.org\u002FVol-1832\u002FSMERP_2017_peer_review_paper_3.pdf[2] Iyad Batal和Milos Hauskrecht。2009年通过使用监督术语加权方案提高KNN文本分类准确率。第18届ACM信息与知识管理会议论文集。ACM，2041[3] Constantinos Boulis和Mari Ostendorf2005年通过用冗余补偿的二元组来增强词袋表示的文本分类。在proc 数据挖掘中的特征选择国际研讨会。Citeseer，9-16.[4] 科琳娜 · 科尔特斯和弗拉基米尔 · 瓦普尼克一九九五年支持向量网络。Machinelearning 20，3（1995），273-297.[5] 乔治·福尔曼。2008. BNS功能缩放：一种改进的基于TF-IDF的SVM文本分类表示方法。第17届ACM信息与知识管理会议论文集。ACM，263[6] Saptarshi Ghosh和Kripabandhu Ghosh。2016. FIRE 2016微博主题概述：从灾难期间发布的微博中提取信息。在FIRE 2016-Forum for InformationRetrieval Evaluation工作笔记中印度加尔各答。56-61. http:\u002F\u002Fceur-ws.org\u002FVol-1737\u002FT2-1.pdf[7] SaptarshiGhosh ， KripabandhuGhosh ， DebasisGanguly ， TanmoyChakraborty，Gareth J.F. Jones和Marie-Francine Moens。2017. ECIR 2017研讨会关于利用社交媒体进行紧急救援和准备（ SMERP 2017 ）。 SIGIRForum51，1（Aug. 2017），36-41. https:\u002F\u002Fdoi.org\u002F10.1145\u002F3130332的网站。3130338[8] Samujjwal Ghosh，Srijith P.K.，和莫南德拉·桑卡·德萨尔卡2017年。使用社交媒体对灾难场景中的可操作见解进行 InternationalJournal of Advances inEngineering Sciences 9，4（2017年12月），224-237。https：\u002F\u002Fdoi.org\u002F10.1007\u002Fs12572-017-0197-2[9] Muhammad Imran ， Prasenjit Mitra ， and Carlos Castillo.2016 年。Twitter作为生命线：人类注释的Twitter语料库用于危机相关消息的NLP。CoRRabs\u002F1605.05894（2016）。arXiv：1605.05894http:\u002F\u002Farxiv.org\u002Fabs\u002F1605.05894[10] 兰迪·乔伊和玛格诺·文泰恩2017年。微博中地方语言灾害相关推文的分类研究。《Asia Pacific Journal of Multidisciplinary Research》[11] Prannay Khosla 、 Moumita Basu 、 Kripabandhu Ghosh 和 Saptarshi Ghosh 。2017年。灾后救助微博检索：应用和比较神经IR模型。arXiv预印本arXiv：1707.06112（2017）。[12] Christine Largeron、Christophe Moulin和Mathias Géry。2011年。基于熵的文本分类特征选择在2011年ACM Symposiumon Applied Computing会议录中。ACM，924[13] Hongmin Li ，Doina Caragea ， Cornelia Caragea ，and Nic Herndon.2017年。用域适应方法通过推文分类辅助的灾害响应《突发事件与危机管理杂志》（Journal of Contingencies and Crisis Management，2017）[14] Ying Liu，Han Tong Loh，and Aixin Sun.2009年不平衡文本分类：一种术语加权方法。Expert systems with Applications36，1（2009），690[15] Xinghua Lu，Bin Zheng，Atulya Velivelli，and ChengXiang Zhai.2006年通过语义丰富的表示和训练数据增强来增强文本分类。 Journal of theAmerican Medical Informatics Association13，5（2006），526[16] Justin Martineau和Tim Finin2009年 Delta TFIDF：一种用于情感分析的改进特征空间。Icwsm9（2009），106.[17] Tomas Mikolov、Ilya Sutskever、Ka"}],"previewType":2,"briefIntroduction":"主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1629∈类特定的TF-IDF Boosting短文本分类算法在灾难期间生成的短文本中的应用摘要Samujjwal GhoshIIT Hyderabad海得拉巴，Telangana，INcs16resch01001@iith.ac.in毛南德拉·桑卡尔·德萨尔卡尔IITHyderabadHyderabad，Telangana，maunendra@iith.ac.inTF-IDF特征表示，每个文档或短文本都表示在短文本分类任务中，由于可用文本的数量非常少，特征的正确表达起着重要的作用。在文献中，术语频率-逆文档频率（TF-IDF）通常用于创建用于此类任务的特征向量然而，TF-IDF公式化不利用监督学习中可用的类信息对于分类问题，如果有可能识别出能够在类别之间强烈区分的术语，那么在进行FEA时就可以给予这些术语更多的权重表示为向量，其中字段对应于词汇表中的术语。存储在字段中的值是相应术语的TF-IDF分数。TF-IDF分数是该文档中的术语的术语频率（TF）和语料库中的该术语的逆文档频率（IDF）的乘积在数学上，TF-IDF可以表示为：TF IDF=t fi×logN真正的建设阶段。这可以通过并入额外的类标签相关信息而导致改进的分类器性能我们提出了一种有监督的特征构造方法dd fi其中tfi是项i在文档d中出现的次数，分类推文，基于可操作的信息，可能是DN是语料库中的文档总数，d f是是在不同的灾难场景中发布用于这种分类任务的改进的分类器性能可以在救援和救济操作中是有帮助的。我们使用了三个基准数据集，分别包含2015年和2016年尼泊尔和意大利地震期间发布的推文。实验结果表明，该方法在这些基准数据集上取得了较好的分类性能.关键词信息检索;短文本分类;特征工程;基于熵的特征生成ACM参考格式：Samujjwal Ghosh和Maunendra Sankar Desarkar。2018.用于短文本分类的类特定TF-IDF提升：应用于灾难期间生成的短文本。 In The 2018 WebConference Companion，2018年4月23日至27日，法国里昂。ACM，NewYork，NY，USA，9页。网址：\u002F\u002Fdoi. 沪ICP备11014558号-11引言像tweet这样的短文本由于其长度限制而包含非常有限的上下文信息。因此，使用机器学习技术对短文本进行分类是一项具有挑战性的任务。在这种情况下，特征向量的正确表达起着重要的作用在使用文本特征的减灾相关文献中，用于特征表示的最常见技术是词频-逆文档频率（TF-IDF）。在本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4\u002F18\u002F04。https:\u002F\u002Fdoi.org\u002F10.1145\u002F3184558.3191621出现术语i的文档数TF捕获文档中的术语的重要性，并且被计算为术语的频率的递增函数。另一方面，IDF试图衡量一个术语在语料库中的信息量。这里通常的假设是，如果一个术语在语料库中是频繁的，那么它没有太多的信息，而罕见的术语是更多的信息，因此是重要的。IDF被建模为术语的文档频率的递减函数。这种使用TF-IDF的特征构建策略通常用于分类文本文档-短[24]和长[25]。对于监督分类问题，假设标记的训练数据是可用的。基于TF-IDF的方法在特征构造期间不考虑这些类标签然而，从标记的数据中，可以识别具有区分性的术语，因此可以识别某些类别的强指标。我们希望在特征构造过程中添加不同类别之间的术语重要性（区分能力）作为额外信息。如果一个术语在特定类别中出现足够多的次数，但在其他类别中很少出现，则该术语被认为是有区别的。设t1和t2是在语料库中出现k次的两个术语。然而，t1在所有类别的文档中均匀出现，但t2在类别ci中出现的次数比在其他类别中出现的次数多得多（即cjC;cj≠ci）。项t1和t2的IDF得分将相同。然而，明显的是，项t2具有更大的辨别力，因为其在未来文档中的存在在我们的例子中是类Ci）。我们希望抓住不同术语的这种区别力并在特征构造阶段期间使用该信息在这项工作中，我们提出了技术，提高TF-IDF分数，以更好地代表类之间的长期分布然后，分类器可以利用这些额外的信息来做出更好的决策。这些通用技术可以应用于使用基于词袋的TF-IDF特征的不同应用我们应用了我们的建议主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1630方法对灾害相关推文进行分类，以了解其对使用传统TF-IDF的影响和有用性在灾难发生时，人们会在Twitter、微博等微博网站上发布大量的信息。这些帖子中的一些可能实际上包含关于对基础设施的损害、诸如水、药品等资源的需求的用它们包含的信息对这些帖子进行适当的注释可以帮助救援和救济行动，从而减轻受灾害影响的人们的痛苦。在文献中有许多关于正确利用灾害期间生成的短文本以有效地计划救援和救济行动的研究[8]，[10]，[11]，[13]，[18]，[20]，[23]。在这里，我们提出了与灾害相关的推文分类的不同工作的综合摘要。论文[8]提出了使用具有TF-IDF特征的各种算法对灾害相关推文分类的比较研究[10]中的作者提出了一个系统，该系统不仅可以过滤和分类英语推文，还可以处理与台风Lawin（国际名称：Haima）和Karen（国际名称：Sarika）相关的多语言推该系统是通过使用TF-IDF特征与支持向量机（SVM）分类器构建的。虽然[11]主要集中在基于神经网络的方法来检索与灾害相关的微博，但他们使用TF-IDF Rocchio分数来扩展他们的查询，然后在神经网络上使用它们[13]中采用了从未标记的目标数据中学习分类器的域自适应方法，其中作者利用从过去灾难中获得的信息来过滤与新灾难相关的推文。在改进的TF-IDF特征加权朴素贝叶斯分类器上使用自训练技术实现了领域自适应。[18]建立了一个系统，可以通过监控Twitter流来自动检测任何灾难的作者使用朴素贝叶斯和支持向量机作为他们的分类器与TF-IDF为基础的特征向量。在[20]中，作者提出了一种自动文本分类系统，该系统仅过滤与灾害相关的短文本。该方法的工作原理，通过选择突出的TF-IDF功能，使用卡方技术。[23]的作者进行了一项基于匹配和基于学习的方法之间的研究，以过滤灾难期间生成的相关推文。他们采用了各种技术，如地理标签信息，word 2 vec [17]嵌入以及TF-IDF分数。从这些讨论中我们可以看到，TF-IDF的使用在与灾害相关的推文分类领域非常常见。在这项工作中，我们专注于在灾难期间发布的信息推文分类的任务。我们考虑的示例类是与资源可用性和需求相关的、与基础设施损坏相关的等。即使分类性能的微小改进也可以帮助救援组织查看特定消息，并相应地做出决定以适当的方式引导救援操作。我们使用了三个灾难相关的鸣叫数据集来测试我们提出的功能constrc- tion技术的有效性。在这些基准数据集上，我们的方法显著优于基于TF-IDF的分类方法。本文的其余部分组织如下。在第二节中，我们讨论了TF-IDF评分修正领域的相关工作。我们在第3节中定义了这个问题。第4节详细讨论了所提出的方法。关于我们的实验设置以及数据集详细信息的讨论见第节5. 最后，我们将在第6节中介绍我们的实验结果。2相关工作在本节中，我们将从文献中查看不同的工作，这些工作涉及TF-IDF修改的变体以用于分类任务。然而，大多数技术是基于特征选择方法，而不是TF-IDF得分修改，其中基于术语的区分能力选择特征的子集。该子集选择可以使用各种方法来完成，如信息增益（IG）[2]、卡方[19]、互信息[26]等。然而，这些方法没有充分利用词在类中的出现频率. 然而，人们已经试验了不同的TF-IDF修饰技术。下面我们讨论文献中存在的一些这样的方法。[3]中的作者将二元语法与传统的基于一元语法的特征结合在一起，以结合额外的信息。虽然这种方法不会改变TF-IDF的值，但它们会增加词汇表中唯一特征的数量。他们表明，增加词汇量可能会提高分类器的性能。[5]的作者在生成特征时使用双正态分离（BNS）代替IDF。BNS根据其区分能力对术语进行排名。作者发现BNS的缩放项的重要性，没有任何特征选择，提高了他们的分类器的准确性。在[12]中，提出了一种基于熵的方法，称为基于熵的类别覆盖差异（ECCD），在该方法中，他们计算跨类的每个术语的熵，以获得不同类别浓度的术语的重要性。为了解决类别不平衡问题，[14]提出了一种基于概率的术语加权方案，该方案提高了数据点数量少于其他类别的类别的分类器性能在另一种方法中，使用语义修改的TF-IDF评分对生物医学数据进行分类[15]。使用修改后的特征集的SVM分类器的性能更好。Delta TF-IDF由[16]提出，它修改了TF-IDF分数，以更好地理解博客的情感 Delta部分通过取训练数据的积极和消极情绪的TF-IDF得分的差异来计算。在[21]中，作者使用了类似于IDF的逆类频率（ICF），其表示术语的重要性。 ICF对出现在少数类别中的术语给予最高分，对出现在许多类别中的术语给予最低分。结果表明，使用ICF而不是IDF可以获得更好的分类器性能。[22]显示了使用IG选择最突出的特征而不是使用所有特征的效果。他们发现使用IG提高了他们的分类准确性。[24]的工作提出了用于短文本分类任务的低粒度特征，主要关注中文文本。作者在[25]中还提出了两种基于熵的方法，称为tf.dc和tf.bdc，它们测量类之间的分布集中度（DC）在DC方法中，在类而不是文档上计算第二种方法提出了平衡分布集中度（BDC），它考虑了类大小来计算DC。然而，这些方法中的大多数针对长文本进行了调整，并且不针对上下文信息有限的短文本进行优化。3问题定义我们在这项工作中的主要目标是分类短文本，给定一组短文本和它们的类。该问题可以公式化为：主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1631Ic0，c，T F. IDFit\u003ECC1（）下一页KC2C所有类别的计数，即TC=k= 1tck。∑∑令T={tl，t2，···，tN}是N个文本数据点的集合，并且C={1， 2，···，m}是m个类的集合给定一个形式为{ti，ci，···，ci}的映射集，其中数据ti∈T4.2类归一化熵提升在这里，我们提出了第二种方法，它处理了4.1节中提到的低重调用问题。这种方法保留了AC-和类ci，···，ci∈C，我们的目标是找到所有适用的实际TF-IDF得分，并提高类特定术语1K新新数据t的类。作为边信息。这样，我们就可以保留一个...下面我们讨论我们提出在构造TF-IDF特征时利用术语类关系的方法。4该方法我们希望对未见过的短文本进行分类，给定一组短文本及其类标签作为训练数据。考虑到这一目标，我们首先尝试确定衡量术语关系的方法基于TF-IDF的分数的icance，并且还能够对已知的重要术语给予额外的提升在上文第4.1节中描述的熵度量遭受类大小不平衡，主要针对较小的类。在这种方法中，我们在计算术语的重要性权重（IW）时还考虑了类大小。我们可以如下计算类别c的项ti的IW：tciIW（t）=与不同阶级的关系然后我们看到这些信息ckc可以用来将新的tweet分配给适当的类。对于固有地特定于某些类的术语，我们期望它们的分布集中在这些类中。另一方面，在一项研究中，其中kc表示类别c中存在的项的数目。现在，我们通过根据以下等式考虑熵和重要性来计算类归一化熵（CNE）。通用术语可以大致均匀地分布在iTF. IDF（ti）+（1）A（1）A（）0所有的班级。一种常见的识别存在或不存在这种集中是通过熵。我们计算熵TF. C（tc）=中文（简体）否则的项tiasH（ti）=−∑pi×log（pi）C分母k用作归一化超参数。附加增压的效果可以通过改变增压器的温度来控制其中pi是如果术语ti存在于文档中的概率5实验细节Ci则该文档来自C类。我们将pc估计为ti在类c中存在的次数与它在所有类中存在的次数的比率。然后，用于计算项ti的熵的公式可以被写为：在我们的实验中，我们使用具有线性核的支持向量机（SVM）[4]作为我们的分类器。许多研究[8]，[10]，[18]，[20]发现SVM在disas中使用TF-IDF特征向量效果最好称为场景。具有三种不同TF-IDF提升方法的SVMMH（ti）=−TCI×log2（tci）.（一）用于实验。TFIDF表示简单TF-IDF值，表示具有归一化熵的TF-IDF值我们c=1tciTCI第4.2节中的另一种方法表示为TF。. 我们也其中tci表示类别c中的项ti的计数，并且tci表示类别c中的项t i的计数。在[12]中讨论的方法被称为ECCD和de-ci m i4.1归一化熵提升一旦我们计算了语料库中每个术语的熵，我们就想得到一个术语对每个类的信息量（集中）的估计。我们提出了一种基于熵的方法，称为归一化熵提升。我们通过下式计算项ti的归一化熵（NE）：在表4 1中标记为TF.IDFECCD。5.1数据集三个灾难相关的推文数据集被用于实验。[6] 和2017年（FIRE17）[1]数据集，其中包含2015年尼泊尔地震期间发布的推文。FIRE16和FIRE17的类别详细信息分别在表1a和1b中提及。我们还测试了“社交媒体用于紧急救援和准备-NE（ti）=Hmax−H（ti）（2）HMaxnessSMERP17数据集的详细信息见表1c2。我们还通过合并创建了一个自定义数据集其中，Hmax = max ti Hti，并且Hmax表示所有熵的最大值。我们通过以下等式修改TF-IDF值，TF IDFN E（ti）= TF。IDF（ti）×NE（ti）（3）集中在几个类中的项应该具有较高的NE，而几乎均匀分布在类中的项应该具有较低的NE。虽然TF-IDF NE给出比传统TF-IDF更好的精确度，但是召回率非常低，如表4所示。我们在4.2节中提出了另一种方法来改进将SMERP17和FIRE16数据集表示为FIRE16+SMERP17 1d。由于类的数量在它们之间变化，我们将FIRE16映射到类似于SMERP17的4个类。两个数据集之间的映射在表3中给出。我们无法找到数据集FIRE16的类5的任何合适的映射，因此我们删除了仅在类5中出现的所有推文。所有上述数据集被分为训练集和测试集，分别占总可用标记数据的70%和30%。给出了类的详细信息1复制研究的源代码可以在github上找到2需要注意的是，数据计数可能与上述原始数据集不同笨蛋性能超过TF.IDFN E.ter不允许直接分享推文，推文在体验之前被下载如果它被删除或设为私有，则可能无法检索到片段和一些推文k的值。在5.3节中讨论了k的更详细的影响。主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1632\u003C相关消息必须提及某些特定基础设施资源的损坏或恢复，例如结构（例如，水坝、房屋、移动塔），通信基础设施（例如，道路、跑道、铁路）、电力、移动或互联网连接等。没有提及基础设施资源的一般性陈述是不相关的。TREC格式。每个类的描述包含四个字段：类ID、标题（表示类的小标题）、desc（类的简短描述）和narr（该类应考虑的文本的详细叙述）。下面针对FIRE16数据集的类7和S的类1给出TREC格式的类描述的示例表1：班级编号、标题以及培训和测试数据计数(a) 数据集FIRE16的类特定详细信息类标题列车试验包含与基础设施7基础设施受损修复17874损坏或修复。每节课的平均推文数21191(b) 数据集FIRE17的类特定详细信息类标题列车试验1需求相关四六一二○七2可用性相关一四八五十五每节课的平均推文数三零四一三一(c) 数据集SMERP17的类特定详细信息类标题火车测试1可用资源228822需资源152623基础设施损坏、恢复、事故14056114救援活动非政府组织\u002F政府255105每节课的平均推文数510215(d)数据集FIRE16 + SMERP17的类特定详细信息类标题列车试验1可用资源2需资源7334023671563基础设施受损修复16106584活动非政府组织\u002F政府494237每节课的平均推文数8093545.2预处理在处理数据之前，我们通过依次执行下面提到的步骤对其进行(1) 首字母缩略词扩展：推文通常使用各种首字母缩略词编写。我们使用了文[9]中给出的词典的修改版本，我们自己增加了一些额外的术语所有的缩写词都被字典中给出的短语\u002F单词所取代。(2) 删除表情符号和非ASCII字符：tweet的另一个普遍问题是表情符号。我们通过模式匹配搜索并删除所有表情符号和非ASCII字符。(3) 大小写折叠：在完成上述所有处理后，所有推文文本都转换为小写(4) 停用词和标点符号删除：在所有上述步骤完成后，我们从tweet中删除了nltk停用词3中存在的任何单词。(5) 特殊字符删除：我们删除了“#”，“@”等字符，但没有删除相应的标签或用户提及。此外，我们删除了一些其他特殊的词，如“rt”，“via”和“amp”，它们不是停止词，但不包含任何值。(6) URL和电话号码处理：任何推文中出现的URL3https:\u002F\u002Fraw.githubusercontent.com\u002Fnltk\u002Fnltk_data\u002Fgh-pages\u002Fpackages\u002Fcorpora\u002Fstopwords.zip\u003Cnum\u003E编号：SMERP-T1\u003Ctitle\u003E可用资源\u003Cdesc\u003E标识描述某些资源可用性的消息。\u003C相关的信息必须提到一些资源的可用性，如食物，饮用水，住所，衣服，毯子，血液，人力资源，如志愿者，建造或支持基础设施的资源，如帐篷，滤水器，电力供应等。通知运输车辆的可用性以协助资源分配过程的信息也是相关的。此外，消息指示任何服务，如免费的wi-fi，短信，呼叫设施等。也将是相关的。此外，任何有关捐款的消息或公告也将是相关的。然而，没有提及任何资源的概括性陈述是不相关的。MERP17数据集。1可用资源4011752所需资源\u003Cnum\u003E编号：FMT7\u003C标题\u003E报告了哪些基础设施损坏和恢复情况\u003Cdesc\u003E说明：识别3456医疗资源可用医疗资源所需资源特定地点活动非政府组织\u002F政府231751352521003653119主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1633····【· · ·】下面我们展示了一条原始形式的推文，经过预处理：表2：预处理前后的推文是-前：马耳他骑士团意大利医生救济团为意大利遭受强烈地震的地区提供帮助https:\u002F\u002Ft.co\u002FDDszXXhKgnAf-之三：医生意大利救济团命令马耳他提供帮助意大利发生强烈地震5.3参数调整和交叉验证我们有两种不同类型的超参数。第一个参数是等式（4）中的k的值，其决定6.1完整集合的结果-所有类一起表4列出了我们在第5.1节中提到的4个数据集上的实验的F1，精度和召回率。我们可以从表4中观察到，在TF-IDF公式中并入类别特定信息在所有数据集中显著增加了传统TF-IDF的分类器准确性。在NE方法（TF.IDFNE）中，我们可以清楚地看到，与传统TF.IDF相比，精确度有所增加，但召回率下降，从而降低了F1得分。虽然TF-IDF NE给出比传统TF-IDF更好的精确度，但它未能概括新数据点不包含来自现有训练集词汇表的任何重要术语的情况。结果，那些新项的NE值将非常低，并且TF.IDF NE对该数据点给出非常低的分数。这是由于等式（3）的乘法性质而发生的。这实际上是TF的局限性之一。IDF N E助推我们的方法TF的类特定助推.IDFCN E和规则approach. 当我们将提升值与TF-IDF相乘时，如果提升值低，则会降低整体得分支持向量机分类器参数优化我们首先在不调整正则化参数4的情况下调整提升参数k。我们考虑1、2、3、10作为k的值来调整提升参数，并且发现k = 2给出最佳结果5。我们固定了所有后续操作的k值我们在训练集上使用5折交叉验证来调整SVM的正则化参数。它的调谐值为[10 −1，10 0，10 1，，10 4]。支持向量机中的正则化参数表示对错误分类的重要程度。值越高表示未命中分类的成本越高然而，增量有一个折衷，因为它缩小了类之间的差距。因此，我们将得到一个具有小余量的分类器应当注意的是，在TF.IDF的情况下，CN E正则化参数在我们的提升参数调整完成之后被调整6结果在本节中，我们讨论了我们的研究结果有关的影响，TF-IDF提升灾害相关的鸣叫。4在调整增强参数k期间，将正则化参数设置为15表4中的TF.IDFCNE的结果是在调整正则化参数表3：FIRE16和SMERP17之间的类映射FIRE16型类SMERP17类类可用资源1可用资源1医疗资源可用3需资源2需资源2医疗资源再-要求的4资源特定日志阳离子5-非政府组织\u002F政府政府6救援活动非政府组织\u002F政府4基础设施损坏恢复7基础设施损坏，恢复，伤亡3TF.IDFN E.我们发现这种情况在较小的类（训练集中的数据点数量较少）中发生得更多，因为该类的词汇量非常有限。但是，在“精确”优先级高于“召回”优先级的情况下，此技术可能很有用。我们的第二种方法称为TF.IDF CNE比TF.IDF NE更好地推广，如表4所示。该技术能够更好地处理未看到的术语，并且对于较小的数据集工作良好，其中一些实际重要的术语可能在观察到的数据中没有足够的统计数据，因为它包含每个类的词汇大小。我们的方法给出了更好的结果比TF。IDFECCD。然而，我们仍然看到前两个数据集中的召回率较低。这是因为数据点的数量很少。这个问题的一个明显的补救措施是拥有更多的数据。 FIRE16和FIRE17平均每类分别有211和304个数据点，如表1a和1b所示。更多的数据将很可能包括词汇表中所有可能的重要术语。在SMERP17和FIRE16 + SMERP17数据集的情况下可以观察到这种行为，因为它们平均每个类别分别具有510（表1c）和809（表1d）个数据点。6.2单个类的结果在本节中，我们将更深入地研究我们提出的方法的单个类标签性能。表5、6、7和8提供了第4.2节中提到的所有方法的综合性能。我们看到更好的性能，我们提出的方法比传统的TF-IDF时，可用的训练数据是大的。我们的方法TF.IDF CNE仅对于FIRE16数据集的类别4表现得比传统的TF.IDF差，如表5d中所观察到的。还应该注意的是，FIRE16的类别4在所有数据集的所有类别中只有75个训练数据，如表1所示。图1a 、1b 、1c 、1d 分别显示了FIRE16、FIRE17、SMERP17和FIRE16 + SMERP17数据集的F1评分。第七章结论在本文中，我们研究了类特定的TF-IDF分数提升的有用性。很明显，通过主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1634表4：TF-IDF增强方法的综合结果数据集特征F1评分精准召回TF.IDF0.6936(a) 数据集FIRE16F1得分消防16消防17SMERP17FIRE16 +SMERP17TF.IDFN E0.6535 0.7396 0.6081国防军TF.IDFCN E0.6856 0.76430.6380TF.IDF0.8801TF.IDFN E0.8417 0.8647 0.8237以色列国防军TF.IDFCN E0.8767 0.88490.8692运输工具TF.IDF N E0.87710.88510.8711以色列国防军TF.IDFCN E0.88250.8994 0.8680运输队TF.IDF N E0.83650.83860.8350国防军TF.IDFCN E0.84520.8663 0.8260(b) 数据集FIRE17F1(c) 数据集SMERP17的不同类别F1评分(d) 数据集FIRE16 + SMERP17的不同类别的F1得分图1：不同班级的F1熵和术语频率的手段可以在纯TF-IDF评分方案上提高分类器的准确性我们展示了我们在4个不同的多标签灾害相关短文本数据集上工作的方法然而，我们也发现，如果类足够大，我们的方法效果更好。在我们未来的工作中，我们希望以这样的方式处理提升，以便它可以处理不平衡的班级规模。如果可以并入额外的维度信息以用于更好的性能，则可以探索另一种改进。致谢作者要感谢匿名评审的宝贵意见和有益的建议。本工作得到了以下项目的资助：EE\u002F2016-17\u002F034\u002FMLA\u002FMZAK\u002F0235。主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1635表5：FIRE16的类别特定结果(a) 具有TF.IDF的FIRE16数据集的类特定结果F1级-得分精准召回1 0.6949 0.7028 0.68712 0.6708 0.6543 0.68833 0.7794 0.76004 0.4666 0.38885 0.5420 0.54712019 - 06 - 21 00：00：00表6：FIRE17的类别特定结果(a) 具有TF.IDF的FIRE17数据集的类特定结果F1级-得分精准召回1 0.9466 0.9512 0.942020.8035 0.7894 0.8181(b) 具有TF的FIRE17数据集的类特定结果。IDFNEF1级-得分精准召回70.92510.91890.931510.93830.92090.956520.74500.80850.6909(b) 具有TF的FIRE16数据集的类特定结果NEF1级-得分精准召回1 0.7288 0.7206 0.73712 0.7125 0.7215 0.70373 0.8205 0.84212019年12月31日50.5000 0.6285 0.41502019 - 06 - 21 00：00：002019 - 04 -22 00：00：00(c) 使用TF.IDFECCD的FIRE17数据集的类特定结果F1级-得分精准召回1 0.9496 0.9428 0.95652 0.7924 0.8235 0.7636(d)具有TF的FIRE17数据集的类特定结果。IDFCNEF1级-得分精准召回10.94960.94280.9428(c)使用TF.IDFECCD的20.80370.82690.7818F1级-得分精准召回10.73650.73030.742820.73740.74680.728330.82420.86510.770040.42300.68750.305550.56170.69440.471660.59990.69230.529470.88730.92640.8513(d)具有TF的FIRE16数据集的类特定结果。IDFCNEF1级-得分精准召回1 0.7380 0.7277 0.74852 0.7530 0.7530 0.75302019 - 04 - 28 00：002019 - 04 - 26 00：00：002016年12月31日2019 - 05 - 29 00：00：002019 - 04 - 25 00：00：00主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1636表7：SMERP17的类别特异性结果(a)具有TF.IDF的SMERP17数据集的类别特定结果F1级-得分精准召回表8：FIRE16 + SMERP17的类别特异性结果(a) 具有TF.IDF的FIRE16 + SMERP17数据集的类特定结果F1级-得分精准召回10.79310.75000.841410.78080.81180.752020.78330.79660.770420.76220.83850.698730.99010.98850.991830.97490.97710.972640.87560.91660.838040.69570.68290.7089(b) 具有TF的SMERP17数据集的类别特定结果NEF1级-得分精准召回1 0.8352 0.8068 0.8658(b) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFNEF1级-得分精准召回(c) 具有TF.IDFECCD的F1级-得分精准召回1 0.8148 0.8250 0.804820.77470.8600.70493 0.9934 0.99182019 - 04 - 28 00：00：00(d) 具有TF的SMERP17数据集的类别特定结果。IDFCNEF1级-得分精准召回1 0.8352 0.8255 0.86582 0.7931 0.8363 0.75403 0.9918 0.98864 0.9000 0.9473 0.8571(c) 具有TF.IDFECCD的FIRE16 + SMERP17数据集的类特定结果F1级-得分精准召回1 0.8446 0.8768 0.81472 0.8054 0.8613 0.75643 0.9831 0.99074 0.7441 0.7457(d) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFCNEF1级-得分精准召回1 0.8455 0.8724 0.820120.8095 0.8623 0.76283 0.9802 0.98174 0.7457 0.748920.77580.81810.737710.83540.84830.822830.99020.98540.995020.79730.81330.782040.90730.93000.885730.97560.97560.975640.73770.71710.7594主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1637引用[1] MoumitaBasu、AnuragRoy、KripabandhuGhosh、SomprakashBandyopadhyay和Saptarshi Ghosh。2017年。灾难情境下的微博检索：一种新的评估测试集。在第一届国际工作坊关于利用社交媒体进行紧急救援和准备的会议记录中，与欧洲信息检索会议共同举办，SMERP@ECIR 2017 ，阿伯丁，英国。 22-31 http:\u002F\u002Fceur-ws.org\u002FVol-1832\u002FSMERP_2017_peer_review_paper_3.pdf[2] Iyad Batal和Milos Hauskrecht。2009年通过使用监督术语加权方案提高KNN文本分类准确率。第18届ACM信息与知识管理会议论文集。ACM，2041[3] Constantinos Boulis和Mari Ostendorf2005年通过用冗余补偿的二元组来增强词袋表示的文本分类。在proc 数据挖掘中的特征选择国际研讨会。Citeseer，9-16.[4] 科琳娜 · 科尔特斯和弗拉基米尔 · 瓦普尼克一九九五年支持向量网络。Machinelearning 20，3（1995），273-297.[5] 乔治·福尔曼。2008. BNS功能缩放：一种改进的基于TF-IDF的SVM文本分类表示方法。第17届ACM信息与知识管理会议论文集。ACM，263[6] Saptarshi Ghosh和Kripabandhu Ghosh。2016. FIRE 2016微博主题概述：从灾难期间发布的微博中提取信息。在FIRE 2016-Forum for InformationRetrieval Evaluation工作笔记中印度加尔各答。56-61. http:\u002F\u002Fceur-ws.org\u002FVol-1737\u002FT2-1.pdf[7] SaptarshiGhosh ， KripabandhuGhosh ， DebasisGanguly ， TanmoyChakraborty，Gareth J.F. Jones和Marie-Francine Moens。2017. ECIR 2017研讨会关于利用社交媒体进行紧急救援和准备（ SMERP 2017 ）。 SIGIRForum51，1（Aug. 2017），36-41. https:\u002F\u002Fdoi.org\u002F10.1145\u002F3130332的网站。3130338[8] Samujjwal Ghosh，Srijith P.K.，和莫南德拉·桑卡·德萨尔卡2017年。使用社交媒体对灾难场景中的可操作见解进行 InternationalJournal of Advances inEngineering Sciences 9，4（2017年12月），224-237。https：\u002F\u002Fdoi.org\u002F10.1007\u002Fs12572-017-0197-2[9] Muhammad Imran ， Prasenjit Mitra ， and Carlos Castillo.2016 年。Twitter作为生命线：人类注释的Twitter语料库用于危机相关消息的NLP。CoRRabs\u002F1605.05894（2016）。arXiv：1605.05894http:\u002F\u002Farxiv.org\u002Fabs\u002F1605.05894[10] 兰迪·乔伊和玛格诺·文泰恩2017年。微博中地方语言灾害相关推文的分类研究。《Asia Pacific Journal of Multidisciplinary Research》[11] Prannay Khosla 、 Moumita Basu 、 Kripabandhu Ghosh 和 Saptarshi Ghosh 。2017年。灾后救助微博检索：应用和比较神经IR模型。arXiv预印本arXiv：1707.06112（2017）。[12] Christine Largeron、Christophe Moulin和Mathias Géry。2011年。基于熵的文本分类特征选择在2011年ACM Symposiumon Applied Computing会议录中。ACM，924[13] Hongmin Li ，Doina Caragea ， Cornelia Caragea ，and Nic Herndon.2017年。用域适应方法通过推文分类辅助的灾害响应《突发事件与危机管理杂志》（Journal of Contingencies and Crisis Management，2017）[14] Ying Liu，Han Tong Loh，and Aixin Sun.2009年不平衡文本分类：一种术语加权方法。Expert systems with Applications36，1（2009），690[15] Xinghua Lu，Bin Zheng，Atulya Velivelli，and ChengXiang Zhai.2006年通过语义丰富的表示和训练数据增强来增强文本分类。 Journal of theAmerican Medical Informatics Association13，5（2006），526[16] Justin Martineau和Tim Finin2009年 Delta TFIDF：一种用于情感分析的改进特征空间。Icwsm9（2009），106.[17] Tomas Mikolov、Ilya Sutskever、Ka","totalNum":1,"upLimitPageNum":0},"downloadNum":0,"previewInfo":{"coverImg":["https:\u002F\u002Fdl-preview.csdnimg.cn\u002F88432731\u002F0001-f3ad63ea0178ac3f0cca09119f40361a_thumbnail.jpeg"],"isPreview":true,"isFromSo":false,"totalPage":9,"defaultCoverImg":"https:\u002F\u002Fcsdnimg.cn\u002Frelease\u002Fdownload\u002Fstatic_files\u002Fpc\u002Fimages\u002Fthumbnail\u002FPDF.png","unloginPreviewNum":0,"soPage":0,"firstPage":1,"sourceType":1,"isPpt":0,"previewImg":[]},"upDate":1697392664000,"isPaySource":false,"tagArr":[],"isVipExclusive":true,"button4BuyVip":{"broadcastBackgroundColor":"#FC6B0B","url":"https:\u002F\u002Fmall.csdn.net\u002Fvip?spm=1003.2020.3001.4167&utm_source=vip_pc_xz_tabjb","name":"开通VIP（低至0.43\u002F天）","broadcastCharactersColor":"#FFFFFF","broadcastText":"VIP年卡限时特惠"},"sourceLowestPrice":0.43,"userIsStudent":false,"button4Download":{"downloadVipIcon":false,"name":"立即下载"},"pubDate":1697363864000,"userVipCouponNum":0,"favoriteNum":0,"fileSize":726713,"firstSourceId":88432731,"isFavorite":false,"flag":26,"sourcesStatus":2,"description":"","title":"社交媒体在紧急救援和准备中的应用及TF-IDF Boosting算法的研究","showCBeansBool":true,"abTest10140":1,"isShowCopyRightIcon":false,"viewCountInteger":45,"tagStr":"[]","sourcePrice":0,"downloadToday":false,"viewCount":"45","userBalance":0,"minVipBalance":8600,"bundledVipInfo":{"hitId":0,"isBundledVip":false},"cBeans":90,"vipDiscount":0.9,"isCertification":false,"fileSizeFormat":"710KB","firstIsessence":"WENKU_PDF_SOURCES","fileTypeUrl":"https:\u002F\u002Fcsdnimg.cn\u002Frelease\u002Fdownload\u002Fstatic_files\u002Fpc\u002Fimages\u002Fminetype\u002FPDF.png","tarArrString":"","userPayExpire":true,"userIsEmployee":false,"couponsValue":0,"sourceScore":5,"sourceAuthor":"cpongm","tagNavList":[],"userIsRisk":true,"activitiesTips":"限时抽奖","fileType":"PDF","optimalCouponsExpirationDate":"","vipActivityConfig":{"vip11EndTime":1605283200,"renewalDiscount":8,"vip11beginTime":1604678400,"vip11word":"领券续费立减¥100"}},"sourceAuthorInfo":{"authorVip":false,"ownColumnNum":0,"userStatus":1,"authorAvatarUrl":"https:\u002F\u002Fprofile-avatar.csdnimg.cn\u002Fdefault.jpg!1","ownFansNum":4,"ownCourseNum":0,"downloadNum":"859","isFollow":false,"authorUserName":"cpongm","ownSourcesNum":"2万+","authorNickName":"cpongm"},"breadcrumbList":[{"categoryName":"首页","url":"https:\u002F\u002Fwenku.csdn.net\u002F","key":"9d037b55c6e74ee5b22cabc7d7647af2"},{"categoryName":"社交媒体在紧急救援和准备中的应用及TF-IDF Boosting算法的研究","url":"https:\u002F\u002Fwenku.csdn.net\u002Fpdf\u002Fd8w814d85u","key":"11f29559a3ee441aa6280faa56f2e592"}],"sourceDetailCouponConfig":{"couponSwitch":true,"couponDesc":"领优惠券(最高得80元）"},"recommendationsList":{"ext":{"highlight":["tf-idf","ting","boo","算法","紧急","社交","媒体","准备","研究","应用","救援","中"],"contain_baidu":false},"items":[{"ext":{"item":{"filetype":"pdf","index":1,"pic":"https:\u002F\u002Fimg-home.csdnimg.cn\u002Fimages\u002F20210720083512.png","title":"基于Word2vec和改进TF-IDF算法的深度学习模型研究.pdf","type":"download","url":"https:\u002F\u002Fdownload.csdn.net\u002Fdownload\u002Fu013883025\u002F21123860","createdAt":"2021-08-18 00:41:28","sourcesize":"1086982","subTitle":"-","id":"21123860","tag":"深度学习数据分析数据研究参考文献专业指导","strategy":"2~default~OPENSEARCH~Rate","views":1,"username":"u013883025","desc":"基于Word2vec和改进TF-IDF算法的深度学习模型研究.pdf"}},"productId":"21123860","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":1,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-1-21123860-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Rate","_sort_index":1,"dest":"https:\u002F\u002Fdownload.csdn.net\u002Fdownload\u002Fu013883025\u002F21123860","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-1-21123860-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-1-21123860-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fdownload.csdn.net\u002Fdownload\u002Fu013883025\u002F21123860","spm":"1003.2020.3001.6616.1"},"eventClick":true,"eventView":true},"index":1,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Rate","style":"text_1","productType":"download"},{"ext":{"item":{"filetype":"docx","index":2,"pic":"https:\u002F\u002Fimg-home.csdnimg.cn\u002Fimages\u002F20210720083331.png","title":"TF-IDF与余弦相似性的应用","type":"download","url":"https:\u002F\u002Fdownload.csdn.net\u002Fdownload\u002Fu010266343\u002F5265895","createdAt":"2013-04-16 22:28:11","sourcesize":"132257","subTitle":"-","id":"5265895","tag":"TF-IDF 余弦","strategy":"2~default~OPENSEARCH~Rate","views":7,"username":"u010266343","desc":"TF-IDF算法的优点是简单快速，结果比较符合实际情况"}},"productId":"5265895","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":2,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-2-5265895-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Rate","_sort_index":2,"dest":"https:\u002F\u002Fdownload.csdn.net\u002Fdownload\u002Fu010266343\u002F5265895","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-2-5265895-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-2-5265895-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fdownload.csdn.net\u002Fdownload\u002Fu010266343\u002F5265895","spm":"1003.2020.3001.6616.2"},"eventClick":true,"eventView":true},"index":2,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Rate","style":"text_1","productType":"download"},{"ext":{"item":{"filetype":"doc","index":3,"pic":"https:\u002F\u002Fimg-home.csdnimg.cn\u002Fimages\u002F20210720083327.png","title":"基于TF-IDF算法抽取","type":"download","url":"https:\u002F\u002Fdownload.csdn.net\u002Fdownload\u002Fyuqianly\u002F11154121","createdAt":"2019-04-30 20:56:47","sourcesize":"14848","subTitle":"-","id":"11154121","tag":"TFIDF 关键词","strategy":"2~default~OPENSEARCH~Rate","views":10,"username":"yuqianly","desc":"实现基于TF-IDF算法抽取，对关键词进行抽取的算法，程序"}},"productId":"11154121","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":3,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-3-11154121-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Rate","_sort_index":3,"dest":"https:\u002F\u002Fdownload.csdn.net\u002Fdownload\u002Fyuqianly\u002F11154121","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-3-11154121-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-download-2~default~OPENSEARCH~Rate-3-11154121-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fdownload.csdn.net\u002Fdownload\u002Fyuqianly\u002F11154121","spm":"1003.2020.3001.6616.3"},"eventClick":true,"eventView":true},"index":3,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Rate","style":"text_1","productType":"download"},{"ext":{"item":{"index":4,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"tf-idf算法和应用场景","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F16bc753621ea4ce3b3ea286e20016f0c","createdAt":"2023-06-12 02:02:51","subTitle":"-","id":"16bc753621ea4ce3b3ea286e20016f0c","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"qq_60215805","desc":"TF-IDF算法通过统计每个词语在文档中出现的频率和在整个文集中出现的频率，计算出每个词语的TF-IDF值，从而评估其重要程度。 TF-IDF算法主要应用于文本分类、信息检索、搜索引擎、自然语言处理等领域。例如，在搜索..."}},"productId":"16bc753621ea4ce3b3ea286e20016f0c","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":4,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-4-16bc753621ea4ce3b3ea286e20016f0c-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":4,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F16bc753621ea4ce3b3ea286e20016f0c","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-4-16bc753621ea4ce3b3ea286e20016f0c-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-4-16bc753621ea4ce3b3ea286e20016f0c-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F16bc753621ea4ce3b3ea286e20016f0c","spm":"1003.2020.3001.6616.4"},"eventClick":true,"eventView":true},"index":4,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":5,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"TF-IDF 算法应用举例","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fce73de4763964faea8811bd87aa072a3","createdAt":"2023-04-30 01:23:34","subTitle":"-","id":"ce73de4763964faea8811bd87aa072a3","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"weixin_46107453","desc":"TF-IDF算法是一种经典的文本信息处理算法，它可以用于文本分类、信息检索、关键词提取等领域。...总之，TF-IDF算法是一种非常实用的文本信息处理算法，可以应用于各种领域，帮助我们更好地理解和利用文本信息。"}},"productId":"ce73de4763964faea8811bd87aa072a3","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":5,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-5-ce73de4763964faea8811bd87aa072a3-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":5,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fce73de4763964faea8811bd87aa072a3","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-5-ce73de4763964faea8811bd87aa072a3-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-5-ce73de4763964faea8811bd87aa072a3-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fce73de4763964faea8811bd87aa072a3","spm":"1003.2020.3001.6616.5"},"eventClick":true,"eventView":true},"index":5,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":6,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"LSI算法和tf-idf算法的区别","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F7c36717132e449eda9a7b6a76f7a140f","createdAt":"2023-05-27 03:32:58","subTitle":"-","id":"7c36717132e449eda9a7b6a76f7a140f","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"m0_63892597","desc":"LSI算法和tf-idf算法都是用于文本相似性计算的算法，但它们的思路和实现方式有所不同： 1. LSI算法：LSI算法是一种基于语义的文本相似性计算方法，其核心思想是将文本数据转换为低维空间向量来进行文本相似性计算。..."}},"productId":"7c36717132e449eda9a7b6a76f7a140f","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":6,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-6-7c36717132e449eda9a7b6a76f7a140f-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":6,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F7c36717132e449eda9a7b6a76f7a140f","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-6-7c36717132e449eda9a7b6a76f7a140f-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-6-7c36717132e449eda9a7b6a76f7a140f-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F7c36717132e449eda9a7b6a76f7a140f","spm":"1003.2020.3001.6616.6"},"eventClick":true,"eventView":true},"index":6,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":7,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"TF-IDF算法概念及原理","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fe50741a99e5f406095642f968ed2a265","createdAt":"2023-05-20 01:09:49","subTitle":"-","id":"e50741a99e5f406095642f968ed2a265","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"m0_68764643","desc":"TF-IDF算法基于词频和逆文档频率两个指标来衡量一个词在文本中的重要性。在TF-IDF算法中，TF（Term Frequency）指的是某个词在文本中出现的频率，IDF（Inverse Document Frequency）指的是某个词在所有文档中出现..."}},"productId":"e50741a99e5f406095642f968ed2a265","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":7,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-7-e50741a99e5f406095642f968ed2a265-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":7,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fe50741a99e5f406095642f968ed2a265","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-7-e50741a99e5f406095642f968ed2a265-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-7-e50741a99e5f406095642f968ed2a265-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fe50741a99e5f406095642f968ed2a265","spm":"1003.2020.3001.6616.7"},"eventClick":true,"eventView":true},"index":7,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":8,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"tf-idf算法和sentence-transformers算法的区别","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F5eb61c604f4145c398dee728ee166347","createdAt":"2023-05-22 02:15:59","subTitle":"-","id":"5eb61c604f4145c398dee728ee166347","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"m0_51469712","desc":"因此，TF-IDF算法根据一个词在文档中出现的频率和在整个语料库中出现的频率来计算每个词的权重。这样，每篇文档都可以表示为一个向量，这个向量中每个维度代表一个词的权重。 Sentence-Transformers算法则是基于..."}},"productId":"5eb61c604f4145c398dee728ee166347","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":8,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-8-5eb61c604f4145c398dee728ee166347-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":8,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F5eb61c604f4145c398dee728ee166347","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-8-5eb61c604f4145c398dee728ee166347-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-8-5eb61c604f4145c398dee728ee166347-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F5eb61c604f4145c398dee728ee166347","spm":"1003.2020.3001.6616.8"},"eventClick":true,"eventView":true},"index":8,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":9,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"TF-IDF算法思想","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F2cd2e9bf868911ed9a8700163e34985e","createdAt":"2023-09-07 09:35:41","subTitle":"-","id":"2cd2e9bf868911ed9a8700163e34985e","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"respon","desc":"TF-IDF算法的思想是将TF值和IDF值结合起来，计算一个词在文档中的重要程度。具体做法是将词频TF乘以逆文档频率IDF，得到的结果即为TF-IDF值。 TF-IDF算法的作用是过滤掉在语料库中出现频率较高的普通词语，突出在..."}},"productId":"2cd2e9bf868911ed9a8700163e34985e","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":9,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-9-2cd2e9bf868911ed9a8700163e34985e-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":9,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F2cd2e9bf868911ed9a8700163e34985e","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-9-2cd2e9bf868911ed9a8700163e34985e-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-9-2cd2e9bf868911ed9a8700163e34985e-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F2cd2e9bf868911ed9a8700163e34985e","spm":"1003.2020.3001.6616.9"},"eventClick":true,"eventView":true},"index":9,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":10,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"TF-IDF算法分析岗位需求关键词","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F1m8fmmpp8u","createdAt":"2024-03-08 01:10:03","subTitle":"-","id":"1m8fmmpp8u","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"weixin_54357837","desc":"在分析岗位需求关键词时，TF-IDF算法可以帮助我们确定哪些词在招聘信息中具有较高的重要性。 TF-IDF算法的计算公式如下： TF-IDF = TF * IDF 其中，TF表示词频（Term Frequency），指的是某个词在文档中出现的频率..."}},"productId":"1m8fmmpp8u","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":10,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-10-1m8fmmpp8u-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":10,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F1m8fmmpp8u","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-10-1m8fmmpp8u-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-10-1m8fmmpp8u-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F1m8fmmpp8u","spm":"1003.2020.3001.6616.10"},"eventClick":true,"eventView":true},"index":10,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":11,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"什么是tf-idf算法？","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F2of2v7ducj","createdAt":"2023-09-20 05:05:16","subTitle":"-","id":"2of2v7ducj","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"m0_55419655","desc":"TF-IDF算法是一种用于信息检索和文本挖掘的常用技术。TF代表词频（Term Frequency）...在信息检索和文本挖掘任务中，我们可以使用TF-IDF算法来衡量一个词语与文档之间的相关性，从而进行相关性排序和关键词提取等操作。"}},"productId":"2of2v7ducj","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":11,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-11-2of2v7ducj-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":11,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F2of2v7ducj","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-11-2of2v7ducj-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-11-2of2v7ducj-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F2of2v7ducj","spm":"1003.2020.3001.6616.11"},"eventClick":true,"eventView":true},"index":11,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":12,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"TF-IDF算法伪代码","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fe7220b5800ac488cbbf0f6c302e2a02c","createdAt":"2023-05-28 02:15:40","subTitle":"-","id":"e7220b5800ac488cbbf0f6c302e2a02c","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"weixin_46734734","desc":"以下是基于TF-IDF算法的文本处理的伪代码： 1. 文本预处理 1.1 分词：将文本按照单词或字符进行...注意：以上是基本的TF-IDF算法的伪代码，实际应用中还需要考虑一些优化和改进，如加入词性标注、使用BM25算法等。"}},"productId":"e7220b5800ac488cbbf0f6c302e2a02c","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":12,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-12-e7220b5800ac488cbbf0f6c302e2a02c-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":12,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fe7220b5800ac488cbbf0f6c302e2a02c","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-12-e7220b5800ac488cbbf0f6c302e2a02c-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-12-e7220b5800ac488cbbf0f6c302e2a02c-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fe7220b5800ac488cbbf0f6c302e2a02c","spm":"1003.2020.3001.6616.12"},"eventClick":true,"eventView":true},"index":12,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":13,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"tf-idf算法改进python实现","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fd1835b7169b20081381a57347da5f0f1","createdAt":"2023-06-28 18:09:32","subTitle":"-","id":"d1835b7169b20081381a57347da5f0f1","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"cpongoc","desc":"2. 调整权重：TF-IDF算法中，词频和逆文档频率的权重默认是相等的，但实际上不同的文本可能需要不同的权重。可以通过调整权重来提高算法的效果。 3. 使用n-gram模型：n-gram模型是指将文本中的词语按照一定的顺序..."}},"productId":"d1835b7169b20081381a57347da5f0f1","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":13,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-13-d1835b7169b20081381a57347da5f0f1-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":13,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fd1835b7169b20081381a57347da5f0f1","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-13-d1835b7169b20081381a57347da5f0f1-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-13-d1835b7169b20081381a57347da5f0f1-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fd1835b7169b20081381a57347da5f0f1","spm":"1003.2020.3001.6616.13"},"eventClick":true,"eventView":true},"index":13,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":14,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"tf-idf算法优缺点","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F9tjbyyin4h","createdAt":"2024-04-12 05:05:12","subTitle":"-","id":"9tjbyyin4h","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"qq_68035842","desc":"2. 考虑词频和文档频率：TF-IDF综合考虑了词在文档中的频率和在整个文档集合中的频率，能够准确反映词的重要性。 3. 适用于文本分类和信息检索：TF-IDF广泛应用于文本分类、信息检索等任务中，能够帮助快速定位..."}},"productId":"9tjbyyin4h","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":14,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-14-9tjbyyin4h-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":14,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F9tjbyyin4h","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-14-9tjbyyin4h-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-14-9tjbyyin4h-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F9tjbyyin4h","spm":"1003.2020.3001.6616.14"},"eventClick":true,"eventView":true},"index":14,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":15,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"nltk实现tf-idf算法python","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F670e7e3828aff2da69de17f0383fb051","createdAt":"2023-06-28 17:49:10","subTitle":"-","id":"670e7e3828aff2da69de17f0383fb051","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"cpongoc","desc":"tf-idf算法是一种用于文本挖掘和信息检索的常用算法，它可以计算一个词在文本中的重要性。在nltk中，可以使用TfidfVectorizer类来实现tf-idf算法。首先需要导入nltk和TfidfVectorizer类： ``` import nltk from ..."}},"productId":"670e7e3828aff2da69de17f0383fb051","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":15,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-15-670e7e3828aff2da69de17f0383fb051-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":15,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F670e7e3828aff2da69de17f0383fb051","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-15-670e7e3828aff2da69de17f0383fb051-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-15-670e7e3828aff2da69de17f0383fb051-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F670e7e3828aff2da69de17f0383fb051","spm":"1003.2020.3001.6616.15"},"eventClick":true,"eventView":true},"index":15,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":16,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"垃圾短信分类TF-IDF算法","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F67d1254f193f4c039132fc88bdcd5f93","createdAt":"2023-05-22 01:03:41","subTitle":"-","id":"67d1254f193f4c039132fc88bdcd5f93","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"m0_59037263","desc":"该算法基于文本中单词的出现频率和在文本集合中的重要性进行计算，从而识别文本的主题或类别。在垃圾短信分类中，我们可以使用TF-IDF算法来计算每个单词在短信中的重要性，然后根据这些重要性来将短信分为垃圾短信..."}},"productId":"67d1254f193f4c039132fc88bdcd5f93","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":16,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-16-67d1254f193f4c039132fc88bdcd5f93-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":16,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F67d1254f193f4c039132fc88bdcd5f93","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-16-67d1254f193f4c039132fc88bdcd5f93-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-16-67d1254f193f4c039132fc88bdcd5f93-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F67d1254f193f4c039132fc88bdcd5f93","spm":"1003.2020.3001.6616.16"},"eventClick":true,"eventView":true},"index":16,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":17,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"textrank算法和tf-IDF算法优缺点","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F2p5dm8d0mh","createdAt":"2023-10-25 01:15:35","subTitle":"-","id":"2p5dm8d0mh","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"m0_55419655","desc":"TF-IDF算法是一种常用的文本特征提取方法，它通过计算每个单词在文本中的出现频率和在整个语料库中的出现频率来计算每个单词的重要性。相比于TextRank算法，TF-IDF算法的优点在于： 1. 算法简单易懂，容易实现； 2...."}},"productId":"2p5dm8d0mh","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":17,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-17-2p5dm8d0mh-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":17,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F2p5dm8d0mh","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-17-2p5dm8d0mh-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-17-2p5dm8d0mh-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F2p5dm8d0mh","spm":"1003.2020.3001.6616.17"},"eventClick":true,"eventView":true},"index":17,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":18,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"tf-idf算法和textrank算法","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F664kcpoopx","createdAt":"2023-10-25 05:05:22","subTitle":"-","id":"664kcpoopx","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"yao_yao_y","desc":"TF-IDF算法和TextRank算法都是用于文本处理的算法，但它们的应用场景和实现方式有所不同。 TF-IDF算法是一种统计方法，用于评估一个词在文档集或一个语料库中的重要程度。它的值越大，表示这个词在整个语料库中就越..."}},"productId":"664kcpoopx","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":18,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-18-664kcpoopx-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":18,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F664kcpoopx","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-18-664kcpoopx-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-18-664kcpoopx-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F664kcpoopx","spm":"1003.2020.3001.6616.18"},"eventClick":true,"eventView":true},"index":18,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":19,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"tf-idf算法提取关键词","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fdc443f8943f4456687f1f3006ac3af7d","createdAt":"2023-05-30 05:44:53","subTitle":"-","id":"dc443f8943f4456687f1f3006ac3af7d","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"abcslipper","desc":"TF-IDF算法的主要思想是，一个词在一篇文档中出现的次数（Term Frequency，简称TF）越多，同时在所有文档中出现的次数越少（Inverse Document Frequency，简称IDF），则这个词在这篇文档中的重要程度越高。..."}},"productId":"dc443f8943f4456687f1f3006ac3af7d","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":19,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-19-dc443f8943f4456687f1f3006ac3af7d-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":19,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fdc443f8943f4456687f1f3006ac3af7d","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-19-dc443f8943f4456687f1f3006ac3af7d-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-19-dc443f8943f4456687f1f3006ac3af7d-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002Fdc443f8943f4456687f1f3006ac3af7d","spm":"1003.2020.3001.6616.19"},"eventClick":true,"eventView":true},"index":19,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"},{"ext":{"item":{"index":20,"pic":"https:\u002F\u002Fcsdnimg.cn\u002Fdownload_wenku\u002Ffile_type_ask_c1.png","title":"python使用 tf-idf 算法提取关键词","type":"chatgpt","url":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F40270cec039811eeb1bbfa163eeb3507","createdAt":"2023-06-05 19:59:51","subTitle":"-","id":"40270cec039811eeb1bbfa163eeb3507","strategy":"2~default~OPENSEARCH~Position","views":0,"username":"cpongoc","desc":"具体来说，TF-IDF算法把一个词在一个文档中的频率（TF）和在所有文档中出现的频率（IDF）结合起来计算该词的重要性。在Python中，我们可以使用scikit-learn库中的TfidfVectorizer类来实现该算法，它能够自动将文本..."}},"productId":"40270cec039811eeb1bbfa163eeb3507","reportData":{"data":{"mod":"","ab_strategy":"donwload_gpt_vector_v1","index":20,"extra":"{\"utm_medium\":\"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-20-40270cec039811eeb1bbfa163eeb3507-download-d8w814d85u.315^v3^control_v4\",\"dist_request_id\":\"1716940723485_61384\"}","dist_request_id":"1716940723485_61384","strategy":"2~default~OPENSEARCH~Position","_sort_index":20,"dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F40270cec039811eeb1bbfa163eeb3507","spm":"1003.2020.3001.6616"},"urlParams":{"utm_medium":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-20-40270cec039811eeb1bbfa163eeb3507-download-d8w814d85u.315^v3^control_v4","depth_1-utm_source":"distribute.pc_relevant_chatgpt_v2.none-task-chatgpt-2~default~OPENSEARCH~Position-20-40270cec039811eeb1bbfa163eeb3507-download-d8w814d85u.315^v3^control_v4","dest":"https:\u002F\u002Fwenku.csdn.net\u002Fanswer\u002F40270cec039811eeb1bbfa163eeb3507","spm":"1003.2020.3001.6616.20"},"eventClick":true,"eventView":true},"index":20,"recommendType":"ali","strategyId":"2~default~OPENSEARCH~Position","style":"text_1","productType":"chatgpt"}]},"topAdsList":[{"beginTimestamp":1716883200000,"jumpUrl":"https:\u002F\u002Fmall.csdn.net\u002Fvip?utm_source=vip_pc_xiazatdt","isShow":true,"imgUrl":"https:\u002F\u002Fimg-home.csdnimg.cn\u002Fimages\u002F20240528042155.png","configId":"332742929342791680","endTimestamp":1717380000000}],"latestSliderSources":[{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002Fc65b460ttn","sdescription":"最新的zigbee-cluster-library-specification说明文档。","stitle":"zigbee-cluster-library-specification"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F77312nm2h3","sdescription":"JSBSim参考手册，其中包含JSBSim简介，JSBSim配置文件xml的编写语法，编程手册以及一些应用实例等。其中有部分内容还没有写完，估计有生之年很难看到完整版了，但是内容还是很有参考价值的。","stitle":"JSBSim Reference Manual"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F7tp4av6ah3","sdescription":"校园超市商品信息管理系统课程设计旨在帮助学生深入理解程序设计的基础知识，同时锻炼他们的实际操作能力。通过设计和实现一个校园超市商品信息管理系统，学生掌握了如何利用计算机科学与技术知识解决实际问题的能力。在课程设计过程中，学生需要对超市商品和销售员的关系进行有效管理，使系统功能更全面、实用，从而提高用户体验和便利性。\n\n学生在课程设计过程中展现了积极的学习态度和纪律，没有缺勤情况，演示过程流畅且作品具有很强的使用价值。设计报告完整详细，展现了对问题的深入思考和解决能力。在答辩环节中，学生能够自信地回答问题，展示出扎实的专业知识和逻辑思维能力。教师对学生的表现予以肯定，认为学生在课程设计中表现出色，值得称赞。\n\n整个课程设计过程包括平时成绩、报告成绩和演示与答辩成绩三个部分，其中平时表现占比20%，报告成绩占比40%，演示与答辩成绩占比40%。通过这三个部分的综合评定，最终为学生总成绩提供参考。总评分以百分制计算，全面评估学生在课程设计中的各项表现，最终为学生提供综合评价和反馈意见。\n\n通过校园超市商品信息管理系统课程设计，学生不仅提升了对程序设计基础知识的理解与应用能力，同时也增强了团队协作和沟通能力。这一过程旨在培养学生综合运用技术解决问题的能力，为其未来的专业发展打下坚实基础。学生在进行校园超市商品信息管理系统课程设计过程中，不仅获得了理论知识的提升，同时也锻炼了实践能力和创新思维，为其未来的职业发展奠定了坚实基础。\n\n校园超市商品信息管理系统课程设计的目的在于促进学生对程序设计基础知识的深入理解与掌握，同时培养学生解决实际问题的能力。通过对系统功能和用户需求的全面考量，学生设计了一个实用、高效的校园超市商品信息管理系统，为用户提供了更便捷、更高效的管理和使用体验。\n\n综上所述，校园超市商品信息管理系统课程设计是一项旨在提升学生综合能力和实践技能的重要教学活动。通过此次设计，学生不仅深化了对程序设计基础知识的理解，还培养了解决实际问题的能力和团队合作精神。这一过程将为学生未来的专业发展提供坚实基础，使其在实际工作中能够胜任更多挑战。","stitle":"c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F7tdrin4mbd","sdescription":"建筑供配电系统是建筑中的重要组成部分，负责为建筑内的设备和设施提供电力支持。在建筑供配电系统相关课件中介绍了建筑供配电系统的基本知识，其中提到了电路的基本概念。电路是电流流经的路径，由电源、负载、开关、保护装置和导线等组成。在电路中，涉及到电流、电压、电功率和电阻等基本物理量。电流是单位时间内电路中产生或消耗的电能，而电功率则是电流在单位时间内的功率。另外，电路的工作状态包括开路状态、短路状态和额定工作状态，各种电气设备都有其额定值，在满足这些额定条件下，电路处于正常工作状态。而交流电则是实际电力网中使用的电力形式，按照正弦规律变化，即使在需要直流电的行业也多是通过交流电整流获得。\n\n建筑供配电系统的设计和运行是建筑工程中一个至关重要的环节，其正确性和稳定性直接关系到建筑物内部设备的正常运行和电力安全。通过了解建筑供配电系统的基本知识，可以更好地理解和应用这些原理，从而提高建筑电力系统的效率和可靠性。在课件中介绍了电工基本知识，包括电路的基本概念、电路的基本物理量和电路的工作状态。这些知识不仅对电气工程师和建筑设计师有用，也对一般人了解电力系统和用电有所帮助。\n\n值得一提的是，建筑供配电系统在建筑工程中的重要性不仅仅是提供电力支持，更是为了确保建筑物的安全性。在建筑供配电系统设计中必须考虑到保护装置的设置，以确保电路在发生故障时及时切断电源，避免潜在危险。此外，在电气设备的选型和布置时也需要根据建筑的特点和需求进行合理规划，以提高电力系统的稳定性和安全性。\n\n在实际应用中，建筑供配电系统的设计和建设需要考虑多个方面的因素，如建筑物的类型、规模、用途、电力需求、安全标准等。通过合理的设计和施工，可以确保建筑供配电系统的正常运行和安全性。同时，在建筑供配电系统的维护和管理方面也需要重视，定期检查和维护电气设备，及时发现和解决问题，以确保建筑物内部设备的正常使用。\n\n总的来说，建筑供配电系统是建筑工程中不可或缺的一部分，其重要性不言而喻。通过学习建筑供配电系统的相关知识，可以更好地理解和应用这些原理，提高建筑电力系统的效率和可靠性，确保建筑物内部设备的正常运行和电力安全。建筑供配电系统的设计、建设、维护和管理都需要严谨细致，只有这样才能确保建筑物的电力系统稳定、安全、高效地运行。","stitle":"建筑供配电系统相关课件.pptx"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F4wz7u4cmws","sdescription":"企业治理是一个复杂而重要的议题，在现今激烈竞争的商业环境中，企业如何有效地实现治理，保证稳健、快速、健康运行，已成为每一个企业家不可回避的现实问题。企业的治理模式是企业内外环境变化的反映，随着股东、经营代理人等因素的变化而产生改变，同时也受外部环境变数的影响。在这样的背景下，G 治理模式应运而生，以追求治理最优境地作为动力，致力于创造一种崭新的治理理念和治理模式体系。\n\nG 治理模式是在大量治理理论和实践经验基础上总结得出的，针对企业治理实际需要提出的一套治理思想、程序、制度和方法论体系。在运作规范化的企业组织中，体现其治理模式特性的是企业的治理制度。企业的治理制度应是动态而柔性的，需要随着内外环境变化而灵活调整，以适应变化、调控企业行为，保证企业运行稳固、快速、健康。\n\n企业管理规章制度及管理模式中深入探讨了企业治理制度的导论，提出了企业治理模式的重要性，以及G 治理模式与企业制度创新再造的关系。G 治理模式是一种以追求治理最优境地为基点的治理理念和模式，它的出现为企业管理带来了全新的思维方式和方法论，有效地指导和规范企业的内部管理行为，推动企业朝着更加健康、稳定的方向发展。\n\n随着竞争日益激烈，企业所面临的内外环境变化也愈发频繁和复杂，这就要求企业必须不断调整和创新自身的治理模式和制度，才能在激烈的市场竞争中立于不败之地。而G 治理模式的提出，为企业管理者提供了一种全新的思路和方法，帮助他们更好地应对复杂多变的环境挑战，使企业的治理制度能够及时跟随环境变化而调整，保证企业能够健康、稳定地发展。\n\n总的来说，企业管理规章制度及管理模式中的G 治理模式是一种战略性、前瞻性的管理理念，它对企业的管理提出了新的要求和挑战，同时也为企业提供了一种实现治理最优境地的新途径。企业管理者应当不断学习和思考，积极应用G 治理模式，不断优化企业的治理制度，以应对竞争日益激烈的市场环境，确保企业能够持续快速、稳健、健康地发展。 G 治理模式与企业制度创新再造相互影响、相互促进，共同推动着企业向着更高水平的治理与管理迈进，实现企业长期可持续发展的目标。","stitle":"企业管理规章制度及管理模式.doc"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F6im7vk7q8h","sdescription":"The \"vb打开摄像头.doc\" is a document that provides instructions on how to open a camera in a Visual Basic program. The document discusses the use of Private Const WS_CHILD, a constant that is used to create a child window within a parent window. This constant is essential for creating a window that will display the camera feed in the Visual Basic program.\n\nOpening a camera in Visual Basic requires the use of specific codes and functions to communicate with the camera hardware and display the video feed within the program. The document outlines the step-by-step process of initializing the camera, capturing the video stream, and displaying the camera feed on the screen.\n\nIn order to open a camera in Visual Basic, it is important to understand the concept of child windows and how they can be created using the Private Const WS_CHILD constant. This constant allows the camera feed to be displayed within a designated area of the parent window, making it easier to integrate the camera functionality into the overall user interface of the program.\n\nBy following the instructions provided in the \"vb打开摄像头.doc\" document, developers can successfully open a camera in their Visual Basic program and access the live video stream from the camera. This capability can be useful for a variety of applications, such as video conferencing, surveillance systems, and image processing.\n\nIn conclusion, the \"vb打开摄像头.doc\" provides valuable information on how to open a camera in a Visual Basic program using the Private Const WS_CHILD constant. By understanding the concepts presented in the document and following the recommended steps, developers can enhance the functionality of their programs by integrating camera capabilities and accessing live video feeds.","stitle":"vb打开摄像头.doc"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F12ahyfn4wx","sdescription":"云计算-可信计算中认证协议改进方案.pdf提出了对可信计算的研究方向，并介绍了可信计算的基本概念和背景。可信计算是指在任意操作条件下，一个可信组件、操作或过程的行为是可预测的，并能有效地抵抗不良代码和物理干扰的破坏。这种计算首先确保了所有终端的安全性，通过安全的组件来构建更大的安全系统。可信计算强调了行为结果的可预测性和可控性，确保实体在实现给定目标时行为总是符合预期。为了保证计算节点的安全性，需要确保权限的唯一性、限定性，以及工作空间的完整性和可用性，并确保机密性、完整性的存储、处理和传输，还需要确保硬件环境配置和密钥操作的安全，保障系统免受病毒和黑客等攻击的影响。\n\n针对当前PC机存在易被篡改和破坏的安全隐患，引入了可信平台模块（TPM）来解决安全性问题。通过在计算机上增加一个控制节点TPM，可以对整个计算过程进行控制和验证，不需要对应用程序进行配置。TPM是一个以密码技术为核心的模块，可以确保计算机系统的安全性，有效防止恶意软件攻击。可信计算规范制定组织是由2000年美国卡内基梅隆大学与美国国家宇航总署（NASA）的艾姆斯研究中心牵头，联合大公司成立的TCPA。在这个规范的指导下，TPM的应用可以有效地增强计算机系统的整体安全性。\n\n云计算-可信计算中认证协议改进方案.pdf对现有的认证协议进行了改进，以应对新的安全挑战和需求。通过引入更加安全可靠的认证机制，可以提高云计算系统的安全性和可信度。该文献提出了一些针对认证协议的具体改进方案，为构建更加安全可靠的云计算系统提供了有力支持。\n\n总的来说，云计算-可信计算中认证协议改进方案.pdf对可信计算的基本概念、背景和应用进行了深入探讨，提出了一些针对性的解决方案，为加强云计算安全性和可信度提供了有益的指导。通过改进认证协议和引入可信平台模块，可以有效地防范各种安全风险和威胁，保障云计算系统的正常运行和数据安全。随着信息技术的快速发展，可信计算将在未来起到越来越重要的作用，需要不断研究和创新，以满足不断变化的安全需求。","stitle":"云计算-可信计算中认证协议改进方案.pdf"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F2u87w34or8","sdescription":"本文档详细介绍了单片机编程的第四章内容：MCS-51单片机的系统扩展。该章节包括了系统扩展的基本概念、程序存储器的扩展、数据存储器的扩展、定时器\u002F计数器的扩展、输入\u002F输出口的扩展、外部中断源的扩展以及综合功能扩展。\n\n在系统扩展的基本概念部分，首先回顾了最小系统的结构，指出了8051\u002F8751最小应用系统的特点包括全部I\u002FO口线均可供用户使用，内部存储器容量有限，应用系统开发有特殊性。接着介绍了系统扩展的相关概念和MCS-51单片机的片外总线结构。\n\n在程序存储器的扩展部分，讲述了如何扩展程序存储器以增加单片机的功能和性能。通过使用外部存储器，可以扩展地址空间并增加可执行代码的存储容量。\n\n数据存储器的扩展部分涵盖了如何扩展数据存储器以增加单片机的数据处理能力。通过连接外部数据存储器，可以存储更多的数据并实现更复杂的算法和逻辑操作。\n\n定时器\u002F计数器的扩展部分介绍了如何扩展定时器和计数器以实现更精确的计时和计数功能。通过外部扩展模块，可以增加定时器和计数器的数量和功能，满足不同应用场景对时间和频率的要求。\n\n输入\u002F输出口的扩展部分详细讲解了如何扩展输入和输出口以连接外部设备和传感器。通过外部扩展模块，可以增加I\u002FO口的数量和功能，实现更丰富的外部设备接口和数据交互。\n\n外部中断源的扩展部分介绍了如何扩展外部中断源以实现更灵活的中断处理功能。通过连接外部中断源，可以实现更多种类的中断触发和处理方式，提高系统的响应速度和稳定性。\n\n综合功能扩展部分综合了以上内容，介绍了如何结合程序存储器扩展、数据存储器扩展、定时器\u002F计数器扩展、输入\u002F输出口扩展和外部中断源扩展，实现更复杂和多功能的单片机系统。通过合理的系统扩展设计，可以满足不同应用场景对单片机功能和性能的需求，提高系统的可靠性和灵活性。\n\n总的来说，本文档详细且完整地介绍了MCS-51单片机的系统扩展内容，对于单片机编程学习者和工程师来说具有很高的借鉴和参考价值。欢迎大家下载和使用这份精心准备的讲义，如果有任何问题和疑惑，也欢迎及时联系作者进行沟通交流。祝大家在单片机编程的学习和应用中取得更大的成就和进步！","stitle":"[详细完整版]单片机编程4.ppt"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F46ui5uwewo","sdescription":"C程序设计的常用算法是指计算机解决问题的基本思想方法和步骤。算法的描述是对解决问题或完成任务所采取的具体方法和步骤的描述，包括输入输出数据、数据结构、语句使用以及语句安排等方面。通常通过自然语言、结构化流程图、伪代码等方式来描述算法。\n\n在C语言中，常用的算法可以分为几类，比如计数、求和、求阶乘等简单算法。这些问题通常需要使用循环来解决，需要注意循环变量的初始化、终止条件，以及用来表示计数、求和、阶乘的变量的初值。举例来说，可以通过随机函数生成100个在[0,99]范围内的随机整数，然后统计个位上的数字为1、2、3、4、5、6、7、8、9、0的数的个数并打印出来。这个问题可以通过使用数组来解决，可以使用一个数组a[100]来存放生成的100个随机整数，另一个数组x[10]来存放个位数的统计情况，即个位是1的个数存放在x[1]中，个位是2的个数存放在x[2]中，依此类推。\n\n一个实现这个问题的C程序可能如下所示：\n```c\n#include\u003Cstdio.h\u003E\n#include\u003Cstdlib.h\u003E\n\nint main() {\n int a[100], x[10] = {0}, i;\n\n \u002F\u002F 生成随机数\n for (i = 0; i \u003C 100; i++) {\n a[i] = rand() % 100;\n x[a[i] % 10]++;\n }\n\n \u002F\u002F 打印统计结果\n for (i = 0; i \u003C 10; i++) {\n printf(\"个位数为 %d 的个数为：%d\\n\", i, x[i]);\n }\n\n return 0;\n}\n```\n\n这段代码使用rand()函数生成随机数，并通过对10取模得到个位数，然后根据个位数统计个数并打印出来。这是一个简单的算法示例，展示了如何使用数组和循环来解决问题。\n\n总之，C程序设计的常用算法是解决计算机问题的核心思想和方法，通过合理描述、构建算法，可以更加高效地解决各种问题。在实际编程中，根据具体问题选择合适的算法并正确实现是非常重要的。希望通过学习和掌握这些常用算法，能够提升自己的编程能力和解决问题的能力。","stitle":"c语言常用算法.pdf"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F7s36nj9ex1","sdescription":"在\"c 经典程序代码大全.pdf\"这本经典的程序代码手册中，我们可以找到关于如何根据半径计算圆的周长和面积的代码示例。在这本手册中，作者提供了一种简单而有效的方法来解决这个常见的数学问题。通过使用合适的数学公式和适当的编程语言语法，我们可以很容易地编写一个程序来计算任意给定半径的圆的周长和面积。\n\n首先，对于任何给定的圆，我们知道周长可以通过公式2πr来计算，其中r是圆的半径，π是一个近似值为3.14159的数学常数。而圆的面积可以通过公式πr^2来计算。在编写代码时，我们只需要将这两个公式转化为适当的编程语言语法即可。\n\n在这本手册中，作者可能会提供多种不同编程语言的代码示例，比如C语言、Python、Java等。无论选择哪种语言，基本的计算原理都是相同的。我们只需要定义一个变量来存储半径的值，然后根据上述公式来计算周长和面积，并将结果打印输出。\n\n举例来说，如果我们选择C语言来编写这个程序，我们可以先定义一个叫做radius的变量来存储圆的半径值。然后，我们可以使用printf函数来将计算出的周长和面积输出到屏幕上。整个代码看起来可能像这样：\n\n#include \u003Cstdio.h\u003E\n#define PI 3.14159\n\nint main() {\n float radius, circumference, area;\n\n printf(\"请输入圆的半径：\");\n scanf(\"%f\", &radius);\n\n circumference = 2 * PI * radius;\n area = PI * radius * radius;\n\n printf(\"圆的周长为：%f\\n\", circumference);\n printf(\"圆的面积为：%f\\n\", area);\n\n return 0;\n}\n\n通过这段代码，我们可以很容易地计算任意给定半径的圆的周长和面积，并在屏幕上显示结果。这个程序简单易懂，但功能强大，可以帮助我们快速解决这个常见的数学问题。\n\n总之，在\"c 经典程序代码大全.pdf\"这本经典手册中，我们可以找到关于如何根据半径计算圆的周长和面积的代码示例。这些示例代码不仅仅是一种解决问题的方法，更是一种学习编程思维和实践的宝贵资源。无论是初学者还是有经验的程序员，都可以从这本手册中受益匪浅，提升自己的编程水平。愿大家在编程的道路上越走越远，不断学习，不断进步！","stitle":"c++经典程序代码大全.pdf"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F5h1xz8pcdq","sdescription":"钟时间.Keywords: microcontroller, control, display, time adjustment.\n\n二、功能实现\n本设计实现了时钟的基本功能，包括显示时间和设置闹钟功能。时钟的显示采用了八位数码管，通过单片机控制各个数码管的段选和位选信号，显示当前的时、分、秒。同时，利用计数器中断程序实现每秒钟的精确计数，从而确保时钟的准确性。另外，通过按钮可以进行时钟和闹钟的时间设置和校对，使时钟功能更加实用。\n\n三、系统结构\n时钟系统主要包括单片机89S52、数码管、晶振、按钮等部件。单片机89S52作为系统的核心，负责控制时钟的功能。数码管用于显示时钟的时、分、秒信息。晶振提供时钟脉冲信号，保证单片机的工作稳定。按钮用于设置和校对时钟和闹钟时间。系统通过电路连接各部件，完成时钟的功能。\n\n四、原理介绍\n1. 单片机89S52\n单片机89S52是一款功能强大的单片机，具有丰富的外设和强大的控制能力。本设计中，89S52作为时钟系统的核心，通过编程控制各个部件的工作，实现时钟的功能。\n2. 数码管\n数码管是一种用于显示数字的显示器件，可以显示0-9的数字以及一些字母和符号。本设计使用了八位数码管，每个数码管显示一个数字，通过单片机控制数码管的段选和位选信号，实现时钟的显示功能。\n3. 计数器中断程序\n计数器中断程序用于实现每秒一次的计数，通过中断的方式来保证计数的准确性。当计数器达到设定的值，产生中断信号，单片机响应中断处理程序，完成一次计数操作，从而实现秒的精确计数。\n4. 按钮\n按钮用于设置和校对时钟和闹钟时间，通过按钮按下和释放的信号来响应单片机的设置和校对指令，实现时钟的时间调节功能。按钮在实际应用中起到了重要的作用，使时钟使用更加方便。\n\n五、实验结果\n经过实验验证，时钟系统的各功能正常运行，能够准确显示时、分、秒信息，并实现了时钟和闹钟时间的设置和校对功能。时钟显示清晰、稳定，操作简单方便。实验结果表明，该时钟系统设计成功，达到了预期的效果。\n\n六、结论\n本设计基于单片机89S52实现了数字时钟功能，通过数码管显示时间，计数器中断程序实现精确计数，按钮实现时间设置和校对功能，实现了时钟的基本功能。时钟系统结构简单，功能实用，可以应用于日常生活中，提供了一种简单而实用的时钟解决方案。通过实验验证，时钟系统工作稳定，显示清晰，操作方便，达到了设计要求。总的来说，该数字时钟设计成功，具有一定的实用价值和推广意义。","stitle":"单片机数字时钟资料.doc"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F79h2eo7ftg","sdescription":"项目管理前沿是工程项目管理领域中一个重要的议题，它意味着不仅要在评价过去的基础上寻求改进，更要与客户一起开展工作的全新方式。在这个领域，信息沟通的重要性愈发凸显出来。传统建筑业在信息沟通方面存在着落后的现状，但同时也呈现出一些最新的发展趋势。\n\n项目建设中的信息沟通是指项目参与各方在项目建设过程中对项目信息的交换与共享。而在项目管理中，沟通、协调和合作三者是密不可分的。其中，沟通被视为协调与合作的前提和基础。然而，在当今信息时代，项目参与方常常“淹没”在浩瀚的信息海洋中，导致不必要信息的“过载”以及有效信息的“短缺”。同时，以纸张为传递媒介也使得纸张泛滥成灾。因此，解决信息沟通问题成为提高项目管理效率和质量的关键。\n\n为了应对这一挑战，项目管理者需要关注最新的信息沟通工具和方法。其中，项目专题网站（Project-specific Web Site）和项目信息门户（Project Information Portal）是两种被广泛采用的工具。项目专题网站为项目团队提供了一个集中、实时的信息交流平台，便于团队成员随时获取项目相关信息。而项目信息门户则是通过整合项目信息资源，为项目参与方提供了一个方便、快捷的信息检索和共享平台。这些工具的应用，不仅有助于解决信息过载和信息短缺的问题，也提升了项目团队的信息共享和协作效率。\n\n在信息沟通方面，项目管理前沿始终注重“3C”，即沟通、协调和合作。沟通作为协调和合作的基础，不仅仅是信息的传递，更是理解和沟通双方需求的桥梁。通过采用新颖的信息沟通工具和方法，以及建立良好的沟通机制，能够提高项目团队的协作效率，减少信息传递误差，从而推动项目管理的创新与发展。\n\n总的来说，项目管理前沿关注信息沟通的重要性，并努力寻求适合当今信息时代需求的解决方案。通过采用先进的信息沟通工具和方法，加强团队间的沟通和协作，可以提高项目管理的效率和质量，推动工程项目管理领域的不断创新和进步。因此，建议项目管理者和团队不断关注信息沟通领域的最新发展，积极采用新技术和方法，以实现项目管理的持续改进和优化。","stitle":"11项目管理前沿1.0.pptx"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F1qzt78v65r","sdescription":"heir own advantages through scientific and technological means; \"Charm\" Fan Zhi publicity website system of course cannot be excluded. With the continuous maturity of network technology, it has driven the development of the \"Charm\" Fan Zhi publicity website system and completely changed the traditional management methods of the past. It not only reduces the difficulty of service management, but also enhances the flexibility of management. \n\nThis personalized platform pays special attention to the coordination of interaction and management, stimulating the creativity and initiative of management personnel, which is very beneficial for the \"Charm\" Fan Zhi publicity website system. The database used in this system is Mysql, developed using JSP technology, running environment using Tomcat server, and MyEclipse is the development platform of this system. \n\nIn the design process, we fully ensure the good readability, practicality, scalability, generality, ease of later maintenance, ease of operation, and simplicity of the system code. Keywords: \"Charm\" Fan Zhi publicity website, JSP, Mysql.","stitle":"基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F2q4370ov89","sdescription":"智慧交通综合解决方案是在整个交通运输领域充分利用物联网、空间感知、云计算、移动互联网等新一代信息技术的基础上，综合运用交通科学、系统方法、人工智能、知识挖掘等理论与工具，以全面感知、深度融合、主动服务、科学决策为目标。通过建设实时的动态信息服务体系，深度挖掘交通运输相关数据，形成问题分析模型，实现行业资源配置优化能力、公共决策能力、行业管理能力、公众服务能力的提升，从而推动交通运输更安全、更高效、更便捷、更经济、更环保、更舒适的运行和发展，带动交通运输相关产业转型、升级。\n\n城市交通是一个充满挑战的领域，交通拥堵、交通事故、光化学污染、环境污染和能耗等问题已经成为影响社会生活和经济发展的重要因素。智慧交通综合解决方案通过城市交通方案的实施，成功案例已经遍布134个城市，为解决交通问题提供了重要参考。在交通指挥系统相关业务介绍中，道路视频监控、交通违法取证、机动车缉查布控、交通信号控制、交通事件监测、云存储、交通信息发布等方面发挥了重要作用，实现了城市交通的综合管理。通过交通指挥系统的建设，解决了城市交通事故频发和秩序混乱等问题，有效提高了城市交通资源的利用效率，减少了经济损失和环境污染。\n\n在智慧交通综合管控解决方案的背景下，城市交通面临着种种挑战，需要通过科技手段来解决。智慧交通综合解决方案的出现，为城市交通运输带来了全新的管理模式和运营方式。通过道路视频监控、交通违法取证、机动车缉查布控、交通信号控制、交通事件监测、云存储、交通信息发布等系统的运用，智慧交通系统实现了对交通资源的优化管理和监控，提高了交通运输效率和安全性。\n\n在交通指挥系统的相关业务介绍中，各个系统相互配合，共同构建了一个完整的城市交通运输信息管理系统。通过道路视频监控系统实现对道路情况的实时监测，交通事件监测系统可及时掌握交通事故信息，交通信号控制系统可优化交通信号的配时，从而缓解交通堵塞，提高交通运输效率。云存储系统提供了数据的安全存储和共享，机动车缉查布控系统通过实时监控车辆位置，提高了交通安全管理水平。交通违法取证系统和交通信息发布系统则为公众提供了更加便捷的交通服务。\n\n总的来说，智慧交通综合解决方案通过科技手段实现了城市交通的智能化管理和运营，有效提高了交通资源的利用效率，减少了交通事故发生率，改善了交通环境，促进了城市交通的可持续发展。随着智慧交通技术的不断发展和完善，城市交通将进一步向着更安全、更高效、更便捷、更环保、更舒适的方向发展，推动城市交通产业的转型升级，为城市可持续发展做出更大的贡献。","stitle":"智慧交通综合解决方案.pptx"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002Fewxh862fyu","sdescription":"建筑防潮设计是建筑工程领域中一个重要的设计要素。在建筑防潮设计的过程中，首先需要了解基本知识。材料的吸湿是建筑防潮设计中不可忽视的现象，通过将一块干的材料试件置于湿空气中，材料试件会逐步吸收水蒸汽而受潮。在达到热平衡和湿平衡时，材料的湿度称为平衡湿度，最大吸湿湿度则是在相对湿度为100%的条件下的平衡湿度。在建筑防潮设计中，图中的ω100、ω80、ω60等表示在不同相对湿度条件下的平衡湿度，等温吸湿曲线的形状呈\"S\"形，表明了材料的吸湿机理分三种状态。材料的吸湿湿度在相对湿度相同时，随着温度的降低而增加。此外，在围护结构中的水分迁移也是建筑防潮设计中需要考虑的因素。当材料内部存在压力差、湿度差和温度差时，会引起材料内部的水分迁移，围护结构的蒸汽渗透也是重要的影响因素之一。\n\n在建筑防潮设计中，除了基本知识外，还需要考虑如何有效地控制水分的迁移和渗透。建筑防潮设计不仅仅是为了防止建筑材料受潮而影响建筑结构的使用寿命，还要考虑到建筑内部的空气质量和对居住者的健康影响。因此，在建筑防潮设计中需要综合考虑材料的吸湿特性、围护结构的水分迁移和蒸汽渗透等多方面因素。\n\n在实际的建筑工程中，建筑防潮设计是一个综合性的工程设计，需要建筑设计师、结构工程师、材料工程师等多个领域的专业人员共同合作。通过合理设计建筑外墙、屋顶、地板等围护结构，采用适当的防潮材料和技术手段，可以有效地防止水分的渗透和迁移，保证建筑结构的稳定性和耐久性。同时，建筑防潮设计也需要考虑建筑的通风、排气和空调系统，在保持室内环境舒适的同时，有效控制建筑内部的湿度，避免霉菌和细菌的滋生。\n\n总的来说，建筑防潮设计是建筑工程中至关重要的一个环节，通过深入了解材料的吸湿特性、围护结构的水分迁移和蒸汽渗透等知识，结合实际工程经验和专业知识，可以有效地提高建筑结构的抗潮能力，延长建筑的使用寿命，保障建筑内部环境的质量，实现建筑工程的可持续发展。建筑防潮设计需要综合考虑各个方面的因素，通过合理设计和科学施工，为建筑工程的稳定性和耐久性提供可靠保障。","stitle":"建筑防潮设计-PowerPointPresentati.pptx"},{"surl":"https:\u002F\u002Fwenku.csdn.net\u002Fdoc\u002F2k7jfj7omn","sdescription":"SPC统计过程控制程序.pptx是一套由品保***编写的教程，旨在通过研讨，交流和提高来帮助学员掌握SPC统计过程控制的基本内容。本次培训包括了以下主要内容：为什么要学习SPC、认识SPC、统计学基础、控制图原理、判断过程异常的准则、SPC推行的具体步骤以及过程能力分析。\n\n在学习SPC之前，我们首先需要明确为什么要学习SPC。质量是企业生存和发展的基石，而质量控制的核心是SPC统计过程控制。通过学习SPC，企业可以实现从产品控制到过程控制的进步，建立起SPC系统，关注源自顾客的输入信息，集中精力于不良品的预防，持续降低加工变差和服务变差。质量控制发展的主要阶段包括传统质量管理阶段、手工统计管理阶段、全面质量管理阶段和认证与电脑统计阶段，不断强调过程控制的重要性。\n\n通过学习SPC，我们可以更好地了解什么是质量，即一组固有特性满足要求的程度。为了获得高质量的产品和服务，公司必须关注顾客需求，进行不良品的预防而非检测，实行过程控制而非产品控制，持续改进加工和服务的质量。SPC的前景和重要性日益凸显，企业需要不断提升SPC的应用水平，从而提高产品和服务的质量。\n\n在SPC统计过程控制程序中，我们还学习了统计学基础、控制图原理、判断过程异常的准则、SPC推行的具体步骤和过程能力分析。这些内容将帮助学员掌握SPC的基本原理和方法，有效地应用于实际的生产和服务过程中。通过分析过程能力，企业可以评估生产过程的稳定性和一致性，进而制定改进措施，提高生产效率和质量水平。\n\n总之，SPC统计过程控制程序是一套重要的质量管理教程，通过系统的学习和实践，可以帮助企业建立起高效的SPC体系，实现质量的持续改进和提升。学习SPC不仅有助于提高企业的竞争力和市场地位，还可以为企业创造更大的经济效益和社会效益。希望通过本次培训，学员能够深入理解SPC的重要性，掌握SPC的应用技巧，将其运用于工作实践中，为企业的可持续发展做出积极贡献。","stitle":"SPC统计过程控制程序.pptx"}],"commonConfig":{"armsConfig":{"config4Pc":"{pid:\"dyiaei5ihw@7fb361a16fa3212\",appType:\"web\",imgUrl:\"https:\u002F\u002Farms-retcode.aliyuncs.com\u002Fr.png?\",sendResource:true,behavior:true,sample:10,enableLinkTrace:true,enableApiCors: true,linkType:\"tracing\"}","config4Mobile":"{pid:\"dyiaei5ihw@9772815e201305f\",appType:\"web\",imgUrl:\"https:\u002F\u002Farms-retcode.aliyuncs.com\u002Fr.png?\",sendResource:true,behavior:true,sample:10,enableLinkTrace:true,enableApiCors: true,linkType:\"tracing\"}","sample":"10","config":"{\n \"pid\": \"dyiaei5ihw@7fb361a16fa3212\",\n \"appType\": \"web\",\n \"imgUrl\": \"https:\u002F\u002Farms-retcode.aliyuncs.com\u002Fr.png?\",\n \"sendResource\": true,\n \"enableLinkTrace\": true,\n \"behavior\": true\n}"},"feOrderVersion":{"wapVersion":{"orderPaymentVersion":"3.0.1"},"pcVersion":{"orderCartVersion":"3.0.0","orderTipVersion":"5.0.1","orderPaymentVersion":"3.1.1-download-e"}},"spmWenKuDetailsPageConfig":{"buyVipBottom":"1003.2020.3001.6505","authorIM":"1003.2020.3001.5737","limitedTimeCouponGoToUse":"1003.2020.3001.6660","employeeIdentityVerification":"1003.2020.3001.4169","downloadNowBottom":"1003.2020.3001.6504","rightSideMyScore":"1003.2020.3001.6248","hotRankList":"1003.2020.3001.7010","yearCardFullReduction":"1003.2020.3001.6521","latestResources":"1003.2020.3001.4174","superYearCard":"1003.2020.3001.6522","previewDownload":"1003.2020.3001.4257","authorResource":"1003.2020.3001.5449","bulletFramePurchaseMember":"1003.2020.3001.5553","authorFans":"1003.2020.3001.5450","bulletFrameVipDownload":"1003.2020.3001.5552","openVipToEnjoyDownload":"1003.2020.3001.5718","boutiqueAlbum":"1003.2020.3001.6627","detailsPage":"1055.2568","popularResources":"1003.2020.3001.6659","studentIdentityVerification":"1003.2020.3001.4170","guideVip":"1003.2020.3001.7461","certification":"1003.2020.3001.4168","twoInOneDownload":"1003.2020.3001.6509","resourceTag":"1003.2020.3001.6243","rightSideMyResource":"1003.2020.3001.6246","authorCourse":"1003.2020.3001.6244","collect":"1003.2020.3001.6639","breadcrumbs":"1003.2020.3001.5735","rightHotResourcesRecommendation":"1003.2020.3001.6790","rightSideCourseRecommendation":"1003.2020.3001.6523","satisfactionSurvey":"1003.2020.3001.5712","rightSideDownloaded":"1003.2020.3001.6250","authorFollow":"1003.2020.3001.5736","studentCertification":"1003.2020.3001.6613","operatingPosition":"1003.2020.3001.6671","bottomRecommendation":"1003.2020.3001.6616","rightSideMyEarnings":"1003.2020.3001.6247","uploadResource":"1003.2020.3001.4171","rightSideMyFavorites":"1003.2020.3001.6249","previewDownloadBtn2LotteryClosed":"1003.2020.3001.6474","hotRankMore":"1003.2020.3001.7011","buyVip":"1003.2020.3001.4167","advertisement":"1003.2020.3001.6556","confirmDownload":"1003.2020.3001.5554","leftSideUpload":"1003.2020.3001.4172","downloadNow":"1003.2020.3001.4165","previewDownloadBtn2Lottery":"1003.2020.3001.6458","nonStudentCertification":"1003.2020.3001.6614","directMessageToTheChatPage":"1003.2020.3001.5737","twoInOneDownloadBottom":"1003.2020.3001.6510","authorColumn":"1003.2020.3001.6245","downloadBtn2Vip":"1003.2020.3001.5553","report":"1003.2020.3001.6640","comment":"1003.2020.3001.6638"},"seoTdkMeta":{"csdnBaiduSearch":"社交媒体紧急救援,WWW,2018会议,短文本分类算法,TF-IDF特征表示,灾难期间的短文本应用","tdkAbTest":"experiment2","metaDesc":"资源浏览查阅160次。主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1629∈类特定的TF-IDF Boosting短文本分类算法在灾难期间生成的短文本中的应用摘要Samujjwal GhoshIIT Hyderabad海得拉巴,更多下载资源、学习资料请访问CSDN文库频道","showTdkTime":false,"metaTitle":"社交媒体在紧急救援和准备中的应用及TF-IDFBoosting算法的研究 - CSDN文库","metaKeyword":"社交媒体紧急救援,WWW,2018会议,短文本分类算法,TF-IDF特征表示,灾难期间的短文本应用"},"staticEndpointConfig":{"navSecondCss":"https:\u002F\u002Fg.csdnimg.cn\u002Fnav-second\u002F1.0.3\u002Fcss\u002Fnav-second.css","mpMyDownload":"https:\u002F\u002Fmp.csdn.net\u002Fmp_download\u002Fmanage\u002Fdownload\u002FDownloadDetailed","leveUserMedalImagePath":"\u002Fstatic_files\u002Fpc\u002Fimages\u002Flevel\u002Flevel_","studentUrl":"https:\u002F\u002Fi.csdn.net\u002F#\u002Fuser-center\u002Fprofile?floor=edu","collectionJs":"https:\u002F\u002Fg.csdnimg.cn\u002Fcollection-box\u002F2.0.6\u002Fcollection-box.js","userLoginJsVersion":"3.0.0","mpMyScoreUrl":"https:\u002F\u002Fmp.csdn.net\u002Fconsole\u002FdataWatch\u002FdownList","downloadHelperBlog":"https:\u002F\u002Fblog.csdn.net\u002Fblogdevteam\u002Fcategory_9584548.html","sourcesUploadUrl":"https:\u002F\u002Fmp.csdn.net\u002Fconsole\u002FuploadResources","meHost":"https:\u002F\u002Fblog.csdn.net\u002F","authUrl":"https:\u002F\u002Fi.csdn.net\u002F#\u002Fuc\u002Fprofile","csdnBuyVipPath":"https:\u002F\u002Fmall.csdn.net\u002Fvip","qrcodeJquery":"\u002F\u002Fg.csdnimg.cn\u002Flib\u002Fqrcode\u002F1.0.0\u002Fqrcode.min.js","navSecondJs":"https:\u002F\u002Fg.csdnimg.cn\u002Fnav-second\u002F1.0.4\u002Fnav-second.js","sideToolbarJs":"https:\u002F\u002Fg.csdnimg.cn\u002Fside-toolbar\u002F3.0\u002Fside-toolbar.js?t=1594881824401","mpMySourceUrl":"https:\u002F\u002Fmp.csdn.net\u002Fconsole\u002FupDetailed","blogHost":"https:\u002F\u002Fblog.csdn.net\u002F","imHost":"https:\u002F\u002Fim.csdn.net\u002Fchat\u002F","MyHost":"https:\u002F\u002Fmy.csdn.net\u002F","downloadCdnPath":"\u002Fstatic_files","certImage":"\u002Fstatic\u002Fpc\u002Fimages\u002Fcert_.png","certEmployeImage":"\u002Fstatic\u002Fpc\u002Fimages\u002Fcert_employe.png","downloadPathSource":"https:\u002F\u002Fmp.csdn.net\u002Fconsole\u002FuploadResources","medalJs":"https:\u002F\u002Fg.csdnimg.cn\u002Fuser-medal\u002F1.0.5\u002Fuser-medal.js","userVoiceVerificationJs":"https:\u002F\u002Fg.csdnimg.cn\u002Fuser-voice\u002F1.0.4\u002Fuser-voice-verification.js","reportJsVersion":"1.5.7","loginBoxJs":"https:\u002F\u002Fg.csdnimg.cn\u002Flogin-box\u002F1.1.4\u002Flogin-box.js","vipImg":"https:\u002F\u002Fcsdnimg.cn\u002Fidentity\u002Fvip.png","employeeAuthUrl":"https:\u002F\u002Fi.csdn.net\u002F#\u002Fuser-center\u002Fprofile?floor=job","certStudentImage":"\u002Fstatic\u002Fpc\u002Fimages\u002Fcert_student.png","iMyFavUrl":"https:\u002F\u002Fi.csdn.net\u002F#\u002Fuc\u002Fcollection-list","bindUrl":"https:\u002F\u002Fi.csdn.net\u002F#\u002Faccount\u002Fbind","certRealnameUrl":"\u002Fstatic\u002Fpc\u002Fimages\u002Fcert_realname.png"}},"curUserInfo":{"myEarning":0,"cBeans":0,"mySourcesNum":"0","cCoin":0,"showCBeansBool":true,"effectRiskAccount":false,"myIntegralNum":0},"spider":true,"templateName":"index-translate-pdf","ID":"d8w814d85u","sourceInfo":{"sourceId":88432731,"sourcesIsessence":6,"loginUsername":"","rating":0,"isWhiteListAuthor":false,"isAllowDownload":true,"blindBox":{"url":"https:\u002F\u002Fmall.csdn.net\u002Fvip?utm_source=vip_cth_xzxqy_xfc","imgUrl":"https:\u002F\u002Fimg-home.csdnimg.cn\u002Fimages\u002F20240521045217.gif"},"userIsVip":false,"previewData":{"previewList":[{"index":1,"content":"主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1629∈类特定的TF-IDF Boosting短文本分类算法在灾难期间生成的短文本中的应用摘要Samujjwal GhoshIIT Hyderabad海得拉巴，Telangana，INcs16resch01001@iith.ac.in毛南德拉·桑卡尔·德萨尔卡尔IITHyderabadHyderabad，Telangana，maunendra@iith.ac.inTF-IDF特征表示，每个文档或短文本都表示在短文本分类任务中，由于可用文本的数量非常少，特征的正确表达起着重要的作用。在文献中，术语频率-逆文档频率（TF-IDF）通常用于创建用于此类任务的特征向量然而，TF-IDF公式化不利用监督学习中可用的类信息对于分类问题，如果有可能识别出能够在类别之间强烈区分的术语，那么在进行FEA时就可以给予这些术语更多的权重表示为向量，其中字段对应于词汇表中的术语。存储在字段中的值是相应术语的TF-IDF分数。TF-IDF分数是该文档中的术语的术语频率（TF）和语料库中的该术语的逆文档频率（IDF）的乘积在数学上，TF-IDF可以表示为：TF IDF=t fi×logN真正的建设阶段。这可以通过并入额外的类标签相关信息而导致改进的分类器性能我们提出了一种有监督的特征构造方法dd fi其中tfi是项i在文档d中出现的次数，分类推文，基于可操作的信息，可能是DN是语料库中的文档总数，d f是是在不同的灾难场景中发布用于这种分类任务的改进的分类器性能可以在救援和救济操作中是有帮助的。我们使用了三个基准数据集，分别包含2015年和2016年尼泊尔和意大利地震期间发布的推文。实验结果表明，该方法在这些基准数据集上取得了较好的分类性能.关键词信息检索;短文本分类;特征工程;基于熵的特征生成ACM参考格式：Samujjwal Ghosh和Maunendra Sankar Desarkar。2018.用于短文本分类的类特定TF-IDF提升：应用于灾难期间生成的短文本。 In The 2018 WebConference Companion，2018年4月23日至27日，法国里昂。ACM，NewYork，NY，USA，9页。网址：\u002F\u002Fdoi. 沪ICP备11014558号-11引言像tweet这样的短文本由于其长度限制而包含非常有限的上下文信息。因此，使用机器学习技术对短文本进行分类是一项具有挑战性的任务。在这种情况下，特征向量的正确表达起着重要的作用在使用文本特征的减灾相关文献中，用于特征表示的最常见技术是词频-逆文档频率（TF-IDF）。在本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4\u002F18\u002F04。https:\u002F\u002Fdoi.org\u002F10.1145\u002F3184558.3191621出现术语i的文档数TF捕获文档中的术语的重要性，并且被计算为术语的频率的递增函数。另一方面，IDF试图衡量一个术语在语料库中的信息量。这里通常的假设是，如果一个术语在语料库中是频繁的，那么它没有太多的信息，而罕见的术语是更多的信息，因此是重要的。IDF被建模为术语的文档频率的递减函数。这种使用TF-IDF的特征构建策略通常用于分类文本文档-短[24]和长[25]。对于监督分类问题，假设标记的训练数据是可用的。基于TF-IDF的方法在特征构造期间不考虑这些类标签然而，从标记的数据中，可以识别具有区分性的术语，因此可以识别某些类别的强指标。我们希望在特征构造过程中添加不同类别之间的术语重要性（区分能力）作为额外信息。如果一个术语在特定类别中出现足够多的次数，但在其他类别中很少出现，则该术语被认为是有区别的。设t1和t2是在语料库中出现k次的两个术语。然而，t1在所有类别的文档中均匀出现，但t2在类别ci中出现的次数比在其他类别中出现的次数多得多（即cjC;cj≠ci）。项t1和t2的IDF得分将相同。然而，明显的是，项t2具有更大的辨别力，因为其在未来文档中的存在在我们的例子中是类Ci）。我们希望抓住不同术语的这种区别力并在特征构造阶段期间使用该信息在这项工作中，我们提出了技术，提高TF-IDF分数，以更好地代表类之间的长期分布然后，分类器可以利用这些额外的信息来做出更好的决策。这些通用技术可以应用于使用基于词袋的TF-IDF特征的不同应用我们应用了我们的建议主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1630方法对灾害相关推文进行分类，以了解其对使用传统TF-IDF的影响和有用性在灾难发生时，人们会在Twitter、微博等微博网站上发布大量的信息。这些帖子中的一些可能实际上包含关于对基础设施的损害、诸如水、药品等资源的需求的用它们包含的信息对这些帖子进行适当的注释可以帮助救援和救济行动，从而减轻受灾害影响的人们的痛苦。在文献中有许多关于正确利用灾害期间生成的短文本以有效地计划救援和救济行动的研究[8]，[10]，[11]，[13]，[18]，[20]，[23]。在这里，我们提出了与灾害相关的推文分类的不同工作的综合摘要。论文[8]提出了使用具有TF-IDF特征的各种算法对灾害相关推文分类的比较研究[10]中的作者提出了一个系统，该系统不仅可以过滤和分类英语推文，还可以处理与台风Lawin（国际名称：Haima）和Karen（国际名称：Sarika）相关的多语言推该系统是通过使用TF-IDF特征与支持向量机（SVM）分类器构建的。虽然[11]主要集中在基于神经网络的方法来检索与灾害相关的微博，但他们使用TF-IDF Rocchio分数来扩展他们的查询，然后在神经网络上使用它们[13]中采用了从未标记的目标数据中学习分类器的域自适应方法，其中作者利用从过去灾难中获得的信息来过滤与新灾难相关的推文。在改进的TF-IDF特征加权朴素贝叶斯分类器上使用自训练技术实现了领域自适应。[18]建立了一个系统，可以通过监控Twitter流来自动检测任何灾难的作者使用朴素贝叶斯和支持向量机作为他们的分类器与TF-IDF为基础的特征向量。在[20]中，作者提出了一种自动文本分类系统，该系统仅过滤与灾害相关的短文本。该方法的工作原理，通过选择突出的TF-IDF功能，使用卡方技术。[23]的作者进行了一项基于匹配和基于学习的方法之间的研究，以过滤灾难期间生成的相关推文。他们采用了各种技术，如地理标签信息，word 2 vec [17]嵌入以及TF-IDF分数。从这些讨论中我们可以看到，TF-IDF的使用在与灾害相关的推文分类领域非常常见。在这项工作中，我们专注于在灾难期间发布的信息推文分类的任务。我们考虑的示例类是与资源可用性和需求相关的、与基础设施损坏相关的等。即使分类性能的微小改进也可以帮助救援组织查看特定消息，并相应地做出决定以适当的方式引导救援操作。我们使用了三个灾难相关的鸣叫数据集来测试我们提出的功能constrc- tion技术的有效性。在这些基准数据集上，我们的方法显著优于基于TF-IDF的分类方法。本文的其余部分组织如下。在第二节中，我们讨论了TF-IDF评分修正领域的相关工作。我们在第3节中定义了这个问题。第4节详细讨论了所提出的方法。关于我们的实验设置以及数据集详细信息的讨论见第节5. 最后，我们将在第6节中介绍我们的实验结果。2相关工作在本节中，我们将从文献中查看不同的工作，这些工作涉及TF-IDF修改的变体以用于分类任务。然而，大多数技术是基于特征选择方法，而不是TF-IDF得分修改，其中基于术语的区分能力选择特征的子集。该子集选择可以使用各种方法来完成，如信息增益（IG）[2]、卡方[19]、互信息[26]等。然而，这些方法没有充分利用词在类中的出现频率. 然而，人们已经试验了不同的TF-IDF修饰技术。下面我们讨论文献中存在的一些这样的方法。[3]中的作者将二元语法与传统的基于一元语法的特征结合在一起，以结合额外的信息。虽然这种方法不会改变TF-IDF的值，但它们会增加词汇表中唯一特征的数量。他们表明，增加词汇量可能会提高分类器的性能。[5]的作者在生成特征时使用双正态分离（BNS）代替IDF。BNS根据其区分能力对术语进行排名。作者发现BNS的缩放项的重要性，没有任何特征选择，提高了他们的分类器的准确性。在[12]中，提出了一种基于熵的方法，称为基于熵的类别覆盖差异（ECCD），在该方法中，他们计算跨类的每个术语的熵，以获得不同类别浓度的术语的重要性。为了解决类别不平衡问题，[14]提出了一种基于概率的术语加权方案，该方案提高了数据点数量少于其他类别的类别的分类器性能在另一种方法中，使用语义修改的TF-IDF评分对生物医学数据进行分类[15]。使用修改后的特征集的SVM分类器的性能更好。Delta TF-IDF由[16]提出，它修改了TF-IDF分数，以更好地理解博客的情感 Delta部分通过取训练数据的积极和消极情绪的TF-IDF得分的差异来计算。在[21]中，作者使用了类似于IDF的逆类频率（ICF），其表示术语的重要性。 ICF对出现在少数类别中的术语给予最高分，对出现在许多类别中的术语给予最低分。结果表明，使用ICF而不是IDF可以获得更好的分类器性能。[22]显示了使用IG选择最突出的特征而不是使用所有特征的效果。他们发现使用IG提高了他们的分类准确性。[24]的工作提出了用于短文本分类任务的低粒度特征，主要关注中文文本。作者在[25]中还提出了两种基于熵的方法，称为tf.dc和tf.bdc，它们测量类之间的分布集中度（DC）在DC方法中，在类而不是文档上计算第二种方法提出了平衡分布集中度（BDC），它考虑了类大小来计算DC。然而，这些方法中的大多数针对长文本进行了调整，并且不针对上下文信息有限的短文本进行优化。3问题定义我们在这项工作中的主要目标是分类短文本，给定一组短文本和它们的类。该问题可以公式化为：主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1631Ic0，c，T F. IDFit\u003ECC1（）下一页KC2C所有类别的计数，即TC=k= 1tck。∑∑令T={tl，t2，···，tN}是N个文本数据点的集合，并且C={1， 2，···，m}是m个类的集合给定一个形式为{ti，ci，···，ci}的映射集，其中数据ti∈T4.2类归一化熵提升在这里，我们提出了第二种方法，它处理了4.1节中提到的低重调用问题。这种方法保留了AC-和类ci，···，ci∈C，我们的目标是找到所有适用的实际TF-IDF得分，并提高类特定术语1K新新数据t的类。作为边信息。这样，我们就可以保留一个...下面我们讨论我们提出在构造TF-IDF特征时利用术语类关系的方法。4该方法我们希望对未见过的短文本进行分类，给定一组短文本及其类标签作为训练数据。考虑到这一目标，我们首先尝试确定衡量术语关系的方法基于TF-IDF的分数的icance，并且还能够对已知的重要术语给予额外的提升在上文第4.1节中描述的熵度量遭受类大小不平衡，主要针对较小的类。在这种方法中，我们在计算术语的重要性权重（IW）时还考虑了类大小。我们可以如下计算类别c的项ti的IW：tciIW（t）=与不同阶级的关系然后我们看到这些信息ckc可以用来将新的tweet分配给适当的类。对于固有地特定于某些类的术语，我们期望它们的分布集中在这些类中。另一方面，在一项研究中，其中kc表示类别c中存在的项的数目。现在，我们通过根据以下等式考虑熵和重要性来计算类归一化熵（CNE）。通用术语可以大致均匀地分布在iTF. IDF（ti）+（1）A（1）A（）0所有的班级。一种常见的识别存在或不存在这种集中是通过熵。我们计算熵TF. C（tc）=中文（简体）否则的项tiasH（ti）=−∑pi×log（pi）C分母k用作归一化超参数。附加增压的效果可以通过改变增压器的温度来控制其中pi是如果术语ti存在于文档中的概率5实验细节Ci则该文档来自C类。我们将pc估计为ti在类c中存在的次数与它在所有类中存在的次数的比率。然后，用于计算项ti的熵的公式可以被写为：在我们的实验中，我们使用具有线性核的支持向量机（SVM）[4]作为我们的分类器。许多研究[8]，[10]，[18]，[20]发现SVM在disas中使用TF-IDF特征向量效果最好称为场景。具有三种不同TF-IDF提升方法的SVMMH（ti）=−TCI×log2（tci）.（一）用于实验。TFIDF表示简单TF-IDF值，表示具有归一化熵的TF-IDF值我们c=1tciTCI第4.2节中的另一种方法表示为TF。. 我们也其中tci表示类别c中的项ti的计数，并且tci表示类别c中的项t i的计数。在[12]中讨论的方法被称为ECCD和de-ci m i4.1归一化熵提升一旦我们计算了语料库中每个术语的熵，我们就想得到一个术语对每个类的信息量（集中）的估计。我们提出了一种基于熵的方法，称为归一化熵提升。我们通过下式计算项ti的归一化熵（NE）：在表4 1中标记为TF.IDFECCD。5.1数据集三个灾难相关的推文数据集被用于实验。[6] 和2017年（FIRE17）[1]数据集，其中包含2015年尼泊尔地震期间发布的推文。FIRE16和FIRE17的类别详细信息分别在表1a和1b中提及。我们还测试了“社交媒体用于紧急救援和准备-NE（ti）=Hmax−H（ti）（2）HMaxnessSMERP17数据集的详细信息见表1c2。我们还通过合并创建了一个自定义数据集其中，Hmax = max ti Hti，并且Hmax表示所有熵的最大值。我们通过以下等式修改TF-IDF值，TF IDFN E（ti）= TF。IDF（ti）×NE（ti）（3）集中在几个类中的项应该具有较高的NE，而几乎均匀分布在类中的项应该具有较低的NE。虽然TF-IDF NE给出比传统TF-IDF更好的精确度，但是召回率非常低，如表4所示。我们在4.2节中提出了另一种方法来改进将SMERP17和FIRE16数据集表示为FIRE16+SMERP17 1d。由于类的数量在它们之间变化，我们将FIRE16映射到类似于SMERP17的4个类。两个数据集之间的映射在表3中给出。我们无法找到数据集FIRE16的类5的任何合适的映射，因此我们删除了仅在类5中出现的所有推文。所有上述数据集被分为训练集和测试集，分别占总可用标记数据的70%和30%。给出了类的详细信息1复制研究的源代码可以在github上找到2需要注意的是，数据计数可能与上述原始数据集不同笨蛋性能超过TF.IDFN E.ter不允许直接分享推文，推文在体验之前被下载如果它被删除或设为私有，则可能无法检索到片段和一些推文k的值。在5.3节中讨论了k的更详细的影响。主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1632\u003C相关消息必须提及某些特定基础设施资源的损坏或恢复，例如结构（例如，水坝、房屋、移动塔），通信基础设施（例如，道路、跑道、铁路）、电力、移动或互联网连接等。没有提及基础设施资源的一般性陈述是不相关的。TREC格式。每个类的描述包含四个字段：类ID、标题（表示类的小标题）、desc（类的简短描述）和narr（该类应考虑的文本的详细叙述）。下面针对FIRE16数据集的类7和S的类1给出TREC格式的类描述的示例表1：班级编号、标题以及培训和测试数据计数(a) 数据集FIRE16的类特定详细信息类标题列车试验包含与基础设施7基础设施受损修复17874损坏或修复。每节课的平均推文数21191(b) 数据集FIRE17的类特定详细信息类标题列车试验1需求相关四六一二○七2可用性相关一四八五十五每节课的平均推文数三零四一三一(c) 数据集SMERP17的类特定详细信息类标题火车测试1可用资源228822需资源152623基础设施损坏、恢复、事故14056114救援活动非政府组织\u002F政府255105每节课的平均推文数510215(d)数据集FIRE16 + SMERP17的类特定详细信息类标题列车试验1可用资源2需资源7334023671563基础设施受损修复16106584活动非政府组织\u002F政府494237每节课的平均推文数8093545.2预处理在处理数据之前，我们通过依次执行下面提到的步骤对其进行(1) 首字母缩略词扩展：推文通常使用各种首字母缩略词编写。我们使用了文[9]中给出的词典的修改版本，我们自己增加了一些额外的术语所有的缩写词都被字典中给出的短语\u002F单词所取代。(2) 删除表情符号和非ASCII字符：tweet的另一个普遍问题是表情符号。我们通过模式匹配搜索并删除所有表情符号和非ASCII字符。(3) 大小写折叠：在完成上述所有处理后，所有推文文本都转换为小写(4) 停用词和标点符号删除：在所有上述步骤完成后，我们从tweet中删除了nltk停用词3中存在的任何单词。(5) 特殊字符删除：我们删除了“#”，“@”等字符，但没有删除相应的标签或用户提及。此外，我们删除了一些其他特殊的词，如“rt”，“via”和“amp”，它们不是停止词，但不包含任何值。(6) URL和电话号码处理：任何推文中出现的URL3https:\u002F\u002Fraw.githubusercontent.com\u002Fnltk\u002Fnltk_data\u002Fgh-pages\u002Fpackages\u002Fcorpora\u002Fstopwords.zip\u003Cnum\u003E编号：SMERP-T1\u003Ctitle\u003E可用资源\u003Cdesc\u003E标识描述某些资源可用性的消息。\u003C相关的信息必须提到一些资源的可用性，如食物，饮用水，住所，衣服，毯子，血液，人力资源，如志愿者，建造或支持基础设施的资源，如帐篷，滤水器，电力供应等。通知运输车辆的可用性以协助资源分配过程的信息也是相关的。此外，消息指示任何服务，如免费的wi-fi，短信，呼叫设施等。也将是相关的。此外，任何有关捐款的消息或公告也将是相关的。然而，没有提及任何资源的概括性陈述是不相关的。MERP17数据集。1可用资源4011752所需资源\u003Cnum\u003E编号：FMT7\u003C标题\u003E报告了哪些基础设施损坏和恢复情况\u003Cdesc\u003E说明：识别3456医疗资源可用医疗资源所需资源特定地点活动非政府组织\u002F政府231751352521003653119主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1633····【· · ·】下面我们展示了一条原始形式的推文，经过预处理：表2：预处理前后的推文是-前：马耳他骑士团意大利医生救济团为意大利遭受强烈地震的地区提供帮助https:\u002F\u002Ft.co\u002FDDszXXhKgnAf-之三：医生意大利救济团命令马耳他提供帮助意大利发生强烈地震5.3参数调整和交叉验证我们有两种不同类型的超参数。第一个参数是等式（4）中的k的值，其决定6.1完整集合的结果-所有类一起表4列出了我们在第5.1节中提到的4个数据集上的实验的F1，精度和召回率。我们可以从表4中观察到，在TF-IDF公式中并入类别特定信息在所有数据集中显著增加了传统TF-IDF的分类器准确性。在NE方法（TF.IDFNE）中，我们可以清楚地看到，与传统TF.IDF相比，精确度有所增加，但召回率下降，从而降低了F1得分。虽然TF-IDF NE给出比传统TF-IDF更好的精确度，但它未能概括新数据点不包含来自现有训练集词汇表的任何重要术语的情况。结果，那些新项的NE值将非常低，并且TF.IDF NE对该数据点给出非常低的分数。这是由于等式（3）的乘法性质而发生的。这实际上是TF的局限性之一。IDF N E助推我们的方法TF的类特定助推.IDFCN E和规则approach. 当我们将提升值与TF-IDF相乘时，如果提升值低，则会降低整体得分支持向量机分类器参数优化我们首先在不调整正则化参数4的情况下调整提升参数k。我们考虑1、2、3、10作为k的值来调整提升参数，并且发现k = 2给出最佳结果5。我们固定了所有后续操作的k值我们在训练集上使用5折交叉验证来调整SVM的正则化参数。它的调谐值为[10 −1，10 0，10 1，，10 4]。支持向量机中的正则化参数表示对错误分类的重要程度。值越高表示未命中分类的成本越高然而，增量有一个折衷，因为它缩小了类之间的差距。因此，我们将得到一个具有小余量的分类器应当注意的是，在TF.IDF的情况下，CN E正则化参数在我们的提升参数调整完成之后被调整6结果在本节中，我们讨论了我们的研究结果有关的影响，TF-IDF提升灾害相关的鸣叫。4在调整增强参数k期间，将正则化参数设置为15表4中的TF.IDFCNE的结果是在调整正则化参数表3：FIRE16和SMERP17之间的类映射FIRE16型类SMERP17类类可用资源1可用资源1医疗资源可用3需资源2需资源2医疗资源再-要求的4资源特定日志阳离子5-非政府组织\u002F政府政府6救援活动非政府组织\u002F政府4基础设施损坏恢复7基础设施损坏，恢复，伤亡3TF.IDFN E.我们发现这种情况在较小的类（训练集中的数据点数量较少）中发生得更多，因为该类的词汇量非常有限。但是，在“精确”优先级高于“召回”优先级的情况下，此技术可能很有用。我们的第二种方法称为TF.IDF CNE比TF.IDF NE更好地推广，如表4所示。该技术能够更好地处理未看到的术语，并且对于较小的数据集工作良好，其中一些实际重要的术语可能在观察到的数据中没有足够的统计数据，因为它包含每个类的词汇大小。我们的方法给出了更好的结果比TF。IDFECCD。然而，我们仍然看到前两个数据集中的召回率较低。这是因为数据点的数量很少。这个问题的一个明显的补救措施是拥有更多的数据。 FIRE16和FIRE17平均每类分别有211和304个数据点，如表1a和1b所示。更多的数据将很可能包括词汇表中所有可能的重要术语。在SMERP17和FIRE16 + SMERP17数据集的情况下可以观察到这种行为，因为它们平均每个类别分别具有510（表1c）和809（表1d）个数据点。6.2单个类的结果在本节中，我们将更深入地研究我们提出的方法的单个类标签性能。表5、6、7和8提供了第4.2节中提到的所有方法的综合性能。我们看到更好的性能，我们提出的方法比传统的TF-IDF时，可用的训练数据是大的。我们的方法TF.IDF CNE仅对于FIRE16数据集的类别4表现得比传统的TF.IDF差，如表5d中所观察到的。还应该注意的是，FIRE16的类别4在所有数据集的所有类别中只有75个训练数据，如表1所示。图1a 、1b 、1c 、1d 分别显示了FIRE16、FIRE17、SMERP17和FIRE16 + SMERP17数据集的F1评分。第七章结论在本文中，我们研究了类特定的TF-IDF分数提升的有用性。很明显，通过主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1634表4：TF-IDF增强方法的综合结果数据集特征F1评分精准召回TF.IDF0.6936(a) 数据集FIRE16F1得分消防16消防17SMERP17FIRE16 +SMERP17TF.IDFN E0.6535 0.7396 0.6081国防军TF.IDFCN E0.6856 0.76430.6380TF.IDF0.8801TF.IDFN E0.8417 0.8647 0.8237以色列国防军TF.IDFCN E0.8767 0.88490.8692运输工具TF.IDF N E0.87710.88510.8711以色列国防军TF.IDFCN E0.88250.8994 0.8680运输队TF.IDF N E0.83650.83860.8350国防军TF.IDFCN E0.84520.8663 0.8260(b) 数据集FIRE17F1(c) 数据集SMERP17的不同类别F1评分(d) 数据集FIRE16 + SMERP17的不同类别的F1得分图1：不同班级的F1熵和术语频率的手段可以在纯TF-IDF评分方案上提高分类器的准确性我们展示了我们在4个不同的多标签灾害相关短文本数据集上工作的方法然而，我们也发现，如果类足够大，我们的方法效果更好。在我们未来的工作中，我们希望以这样的方式处理提升，以便它可以处理不平衡的班级规模。如果可以并入额外的维度信息以用于更好的性能，则可以探索另一种改进。致谢作者要感谢匿名评审的宝贵意见和有益的建议。本工作得到了以下项目的资助：EE\u002F2016-17\u002F034\u002FMLA\u002FMZAK\u002F0235。主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1635表5：FIRE16的类别特定结果(a) 具有TF.IDF的FIRE16数据集的类特定结果F1级-得分精准召回1 0.6949 0.7028 0.68712 0.6708 0.6543 0.68833 0.7794 0.76004 0.4666 0.38885 0.5420 0.54712019 - 06 - 21 00：00：00表6：FIRE17的类别特定结果(a) 具有TF.IDF的FIRE17数据集的类特定结果F1级-得分精准召回1 0.9466 0.9512 0.942020.8035 0.7894 0.8181(b) 具有TF的FIRE17数据集的类特定结果。IDFNEF1级-得分精准召回70.92510.91890.931510.93830.92090.956520.74500.80850.6909(b) 具有TF的FIRE16数据集的类特定结果NEF1级-得分精准召回1 0.7288 0.7206 0.73712 0.7125 0.7215 0.70373 0.8205 0.84212019年12月31日50.5000 0.6285 0.41502019 - 06 - 21 00：00：002019 - 04 -22 00：00：00(c) 使用TF.IDFECCD的FIRE17数据集的类特定结果F1级-得分精准召回1 0.9496 0.9428 0.95652 0.7924 0.8235 0.7636(d)具有TF的FIRE17数据集的类特定结果。IDFCNEF1级-得分精准召回10.94960.94280.9428(c)使用TF.IDFECCD的20.80370.82690.7818F1级-得分精准召回10.73650.73030.742820.73740.74680.728330.82420.86510.770040.42300.68750.305550.56170.69440.471660.59990.69230.529470.88730.92640.8513(d)具有TF的FIRE16数据集的类特定结果。IDFCNEF1级-得分精准召回1 0.7380 0.7277 0.74852 0.7530 0.7530 0.75302019 - 04 - 28 00：002019 - 04 - 26 00：00：002016年12月31日2019 - 05 - 29 00：00：002019 - 04 - 25 00：00：00主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1636表7：SMERP17的类别特异性结果(a)具有TF.IDF的SMERP17数据集的类别特定结果F1级-得分精准召回表8：FIRE16 + SMERP17的类别特异性结果(a) 具有TF.IDF的FIRE16 + SMERP17数据集的类特定结果F1级-得分精准召回10.79310.75000.841410.78080.81180.752020.78330.79660.770420.76220.83850.698730.99010.98850.991830.97490.97710.972640.87560.91660.838040.69570.68290.7089(b) 具有TF的SMERP17数据集的类别特定结果NEF1级-得分精准召回1 0.8352 0.8068 0.8658(b) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFNEF1级-得分精准召回(c) 具有TF.IDFECCD的F1级-得分精准召回1 0.8148 0.8250 0.804820.77470.8600.70493 0.9934 0.99182019 - 04 - 28 00：00：00(d) 具有TF的SMERP17数据集的类别特定结果。IDFCNEF1级-得分精准召回1 0.8352 0.8255 0.86582 0.7931 0.8363 0.75403 0.9918 0.98864 0.9000 0.9473 0.8571(c) 具有TF.IDFECCD的FIRE16 + SMERP17数据集的类特定结果F1级-得分精准召回1 0.8446 0.8768 0.81472 0.8054 0.8613 0.75643 0.9831 0.99074 0.7441 0.7457(d) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFCNEF1级-得分精准召回1 0.8455 0.8724 0.820120.8095 0.8623 0.76283 0.9802 0.98174 0.7457 0.748920.77580.81810.737710.83540.84830.822830.99020.98540.995020.79730.81330.782040.90730.93000.885730.97560.97560.975640.73770.71710.7594主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1637引用[1] MoumitaBasu、AnuragRoy、KripabandhuGhosh、SomprakashBandyopadhyay和Saptarshi Ghosh。2017年。灾难情境下的微博检索：一种新的评估测试集。在第一届国际工作坊关于利用社交媒体进行紧急救援和准备的会议记录中，与欧洲信息检索会议共同举办，SMERP@ECIR 2017 ，阿伯丁，英国。 22-31 http:\u002F\u002Fceur-ws.org\u002FVol-1832\u002FSMERP_2017_peer_review_paper_3.pdf[2] Iyad Batal和Milos Hauskrecht。2009年通过使用监督术语加权方案提高KNN文本分类准确率。第18届ACM信息与知识管理会议论文集。ACM，2041[3] Constantinos Boulis和Mari Ostendorf2005年通过用冗余补偿的二元组来增强词袋表示的文本分类。在proc 数据挖掘中的特征选择国际研讨会。Citeseer，9-16.[4] 科琳娜 · 科尔特斯和弗拉基米尔 · 瓦普尼克一九九五年支持向量网络。Machinelearning 20，3（1995），273-297.[5] 乔治·福尔曼。2008. BNS功能缩放：一种改进的基于TF-IDF的SVM文本分类表示方法。第17届ACM信息与知识管理会议论文集。ACM，263[6] Saptarshi Ghosh和Kripabandhu Ghosh。2016. FIRE 2016微博主题概述：从灾难期间发布的微博中提取信息。在FIRE 2016-Forum for InformationRetrieval Evaluation工作笔记中印度加尔各答。56-61. http:\u002F\u002Fceur-ws.org\u002FVol-1737\u002FT2-1.pdf[7] SaptarshiGhosh ， KripabandhuGhosh ， DebasisGanguly ， TanmoyChakraborty，Gareth J.F. Jones和Marie-Francine Moens。2017. ECIR 2017研讨会关于利用社交媒体进行紧急救援和准备（ SMERP 2017 ）。 SIGIRForum51，1（Aug. 2017），36-41. https:\u002F\u002Fdoi.org\u002F10.1145\u002F3130332的网站。3130338[8] Samujjwal Ghosh，Srijith P.K.，和莫南德拉·桑卡·德萨尔卡2017年。使用社交媒体对灾难场景中的可操作见解进行 InternationalJournal of Advances inEngineering Sciences 9，4（2017年12月），224-237。https：\u002F\u002Fdoi.org\u002F10.1007\u002Fs12572-017-0197-2[9] Muhammad Imran ， Prasenjit Mitra ， and Carlos Castillo.2016 年。Twitter作为生命线：人类注释的Twitter语料库用于危机相关消息的NLP。CoRRabs\u002F1605.05894（2016）。arXiv：1605.05894http:\u002F\u002Farxiv.org\u002Fabs\u002F1605.05894[10] 兰迪·乔伊和玛格诺·文泰恩2017年。微博中地方语言灾害相关推文的分类研究。《Asia Pacific Journal of Multidisciplinary Research》[11] Prannay Khosla 、 Moumita Basu 、 Kripabandhu Ghosh 和 Saptarshi Ghosh 。2017年。灾后救助微博检索：应用和比较神经IR模型。arXiv预印本arXiv：1707.06112（2017）。[12] Christine Largeron、Christophe Moulin和Mathias Géry。2011年。基于熵的文本分类特征选择在2011年ACM Symposiumon Applied Computing会议录中。ACM，924[13] Hongmin Li ，Doina Caragea ， Cornelia Caragea ，and Nic Herndon.2017年。用域适应方法通过推文分类辅助的灾害响应《突发事件与危机管理杂志》（Journal of Contingencies and Crisis Management，2017）[14] Ying Liu，Han Tong Loh，and Aixin Sun.2009年不平衡文本分类：一种术语加权方法。Expert systems with Applications36，1（2009），690[15] Xinghua Lu，Bin Zheng，Atulya Velivelli，and ChengXiang Zhai.2006年通过语义丰富的表示和训练数据增强来增强文本分类。 Journal of theAmerican Medical Informatics Association13，5（2006），526[16] Justin Martineau和Tim Finin2009年 Delta TFIDF：一种用于情感分析的改进特征空间。Icwsm9（2009），106.[17] Tomas Mikolov、Ilya Sutskever、Ka"}],"previewType":2,"briefIntroduction":"主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1629∈类特定的TF-IDF Boosting短文本分类算法在灾难期间生成的短文本中的应用摘要Samujjwal GhoshIIT Hyderabad海得拉巴，Telangana，INcs16resch01001@iith.ac.in毛南德拉·桑卡尔·德萨尔卡尔IITHyderabadHyderabad，Telangana，maunendra@iith.ac.inTF-IDF特征表示，每个文档或短文本都表示在短文本分类任务中，由于可用文本的数量非常少，特征的正确表达起着重要的作用。在文献中，术语频率-逆文档频率（TF-IDF）通常用于创建用于此类任务的特征向量然而，TF-IDF公式化不利用监督学习中可用的类信息对于分类问题，如果有可能识别出能够在类别之间强烈区分的术语，那么在进行FEA时就可以给予这些术语更多的权重表示为向量，其中字段对应于词汇表中的术语。存储在字段中的值是相应术语的TF-IDF分数。TF-IDF分数是该文档中的术语的术语频率（TF）和语料库中的该术语的逆文档频率（IDF）的乘积在数学上，TF-IDF可以表示为：TF IDF=t fi×logN真正的建设阶段。这可以通过并入额外的类标签相关信息而导致改进的分类器性能我们提出了一种有监督的特征构造方法dd fi其中tfi是项i在文档d中出现的次数，分类推文，基于可操作的信息，可能是DN是语料库中的文档总数，d f是是在不同的灾难场景中发布用于这种分类任务的改进的分类器性能可以在救援和救济操作中是有帮助的。我们使用了三个基准数据集，分别包含2015年和2016年尼泊尔和意大利地震期间发布的推文。实验结果表明，该方法在这些基准数据集上取得了较好的分类性能.关键词信息检索;短文本分类;特征工程;基于熵的特征生成ACM参考格式：Samujjwal Ghosh和Maunendra Sankar Desarkar。2018.用于短文本分类的类特定TF-IDF提升：应用于灾难期间生成的短文本。 In The 2018 WebConference Companion，2018年4月23日至27日，法国里昂。ACM，NewYork，NY，USA，9页。网址：\u002F\u002Fdoi. 沪ICP备11014558号-11引言像tweet这样的短文本由于其长度限制而包含非常有限的上下文信息。因此，使用机器学习技术对短文本进行分类是一项具有挑战性的任务。在这种情况下，特征向量的正确表达起着重要的作用在使用文本特征的减灾相关文献中，用于特征表示的最常见技术是词频-逆文档频率（TF-IDF）。在本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4\u002F18\u002F04。https:\u002F\u002Fdoi.org\u002F10.1145\u002F3184558.3191621出现术语i的文档数TF捕获文档中的术语的重要性，并且被计算为术语的频率的递增函数。另一方面，IDF试图衡量一个术语在语料库中的信息量。这里通常的假设是，如果一个术语在语料库中是频繁的，那么它没有太多的信息，而罕见的术语是更多的信息，因此是重要的。IDF被建模为术语的文档频率的递减函数。这种使用TF-IDF的特征构建策略通常用于分类文本文档-短[24]和长[25]。对于监督分类问题，假设标记的训练数据是可用的。基于TF-IDF的方法在特征构造期间不考虑这些类标签然而，从标记的数据中，可以识别具有区分性的术语，因此可以识别某些类别的强指标。我们希望在特征构造过程中添加不同类别之间的术语重要性（区分能力）作为额外信息。如果一个术语在特定类别中出现足够多的次数，但在其他类别中很少出现，则该术语被认为是有区别的。设t1和t2是在语料库中出现k次的两个术语。然而，t1在所有类别的文档中均匀出现，但t2在类别ci中出现的次数比在其他类别中出现的次数多得多（即cjC;cj≠ci）。项t1和t2的IDF得分将相同。然而，明显的是，项t2具有更大的辨别力，因为其在未来文档中的存在在我们的例子中是类Ci）。我们希望抓住不同术语的这种区别力并在特征构造阶段期间使用该信息在这项工作中，我们提出了技术，提高TF-IDF分数，以更好地代表类之间的长期分布然后，分类器可以利用这些额外的信息来做出更好的决策。这些通用技术可以应用于使用基于词袋的TF-IDF特征的不同应用我们应用了我们的建议主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1630方法对灾害相关推文进行分类，以了解其对使用传统TF-IDF的影响和有用性在灾难发生时，人们会在Twitter、微博等微博网站上发布大量的信息。这些帖子中的一些可能实际上包含关于对基础设施的损害、诸如水、药品等资源的需求的用它们包含的信息对这些帖子进行适当的注释可以帮助救援和救济行动，从而减轻受灾害影响的人们的痛苦。在文献中有许多关于正确利用灾害期间生成的短文本以有效地计划救援和救济行动的研究[8]，[10]，[11]，[13]，[18]，[20]，[23]。在这里，我们提出了与灾害相关的推文分类的不同工作的综合摘要。论文[8]提出了使用具有TF-IDF特征的各种算法对灾害相关推文分类的比较研究[10]中的作者提出了一个系统，该系统不仅可以过滤和分类英语推文，还可以处理与台风Lawin（国际名称：Haima）和Karen（国际名称：Sarika）相关的多语言推该系统是通过使用TF-IDF特征与支持向量机（SVM）分类器构建的。虽然[11]主要集中在基于神经网络的方法来检索与灾害相关的微博，但他们使用TF-IDF Rocchio分数来扩展他们的查询，然后在神经网络上使用它们[13]中采用了从未标记的目标数据中学习分类器的域自适应方法，其中作者利用从过去灾难中获得的信息来过滤与新灾难相关的推文。在改进的TF-IDF特征加权朴素贝叶斯分类器上使用自训练技术实现了领域自适应。[18]建立了一个系统，可以通过监控Twitter流来自动检测任何灾难的作者使用朴素贝叶斯和支持向量机作为他们的分类器与TF-IDF为基础的特征向量。在[20]中，作者提出了一种自动文本分类系统，该系统仅过滤与灾害相关的短文本。该方法的工作原理，通过选择突出的TF-IDF功能，使用卡方技术。[23]的作者进行了一项基于匹配和基于学习的方法之间的研究，以过滤灾难期间生成的相关推文。他们采用了各种技术，如地理标签信息，word 2 vec [17]嵌入以及TF-IDF分数。从这些讨论中我们可以看到，TF-IDF的使用在与灾害相关的推文分类领域非常常见。在这项工作中，我们专注于在灾难期间发布的信息推文分类的任务。我们考虑的示例类是与资源可用性和需求相关的、与基础设施损坏相关的等。即使分类性能的微小改进也可以帮助救援组织查看特定消息，并相应地做出决定以适当的方式引导救援操作。我们使用了三个灾难相关的鸣叫数据集来测试我们提出的功能constrc- tion技术的有效性。在这些基准数据集上，我们的方法显著优于基于TF-IDF的分类方法。本文的其余部分组织如下。在第二节中，我们讨论了TF-IDF评分修正领域的相关工作。我们在第3节中定义了这个问题。第4节详细讨论了所提出的方法。关于我们的实验设置以及数据集详细信息的讨论见第节5. 最后，我们将在第6节中介绍我们的实验结果。2相关工作在本节中，我们将从文献中查看不同的工作，这些工作涉及TF-IDF修改的变体以用于分类任务。然而，大多数技术是基于特征选择方法，而不是TF-IDF得分修改，其中基于术语的区分能力选择特征的子集。该子集选择可以使用各种方法来完成，如信息增益（IG）[2]、卡方[19]、互信息[26]等。然而，这些方法没有充分利用词在类中的出现频率. 然而，人们已经试验了不同的TF-IDF修饰技术。下面我们讨论文献中存在的一些这样的方法。[3]中的作者将二元语法与传统的基于一元语法的特征结合在一起，以结合额外的信息。虽然这种方法不会改变TF-IDF的值，但它们会增加词汇表中唯一特征的数量。他们表明，增加词汇量可能会提高分类器的性能。[5]的作者在生成特征时使用双正态分离（BNS）代替IDF。BNS根据其区分能力对术语进行排名。作者发现BNS的缩放项的重要性，没有任何特征选择，提高了他们的分类器的准确性。在[12]中，提出了一种基于熵的方法，称为基于熵的类别覆盖差异（ECCD），在该方法中，他们计算跨类的每个术语的熵，以获得不同类别浓度的术语的重要性。为了解决类别不平衡问题，[14]提出了一种基于概率的术语加权方案，该方案提高了数据点数量少于其他类别的类别的分类器性能在另一种方法中，使用语义修改的TF-IDF评分对生物医学数据进行分类[15]。使用修改后的特征集的SVM分类器的性能更好。Delta TF-IDF由[16]提出，它修改了TF-IDF分数，以更好地理解博客的情感 Delta部分通过取训练数据的积极和消极情绪的TF-IDF得分的差异来计算。在[21]中，作者使用了类似于IDF的逆类频率（ICF），其表示术语的重要性。 ICF对出现在少数类别中的术语给予最高分，对出现在许多类别中的术语给予最低分。结果表明，使用ICF而不是IDF可以获得更好的分类器性能。[22]显示了使用IG选择最突出的特征而不是使用所有特征的效果。他们发现使用IG提高了他们的分类准确性。[24]的工作提出了用于短文本分类任务的低粒度特征，主要关注中文文本。作者在[25]中还提出了两种基于熵的方法，称为tf.dc和tf.bdc，它们测量类之间的分布集中度（DC）在DC方法中，在类而不是文档上计算第二种方法提出了平衡分布集中度（BDC），它考虑了类大小来计算DC。然而，这些方法中的大多数针对长文本进行了调整，并且不针对上下文信息有限的短文本进行优化。3问题定义我们在这项工作中的主要目标是分类短文本，给定一组短文本和它们的类。该问题可以公式化为：主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1631Ic0，c，T F. IDFit\u003ECC1（）下一页KC2C所有类别的计数，即TC=k= 1tck。∑∑令T={tl，t2，···，tN}是N个文本数据点的集合，并且C={1， 2，···，m}是m个类的集合给定一个形式为{ti，ci，···，ci}的映射集，其中数据ti∈T4.2类归一化熵提升在这里，我们提出了第二种方法，它处理了4.1节中提到的低重调用问题。这种方法保留了AC-和类ci，···，ci∈C，我们的目标是找到所有适用的实际TF-IDF得分，并提高类特定术语1K新新数据t的类。作为边信息。这样，我们就可以保留一个...下面我们讨论我们提出在构造TF-IDF特征时利用术语类关系的方法。4该方法我们希望对未见过的短文本进行分类，给定一组短文本及其类标签作为训练数据。考虑到这一目标，我们首先尝试确定衡量术语关系的方法基于TF-IDF的分数的icance，并且还能够对已知的重要术语给予额外的提升在上文第4.1节中描述的熵度量遭受类大小不平衡，主要针对较小的类。在这种方法中，我们在计算术语的重要性权重（IW）时还考虑了类大小。我们可以如下计算类别c的项ti的IW：tciIW（t）=与不同阶级的关系然后我们看到这些信息ckc可以用来将新的tweet分配给适当的类。对于固有地特定于某些类的术语，我们期望它们的分布集中在这些类中。另一方面，在一项研究中，其中kc表示类别c中存在的项的数目。现在，我们通过根据以下等式考虑熵和重要性来计算类归一化熵（CNE）。通用术语可以大致均匀地分布在iTF. IDF（ti）+（1）A（1）A（）0所有的班级。一种常见的识别存在或不存在这种集中是通过熵。我们计算熵TF. C（tc）=中文（简体）否则的项tiasH（ti）=−∑pi×log（pi）C分母k用作归一化超参数。附加增压的效果可以通过改变增压器的温度来控制其中pi是如果术语ti存在于文档中的概率5实验细节Ci则该文档来自C类。我们将pc估计为ti在类c中存在的次数与它在所有类中存在的次数的比率。然后，用于计算项ti的熵的公式可以被写为：在我们的实验中，我们使用具有线性核的支持向量机（SVM）[4]作为我们的分类器。许多研究[8]，[10]，[18]，[20]发现SVM在disas中使用TF-IDF特征向量效果最好称为场景。具有三种不同TF-IDF提升方法的SVMMH（ti）=−TCI×log2（tci）.（一）用于实验。TFIDF表示简单TF-IDF值，表示具有归一化熵的TF-IDF值我们c=1tciTCI第4.2节中的另一种方法表示为TF。. 我们也其中tci表示类别c中的项ti的计数，并且tci表示类别c中的项t i的计数。在[12]中讨论的方法被称为ECCD和de-ci m i4.1归一化熵提升一旦我们计算了语料库中每个术语的熵，我们就想得到一个术语对每个类的信息量（集中）的估计。我们提出了一种基于熵的方法，称为归一化熵提升。我们通过下式计算项ti的归一化熵（NE）：在表4 1中标记为TF.IDFECCD。5.1数据集三个灾难相关的推文数据集被用于实验。[6] 和2017年（FIRE17）[1]数据集，其中包含2015年尼泊尔地震期间发布的推文。FIRE16和FIRE17的类别详细信息分别在表1a和1b中提及。我们还测试了“社交媒体用于紧急救援和准备-NE（ti）=Hmax−H（ti）（2）HMaxnessSMERP17数据集的详细信息见表1c2。我们还通过合并创建了一个自定义数据集其中，Hmax = max ti Hti，并且Hmax表示所有熵的最大值。我们通过以下等式修改TF-IDF值，TF IDFN E（ti）= TF。IDF（ti）×NE（ti）（3）集中在几个类中的项应该具有较高的NE，而几乎均匀分布在类中的项应该具有较低的NE。虽然TF-IDF NE给出比传统TF-IDF更好的精确度，但是召回率非常低，如表4所示。我们在4.2节中提出了另一种方法来改进将SMERP17和FIRE16数据集表示为FIRE16+SMERP17 1d。由于类的数量在它们之间变化，我们将FIRE16映射到类似于SMERP17的4个类。两个数据集之间的映射在表3中给出。我们无法找到数据集FIRE16的类5的任何合适的映射，因此我们删除了仅在类5中出现的所有推文。所有上述数据集被分为训练集和测试集，分别占总可用标记数据的70%和30%。给出了类的详细信息1复制研究的源代码可以在github上找到2需要注意的是，数据计数可能与上述原始数据集不同笨蛋性能超过TF.IDFN E.ter不允许直接分享推文，推文在体验之前被下载如果它被删除或设为私有，则可能无法检索到片段和一些推文k的值。在5.3节中讨论了k的更详细的影响。主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1632\u003C相关消息必须提及某些特定基础设施资源的损坏或恢复，例如结构（例如，水坝、房屋、移动塔），通信基础设施（例如，道路、跑道、铁路）、电力、移动或互联网连接等。没有提及基础设施资源的一般性陈述是不相关的。TREC格式。每个类的描述包含四个字段：类ID、标题（表示类的小标题）、desc（类的简短描述）和narr（该类应考虑的文本的详细叙述）。下面针对FIRE16数据集的类7和S的类1给出TREC格式的类描述的示例表1：班级编号、标题以及培训和测试数据计数(a) 数据集FIRE16的类特定详细信息类标题列车试验包含与基础设施7基础设施受损修复17874损坏或修复。每节课的平均推文数21191(b) 数据集FIRE17的类特定详细信息类标题列车试验1需求相关四六一二○七2可用性相关一四八五十五每节课的平均推文数三零四一三一(c) 数据集SMERP17的类特定详细信息类标题火车测试1可用资源228822需资源152623基础设施损坏、恢复、事故14056114救援活动非政府组织\u002F政府255105每节课的平均推文数510215(d)数据集FIRE16 + SMERP17的类特定详细信息类标题列车试验1可用资源2需资源7334023671563基础设施受损修复16106584活动非政府组织\u002F政府494237每节课的平均推文数8093545.2预处理在处理数据之前，我们通过依次执行下面提到的步骤对其进行(1) 首字母缩略词扩展：推文通常使用各种首字母缩略词编写。我们使用了文[9]中给出的词典的修改版本，我们自己增加了一些额外的术语所有的缩写词都被字典中给出的短语\u002F单词所取代。(2) 删除表情符号和非ASCII字符：tweet的另一个普遍问题是表情符号。我们通过模式匹配搜索并删除所有表情符号和非ASCII字符。(3) 大小写折叠：在完成上述所有处理后，所有推文文本都转换为小写(4) 停用词和标点符号删除：在所有上述步骤完成后，我们从tweet中删除了nltk停用词3中存在的任何单词。(5) 特殊字符删除：我们删除了“#”，“@”等字符，但没有删除相应的标签或用户提及。此外，我们删除了一些其他特殊的词，如“rt”，“via”和“amp”，它们不是停止词，但不包含任何值。(6) URL和电话号码处理：任何推文中出现的URL3https:\u002F\u002Fraw.githubusercontent.com\u002Fnltk\u002Fnltk_data\u002Fgh-pages\u002Fpackages\u002Fcorpora\u002Fstopwords.zip\u003Cnum\u003E编号：SMERP-T1\u003Ctitle\u003E可用资源\u003Cdesc\u003E标识描述某些资源可用性的消息。\u003C相关的信息必须提到一些资源的可用性，如食物，饮用水，住所，衣服，毯子，血液，人力资源，如志愿者，建造或支持基础设施的资源，如帐篷，滤水器，电力供应等。通知运输车辆的可用性以协助资源分配过程的信息也是相关的。此外，消息指示任何服务，如免费的wi-fi，短信，呼叫设施等。也将是相关的。此外，任何有关捐款的消息或公告也将是相关的。然而，没有提及任何资源的概括性陈述是不相关的。MERP17数据集。1可用资源4011752所需资源\u003Cnum\u003E编号：FMT7\u003C标题\u003E报告了哪些基础设施损坏和恢复情况\u003Cdesc\u003E说明：识别3456医疗资源可用医疗资源所需资源特定地点活动非政府组织\u002F政府231751352521003653119主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1633····【· · ·】下面我们展示了一条原始形式的推文，经过预处理：表2：预处理前后的推文是-前：马耳他骑士团意大利医生救济团为意大利遭受强烈地震的地区提供帮助https:\u002F\u002Ft.co\u002FDDszXXhKgnAf-之三：医生意大利救济团命令马耳他提供帮助意大利发生强烈地震5.3参数调整和交叉验证我们有两种不同类型的超参数。第一个参数是等式（4）中的k的值，其决定6.1完整集合的结果-所有类一起表4列出了我们在第5.1节中提到的4个数据集上的实验的F1，精度和召回率。我们可以从表4中观察到，在TF-IDF公式中并入类别特定信息在所有数据集中显著增加了传统TF-IDF的分类器准确性。在NE方法（TF.IDFNE）中，我们可以清楚地看到，与传统TF.IDF相比，精确度有所增加，但召回率下降，从而降低了F1得分。虽然TF-IDF NE给出比传统TF-IDF更好的精确度，但它未能概括新数据点不包含来自现有训练集词汇表的任何重要术语的情况。结果，那些新项的NE值将非常低，并且TF.IDF NE对该数据点给出非常低的分数。这是由于等式（3）的乘法性质而发生的。这实际上是TF的局限性之一。IDF N E助推我们的方法TF的类特定助推.IDFCN E和规则approach. 当我们将提升值与TF-IDF相乘时，如果提升值低，则会降低整体得分支持向量机分类器参数优化我们首先在不调整正则化参数4的情况下调整提升参数k。我们考虑1、2、3、10作为k的值来调整提升参数，并且发现k = 2给出最佳结果5。我们固定了所有后续操作的k值我们在训练集上使用5折交叉验证来调整SVM的正则化参数。它的调谐值为[10 −1，10 0，10 1，，10 4]。支持向量机中的正则化参数表示对错误分类的重要程度。值越高表示未命中分类的成本越高然而，增量有一个折衷，因为它缩小了类之间的差距。因此，我们将得到一个具有小余量的分类器应当注意的是，在TF.IDF的情况下，CN E正则化参数在我们的提升参数调整完成之后被调整6结果在本节中，我们讨论了我们的研究结果有关的影响，TF-IDF提升灾害相关的鸣叫。4在调整增强参数k期间，将正则化参数设置为15表4中的TF.IDFCNE的结果是在调整正则化参数表3：FIRE16和SMERP17之间的类映射FIRE16型类SMERP17类类可用资源1可用资源1医疗资源可用3需资源2需资源2医疗资源再-要求的4资源特定日志阳离子5-非政府组织\u002F政府政府6救援活动非政府组织\u002F政府4基础设施损坏恢复7基础设施损坏，恢复，伤亡3TF.IDFN E.我们发现这种情况在较小的类（训练集中的数据点数量较少）中发生得更多，因为该类的词汇量非常有限。但是，在“精确”优先级高于“召回”优先级的情况下，此技术可能很有用。我们的第二种方法称为TF.IDF CNE比TF.IDF NE更好地推广，如表4所示。该技术能够更好地处理未看到的术语，并且对于较小的数据集工作良好，其中一些实际重要的术语可能在观察到的数据中没有足够的统计数据，因为它包含每个类的词汇大小。我们的方法给出了更好的结果比TF。IDFECCD。然而，我们仍然看到前两个数据集中的召回率较低。这是因为数据点的数量很少。这个问题的一个明显的补救措施是拥有更多的数据。 FIRE16和FIRE17平均每类分别有211和304个数据点，如表1a和1b所示。更多的数据将很可能包括词汇表中所有可能的重要术语。在SMERP17和FIRE16 + SMERP17数据集的情况下可以观察到这种行为，因为它们平均每个类别分别具有510（表1c）和809（表1d）个数据点。6.2单个类的结果在本节中，我们将更深入地研究我们提出的方法的单个类标签性能。表5、6、7和8提供了第4.2节中提到的所有方法的综合性能。我们看到更好的性能，我们提出的方法比传统的TF-IDF时，可用的训练数据是大的。我们的方法TF.IDF CNE仅对于FIRE16数据集的类别4表现得比传统的TF.IDF差，如表5d中所观察到的。还应该注意的是，FIRE16的类别4在所有数据集的所有类别中只有75个训练数据，如表1所示。图1a 、1b 、1c 、1d 分别显示了FIRE16、FIRE17、SMERP17和FIRE16 + SMERP17数据集的F1评分。第七章结论在本文中，我们研究了类特定的TF-IDF分数提升的有用性。很明显，通过主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1634表4：TF-IDF增强方法的综合结果数据集特征F1评分精准召回TF.IDF0.6936(a) 数据集FIRE16F1得分消防16消防17SMERP17FIRE16 +SMERP17TF.IDFN E0.6535 0.7396 0.6081国防军TF.IDFCN E0.6856 0.76430.6380TF.IDF0.8801TF.IDFN E0.8417 0.8647 0.8237以色列国防军TF.IDFCN E0.8767 0.88490.8692运输工具TF.IDF N E0.87710.88510.8711以色列国防军TF.IDFCN E0.88250.8994 0.8680运输队TF.IDF N E0.83650.83860.8350国防军TF.IDFCN E0.84520.8663 0.8260(b) 数据集FIRE17F1(c) 数据集SMERP17的不同类别F1评分(d) 数据集FIRE16 + SMERP17的不同类别的F1得分图1：不同班级的F1熵和术语频率的手段可以在纯TF-IDF评分方案上提高分类器的准确性我们展示了我们在4个不同的多标签灾害相关短文本数据集上工作的方法然而，我们也发现，如果类足够大，我们的方法效果更好。在我们未来的工作中，我们希望以这样的方式处理提升，以便它可以处理不平衡的班级规模。如果可以并入额外的维度信息以用于更好的性能，则可以探索另一种改进。致谢作者要感谢匿名评审的宝贵意见和有益的建议。本工作得到了以下项目的资助：EE\u002F2016-17\u002F034\u002FMLA\u002FMZAK\u002F0235。主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1635表5：FIRE16的类别特定结果(a) 具有TF.IDF的FIRE16数据集的类特定结果F1级-得分精准召回1 0.6949 0.7028 0.68712 0.6708 0.6543 0.68833 0.7794 0.76004 0.4666 0.38885 0.5420 0.54712019 - 06 - 21 00：00：00表6：FIRE17的类别特定结果(a) 具有TF.IDF的FIRE17数据集的类特定结果F1级-得分精准召回1 0.9466 0.9512 0.942020.8035 0.7894 0.8181(b) 具有TF的FIRE17数据集的类特定结果。IDFNEF1级-得分精准召回70.92510.91890.931510.93830.92090.956520.74500.80850.6909(b) 具有TF的FIRE16数据集的类特定结果NEF1级-得分精准召回1 0.7288 0.7206 0.73712 0.7125 0.7215 0.70373 0.8205 0.84212019年12月31日50.5000 0.6285 0.41502019 - 06 - 21 00：00：002019 - 04 -22 00：00：00(c) 使用TF.IDFECCD的FIRE17数据集的类特定结果F1级-得分精准召回1 0.9496 0.9428 0.95652 0.7924 0.8235 0.7636(d)具有TF的FIRE17数据集的类特定结果。IDFCNEF1级-得分精准召回10.94960.94280.9428(c)使用TF.IDFECCD的20.80370.82690.7818F1级-得分精准召回10.73650.73030.742820.73740.74680.728330.82420.86510.770040.42300.68750.305550.56170.69440.471660.59990.69230.529470.88730.92640.8513(d)具有TF的FIRE16数据集的类特定结果。IDFCNEF1级-得分精准召回1 0.7380 0.7277 0.74852 0.7530 0.7530 0.75302019 - 04 - 28 00：002019 - 04 - 26 00：00：002016年12月31日2019 - 05 - 29 00：00：002019 - 04 - 25 00：00：00主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1636表7：SMERP17的类别特异性结果(a)具有TF.IDF的SMERP17数据集的类别特定结果F1级-得分精准召回表8：FIRE16 + SMERP17的类别特异性结果(a) 具有TF.IDF的FIRE16 + SMERP17数据集的类特定结果F1级-得分精准召回10.79310.75000.841410.78080.81180.752020.78330.79660.770420.76220.83850.698730.99010.98850.991830.97490.97710.972640.87560.91660.838040.69570.68290.7089(b) 具有TF的SMERP17数据集的类别特定结果NEF1级-得分精准召回1 0.8352 0.8068 0.8658(b) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFNEF1级-得分精准召回(c) 具有TF.IDFECCD的F1级-得分精准召回1 0.8148 0.8250 0.804820.77470.8600.70493 0.9934 0.99182019 - 04 - 28 00：00：00(d) 具有TF的SMERP17数据集的类别特定结果。IDFCNEF1级-得分精准召回1 0.8352 0.8255 0.86582 0.7931 0.8363 0.75403 0.9918 0.98864 0.9000 0.9473 0.8571(c) 具有TF.IDFECCD的FIRE16 + SMERP17数据集的类特定结果F1级-得分精准召回1 0.8446 0.8768 0.81472 0.8054 0.8613 0.75643 0.9831 0.99074 0.7441 0.7457(d) 具有TF的FIRE16 + SMERP17数据集的类特定结果。IDFCNEF1级-得分精准召回1 0.8455 0.8724 0.820120.8095 0.8623 0.76283 0.9802 0.98174 0.7457 0.748920.77580.81810.737710.83540.84830.822830.99020.98540.995020.79730.81330.782040.90730.93000.885730.97560.97560.975640.73770.71710.7594主题：利用社交媒体进行紧急救援和准备WWW 2018，2018年4月23日至27日，法国里昂1637引用[1] MoumitaBasu、AnuragRoy、KripabandhuGhosh、SomprakashBandyopadhyay和Saptarshi Ghosh。2017年。灾难情境下的微博检索：一种新的评估测试集。在第一届国际工作坊关于利用社交媒体进行紧急救援和准备的会议记录中，与欧洲信息检索会议共同举办，SMERP@ECIR 2017 ，阿伯丁，英国。 22-31 http:\u002F\u002Fceur-ws.org\u002FVol-1832\u002FSMERP_2017_peer_review_paper_3.pdf[2] Iyad Batal和Milos Hauskrecht。2009年通过使用监督术语加权方案提高KNN文本分类准确率。第18届ACM信息与知识管理会议论文集。ACM，2041[3] Constantinos Boulis和Mari Ostendorf2005年通过用冗余补偿的二元组来增强词袋表示的文本分类。在proc 数据挖掘中的特征选择国际研讨会。Citeseer，9-16.[4] 科琳娜 · 科尔特斯和弗拉基米尔 · 瓦普尼克一九九五年支持向量网络。Machinelearning 20，3（1995），273-297.[5] 乔治·福尔曼。2008. BNS功能缩放：一种改进的基于TF-IDF的SVM文本分类表示方法。第17届ACM信息与知识管理会议论文集。ACM，263[6] Saptarshi Ghosh和Kripabandhu Ghosh。2016. FIRE 2016微博主题概述：从灾难期间发布的微博中提取信息。在FIRE 2016-Forum for InformationRetrieval Evaluation工作笔记中印度加尔各答。56-61. http:\u002F\u002Fceur-ws.org\u002FVol-1737\u002FT2-1.pdf[7] SaptarshiGhosh ， KripabandhuGhosh ， DebasisGanguly ， TanmoyChakraborty，Gareth J.F. Jones和Marie-Francine Moens。2017. ECIR 2017研讨会关于利用社交媒体进行紧急救援和准备（ SMERP 2017 ）。 SIGIRForum51，1（Aug. 2017），36-41. https:\u002F\u002Fdoi.org\u002F10.1145\u002F3130332的网站。3130338[8] Samujjwal Ghosh，Srijith P.K.，和莫南德拉·桑卡·德萨尔卡2017年。使用社交媒体对灾难场景中的可操作见解进行 InternationalJournal of Advances inEngineering Sciences 9，4（2017年12月），224-237。https：\u002F\u002Fdoi.org\u002F10.1007\u002Fs12572-017-0197-2[9] Muhammad Imran ， Prasenjit Mitra ， and Carlos Castillo.2016 年。Twitter作为生命线：人类注释的Twitter语料库用于危机相关消息的NLP。CoRRabs\u002F1605.05894（2016）。arXiv：1605.05894http:\u002F\u002Farxiv.org\u002Fabs\u002F1605.05894[10] 兰迪·乔伊和玛格诺·文泰恩2017年。微博中地方语言灾害相关推文的分类研究。《Asia Pacific Journal of Multidisciplinary Research》[11] Prannay Khosla 、 Moumita Basu 、 Kripabandhu Ghosh 和 Saptarshi Ghosh 。2017年。灾后救助微博检索：应用和比较神经IR模型。arXiv预印本arXiv：1707.06112（2017）。[12] Christine Largeron、Christophe Moulin和Mathias Géry。2011年。基于熵的文本分类特征选择在2011年ACM Symposiumon Applied Computing会议录中。ACM，924[13] Hongmin Li ，Doina Caragea ， Cornelia Caragea ，and Nic Herndon.2017年。用域适应方法通过推文分类辅助的灾害响应《突发事件与危机管理杂志》（Journal of Contingencies and Crisis Management，2017）[14] Ying Liu，Han Tong Loh，and Aixin Sun.2009年不平衡文本分类：一种术语加权方法。Expert systems with Applications36，1（2009），690[15] Xinghua Lu，Bin Zheng，Atulya Velivelli，and ChengXiang Zhai.2006年通过语义丰富的表示和训练数据增强来增强文本分类。 Journal of theAmerican Medical Informatics Association13，5（2006），526[16] Justin Martineau和Tim Finin2009年 Delta TFIDF：一种用于情感分析的改进特征空间。Icwsm9（2009），106.[17] Tomas Mikolov、Ilya Sutskever、Ka","totalNum":1,"upLimitPageNum":0},"downloadNum":0,"previewInfo":{"coverImg":["https:\u002F\u002Fdl-preview.csdnimg.cn\u002F88432731\u002F0001-f3ad63ea0178ac3f0cca09119f40361a_thumbnail.jpeg"],"isPreview":true,"isFromSo":false,"totalPage":9,"defaultCoverImg":"https:\u002F\u002Fcsdnimg.cn\u002Frelease\u002Fdownload\u002Fstatic_files\u002Fpc\u002Fimages\u002Fthumbnail\u002FPDF.png","unloginPreviewNum":0,"soPage":0,"firstPage":1,"sourceType":1,"isPpt":0,"previewImg":[]},"upDate":1697392664000,"isPaySource":false,"tagArr":[],"isVipExclusive":true,"button4BuyVip":{"broadcastBackgroundColor":"#FC6B0B","url":"https:\u002F\u002Fmall.csdn.net\u002Fvip?spm=1003.2020.3001.4167&utm_source=vip_pc_xz_tabjb","name":"开通VIP（低至0.43\u002F天）","broadcastCharactersColor":"#FFFFFF","broadcastText":"VIP年卡限时特惠"},"sourceLowestPrice":0.43,"userIsStudent":false,"button4Download":{"downloadVipIcon":false,"name":"立即下载"},"pubDate":1697363864000,"userVipCouponNum":0,"favoriteNum":0,"fileSize":726713,"firstSourceId":88432731,"isFavorite":false,"flag":26,"sourcesStatus":2,"description":"","title":"社交媒体在紧急救援和准备中的应用及TF-IDF Boosting算法的研究","showCBeansBool":true,"abTest10140":1,"isShowCopyRightIcon":false,"viewCountInteger":45,"tagStr":"[]","sourcePrice":0,"downloadToday":false,"viewCount":"45","userBalance":0,"minVipBalance":8600,"bundledVipInfo":{"hitId":0,"isBundledVip":false},"cBeans":90,"vipDiscount":0.9,"isCertification":false,"fileSizeFormat":"710KB","firstIsessence":"WENKU_PDF_SOURCES","fileTypeUrl":"https:\u002F\u002Fcsdnimg.cn\u002Frelease\u002Fdownload\u002Fstatic_files\u002Fpc\u002Fimages\u002Fminetype\u002FPDF.png","tarArrString":"","userPayExpire":true,"userIsEmployee":false,"couponsValue":0,"sourceScore":5,"sourceAuthor":"cpongm","tagNavList":[],"userIsRisk":true,"activitiesTips":"限时抽奖","fileType":"PDF","optimalCouponsExpirationDate":"","vipActivityConfig":{"vip11EndTime":1605283200,"renewalDiscount":8,"vip11beginTime":1604678400,"vip11word":"领券续费立减¥100"}}},"CFG":{"ALIPLAYER_VERSION":"v4","ALIPLAYER_H5_VERSION":"mobile_v1","ENV":"prod","VUE_APP_API_DOWNLOAD_SERVER_PROD":"https:\u002F\u002Fdownload.csdn.net\u002F","INTERNAL_SERVER_TIMEOUT":5000,"ROOT_URL":"https:\u002F\u002Fdownload.csdn.net\u002F","VUE_APP_API_URL_SERVER":"http:\u002F\u002Fcms-community-api.internal.csdn.net\u002F","VUE_APP_API_URL":"https:\u002F\u002Fcms-community-api.internal.csdn.net\u002F","VUE_APP_API_DOWNLOAD_SERVER":"http:\u002F\u002Fdownload.csdn.net\u002F","VUE_APP_API_WENKU_SERVER":"http:\u002F\u002Fwenku.csdn.net\u002F","VUE_APP_API_WENKU":"https:\u002F\u002Fwenku.csdn.net\u002F","VUE_APP_API_DOWNLOAD":"https:\u002F\u002Fdownload.csdn.net\u002F","VUE_APP_API_BIZAPI_URL":"https:\u002F\u002Fbizapi.csdn.net\u002F","VUE_APP_API_MOCK_URL":"https:\u002F\u002Fcms-api.csdn.net\u002F","VUE_MALL_API_URL":"https:\u002F\u002Fmall.csdn.net\u002F","VUE_APP_CMS_HOME_PAGE_ID":"202","VUE_APP_CMS_PAGE_ID":"174"},"queries":{},"basePath":"http:\u002F\u002Fwenku.csdn.net\u002Fpdf\u002Fd8w814d85u","uaInfo":{"isMobile":false,"isWeixin":false,"isCsdnApp":false,"isCsdnEduApp":false,"isGoogleBot":false,"isIosMobile":false,"isAndroidMobile":false,"isWindows":false,"isMac":false},"adSize":{"maxWidth":1920,"minHeight":120,"proportion":16},"fullWidth":null,"showPreModal":false,"fixed":false,"browserRendered":false,"dialogStatus":{"default":false,"code":false,"codeWeapp":false,"money":false,"balancePay":false,"openVip":false,"useVip":false,"text":false,"isCopy":false,"yry":false,"joinVip":false,"bgLight":false,"spm":null,"lottery":false,"coupons":false,"cert":false,"activityAd":false},"showStopDownloadDialog":false,"stopDownloadCheckInfo":{},"canPayAdvance":false,"useBalancePay":false,"needGuideScan":false,"beforeDownloadLoading":false,"downloadLoading":false,"beforeDownloadData":{},"checkUrl":null,"checkShow":false,"isDownload":false,"adData":[],"navOffsetTop":48,"resizeObserver":null,"timer":null,"showDevelopEntrance":false,"topOneSourceInfo":{},"showSourcePreview":true,"activeTab":0,"autoJumpTestInfo":[]};</script><script type="text/javascript" src="https://csdnimg.cn/release/wenkucmsfe/public/js/runtime.64e880f5.js"></script><script type="text/javascript" src="https://csdnimg.cn/release/wenkucmsfe/public/js/chunk/common.c3a68326.js"></script><script type="text/javascript" src="https://csdnimg.cn/release/wenkucmsfe/public/js/chunk/tpl/download-detail/index-translate-pdf.57b5417e.js"></script></body>          <script src="https://g.csdnimg.cn/side-toolbar/3.4/side-toolbar.js" ></script> <script onload="window._docsdnToolbarLoaded()" src="https://g.csdnimg.cn/common/csdn-toolbar/csdn-toolbar.js"></script>     </html>