新闻主题分析：类别划分与主题发现算法研究

79 浏览量更新于2023-12-12 收藏 703KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

理论计算机科学电子笔记225（2009）51-65www.elsevier.com/locate/entcs日英新闻文章的类别划分与主题发现David B. Bracewell布拉斯韦尔1，2德岛大学情报科学研究科德岛严家军3德岛大学情报科学研究科德岛富士仁4号德岛大学情报科学研究科德岛信息工程北京邮电大学黑岩慎吾5德岛大学情报科学研究科德岛摘要本文提出了一种用于新闻文章主题分析的算法。主题分析包括类别分类、主题发现和分类。处理新闻有特殊的要求，标准的分类方法通常无法处理。本文提出的算法能够对类别和主题分类进行在线训练，并在出现新主题时发现这两种算法都是基于关键字提取算法，适用于任何具有基本形态分析工具的语言因此，类别分类和主题发现和分类算法都可以很容易地被多种语言使用通过对英语和日语的测试表明，该算法具有较高的准确率关键词：类别分类，主题发现，主题分类，信息检索，新闻领域1571-0661/© 2008 Elsevier B. V.根据CC BY-NC-ND许可证开放访问。doi：10.1016/j.entcs.2008.12.06652D.B. Bracewell等人/理论计算机科学电子笔记225（2009）511引言我们将新闻的主题分析定义为不仅确定主题，而且确定新闻文章的类别。对于新闻，类别是高级别的分组，可以更容易地导航文章。报纸和互联网新闻网站按类别细分。例如，报纸将有体育版，商业版等，我们将主题定义为新闻文章的主题。议题也报纸和新闻网站的一部分主题和类别的组合创建了一个允许向下钻取导航的层次结构。图1给出了一个这样的层次结构的例子，来自Yahoo！新闻（news.yahoo.com）在2005年12月。例如，关于“世界棒球经典赛”的文章可以属于关于“棒球”的主题，“体育”这一类主题和类别之间存在一对多的映射，这意味着一个主题可以属于多个类别。例如，关于飓风的主题可以链接到多个类别，例如Fig. 1.类别-主题层次结构类别和主题分类都可以看作是文本分类问题。然而，新闻引入了新的要求，为标准分类算法带来了困难。处理新闻与处理文档集是不同的。新的文件不断出现，必须处理。这些1本研究得到日本文部科学省科学研究补助金（B）14380166、17300065、探索性研究17656128的部分资助。2电子邮件：davidbis.tokushima-u.ac.jp3电子邮件：{yanjj，ren，kuroiwa}@ is.tokushima-u.ac.jp4电子邮件：ren@is.tokushima-u.ac.jp5电子邮件：kuroiwa@is.tokushima-u.ac.jpD.B. Bracewell等人/理论计算机科学电子笔记225（2009）5153新文档可能具有以前从未见过的信息。因此，新闻需要动态的在线分类和发现。此外，因为发现是可能的，所以分类必须能够使用稀疏的训练数据来完成。这三个要求，在线分类，发现和稀疏训练数据分类，给标准技术带来了问题本文提出了类别分类和主题发现和分类的算法，被证明是非常有效的。它们满足了新闻的所有三个附加要求。此外，它们很容易应用于任何语言的基本形态分析工具。本文件将继续如下。首先，第2节将审查背景资料和相关工作。然后，在第3节中，将给出范畴分类的算法。在第4节中，将展示主题发现和主题分类的算法。第五节给出了实验结果。最后，在第6节中提出了结论意见，并讨论了今后的工作2背景本节将介绍有关类别分类和主题分类的一些背景信息。它还将研究一些相关的工作。首先，类别分类将被检查，然后主题发现和分类。2.1类别分类对于新闻来说，类别分类是一个多标签文本分类问题。目标是为一篇新闻文章分配一个或多个类别。多标签文本分类的一个标准技术是使用一组二进制分类器。对于每个类别，分类器用于对是否应将类别分配给文本给出“是”或“否”的答案。用于二进制分类器的文本分类的一些标准算法包括朴素贝叶斯分类器[6]和支持向量机[9]。多标签分类的其他一些方法包括boosting[7]和由EM算法训练的混合模型[5]。新闻的类别分类算法除了具有所需的高精度和召回率外，还应该易于更新。这是因为随着世界的变化，有关新技术，事件等的新闻和信息也需要添加到分类器中。例如，在1980年，我们会有一个名为“技术”的类别，现在在2006年，我们有iPod和等离子电视等东西，但1980年使用的训练数据将无法涵盖这些新技术。通过易于更新，我们的意思是更新分类器需要简单的非穷举重新训练或根本不需要重新训练。此外，由于可用的新闻量，保留训练数据可能是一个问题。因此，在重新训练时不需要先前使用的训练数据的算法是一个优点。以前的方法通常需要正面和负面的训练数据。初始训练数据集要求每个文档54D.B. Bracewell等人/理论计算机科学电子笔记225（2009）51所有的正面标签。支持向量机具有更先进的性能，但它们训练速度慢，并且更新训练数据并不真正一个可行的选择朴素贝叶斯分类器也可以提供良好的性能，但根据所使用的特征，它们可能需要保留以前的训练数据。2.2主题发现和分类近年来，已经完成了关于在现有文档集合中Wang等人介绍了一种从文本中的关系中发现组和主题的方法[11]。他们的组主题模型旨在帮助社会网络分析。[8]介绍了使用文档聚类技术进行无监督主题发现的工作但是，上述算法并不适用于新闻。的原因新闻不是静态的数据集合。它是一种在线信息流这并不能阻止它的蔓延。因此，新闻的算法也必须能够以在线的方式处理事情。这个想法是显而易见的，我们一起参加了NIST的主题检测和跟踪[1]项目，以检查该项目。然而，所提出的主题分类器与TDT中所做的主题分类器之间有一个根本区别，那就是主题的定义。TDT将主题定义为文章的主要事件。我们将主题定义为文章的主题，而不仅仅局限于主要事件。例如，对于TDT，一篇关于“朝鲜核谈判”的文章和一篇关于“伊朗核谈判”的文章将这是两个独立的事件，因此是两个不同的主题，但对我们来说，如果文章的内容相似，我们希望将两者视为一个称为“核谈判”的主题。也许差异足够小，为TDT设计的算法可以很容易地改变以处理我们的定义。3类别分类类别分类是指为一篇新闻文章分配一个或多个类别标签。范畴是非常广泛的分组，因此，可以决定一组原始的分类。因此，设计类别分类算法的第一步是确定基本类别。因为我们希望为了在跨语言信息检索环境中使用该算法，我们创建了可以跨越许多国家和文化的类别。我们分析了来自许多国家的新闻网站，发现虽然名称不同，但大多数新闻网站共享的类别是“世界”，“国家”，“体育”和“商业”。然而，因为我们不希望这个系统被绑定到一个国家，“世界”和“国家”不是好的选择。相反，我们把它们分成更小的类别。建议分类器所用的类别如下。这份名单是在审查了许多国家的新闻网站后创建的• 业务D.B. Bracewell等人/理论计算机科学电子笔记225（2009）5155• 政治• 罪恶与不幸• 健康• 体育• 娱乐• 技术• 科学和自然除下列类别外，还使用了联合国界定的世界区域（ http ：//www.un.org/depts/dhl/maplib/worldregions.htm ）。区域列表可以在下面看到。然而，世界区域的分类是使用简单的字典查找而不是类别分类算法来完成的。使用世界区域，因为在多国环境中，不可能定义国家类别。• 非洲• 亚洲• 欧洲• 拉丁美洲• 北美• 大洋洲3.1算法概述该算法建立了一个类别模型来描述一个类别。类别模型由类别名称、文档总数计数器和相关关键字的列表。关键字列表中的每个条目都有词干关键字，关键字的最短非词干版本以及它出现的培训文档的数量。关键字的词干版本是由算法，而非词干版本的关键字是外部使用，以显示给用户。关键词是使用Bracewell等人提出的关键词提取算法提取的。[2]并且可以从没有文档集合或语料库统计的单个文档。而且能够处理任何具有基本形态分析工具的语言。该算法提取名词短语而不是一元语法作为关键字。它使用文档中有关名词和单个单词的统计信息来权衡提取的关键词。结果发现，这种方法有一些优势，使用代理语料库时，没有现有的文件收集使用。每个类别都训练一个分类器。每个分类器可以相互独立地训练，这允许轻松更新类别信息。分类器不是二元的，这意味着它们不会给出“是”或“否”的答案。相反，他们给出了该文章在该类别中的可能性的估计。来自所有类别的相似性用于确定哪个类别应该56D.B. Bracewell等人/理论计算机科学电子笔记225（2009）51分配给文章。3.1培训为了训练一个分类器，需要一组训练文章。已经创建了一种自动获取这些训练集的方法，该方法涉及创建特殊领域语料库。使用前面提到的关键词提取算法从这些文章中提取关键词。记录关键词和它们出现在培训文章中的数量。这是分类器所需的唯一训练信息。只有类别的正例，即只有属于该类别的文档，才需要作为训练数据。更新分类器就像更新几个整数计数器一样简单图二. 培训概述图2显示了培训过程的概述。每次添加新文章作为训练数据时，都会更新该类别的“文档总数”计数。这个计数，顾名思义，告诉有多少培训文件已经看到了这个类别。然后从文章中提取关键词。每个关键字都在类别的关键字集中查找。如果找到关键字，则通过增加关键字“文档内”计数来更新关键字集。如果没有找到关键字，则将该关键字添加到类别的关键字集中，初始“文档中”计数为1。关键词的词干形式用于匹配和保持关键词向量较小。如果需要向最终用户显示关键字，则还存储关键字的最短无词干版本。在将项目用于训练数据之后，将不再需要它，并且可以被丢弃以这种方式创建一个类别模型，可以很容易地更新模型.给定类别的第一个关键字的概率可以很容易地使用关键字D.B. Bracewell等人/理论计算机科学电子笔记225（2009）5157|Σ算此外，它允许用户轻松地纠正和更新错误分类的类别。3.2分类分类涉及四个步骤。首先，从给定的文章中提取关键字。接下来，计算文章在每个类别中的可能性。然后，创建动态阈值。最后，对文章进行分类。该过程的概述见图3。图三. 类别分类关键字提取使用与训练相同的算法完成。关键字用于描述文档。通过这种描述，可以计算每个类别的可能性。给定文章的类别的可能性在等式1中定义，这与计算熵相同。在公式中，cj是一个类别，A是由一组关键字定义的给定文章，P（ki cj）是使用“In-Document”和“Total number of documents”计数计算的n（一）李克礼李浩d（cj|A={k1，k2，·· ·，kn}）=−P（ki|cj）log（P（ki|c（j））i=1在计算了所有的可能性之后，创建动态阈值，其中L是所有似然的列表，并且li是类别i的似然。利用似然度的均值和标准差来确定动态阈值。将可能性大于平均值加一个标准差的类别分配给文章。假设这些58D.B. Bracewell等人/理论计算机科学电子笔记225（2009）51、”。-是的P|L|l2见图4。主题发现和分类类别在组中脱颖而出，是文章的最佳选择Σ|L|.l i−1i（二）阈值=1li+|L||L||L|4主题发现和分类与类别不同，新闻主题是每天随着新闻的发生而创建的。因此，如果不是不可能的话，分配一组初始主题，所有文章在可预见的未来。这意味着不仅是主题分类-此外，还需要主题发现（也称为新主题检测或新主题创建）。4.1算法概述主题发现和分类算法的概述如图所示四、与TDT中使用的大多数算法不同，该算法不需要语料库用于统计或训练数据。该算法首先尝试将给定的文章分类为以前看到的主题。它使用一种一次性聚类来确定主题一篇文章。分类是通过找到与文章最相似的主题来完成的。但是，由于每天都有新的主题出现，我们需要一些机制来确定有条件分配的主题是否真的是一个好的选择。这就是主题发现的工作。每种算法将在下一节中描述D.B. Bracewell等人/理论计算机科学电子笔记225（2009）5159我4.1.1主题分类与类别分类算法一样，主题分类算法也基于[2]中描述的关键字提取算法。它使用关键字计算每个已知主题和给定文章之间的相似度。然后，它将最相似的文章分配为有条件分配的主题。与类别分类类似，主题是根据关键字向量来描述的。向量的值是关键字出现的文章数量。当主题用于相似性度量时，使用加一平滑将关键字向量的值转换为归一化频率。从给定的文章中提取关键字，并创建一个关键字向量，其中的值是关键字分数。为了比较文章的关键词向量和主题的关键词向量，将两者转换到相同的向量空间中。这是一个简单的过程，为一个不存在的关键字添加一个槽，它的值为0，图5显示了一篇文章和主题的关键字向量的示例当它们的尺寸不匹配时就会变形题目：条文：图五.矢量变换示例当主题和文章在同一个向量空间中时，可以计算两者为此，使用标准余弦相似性[10]余弦相似性在等式3中示出，并且ti表示主题之一，并且A表示给定文章。许多研究人员发现余弦相似性在TDT任务中非常有价值。然后选择具有最高余弦相似度的主题作为有条件分配的主题。（3）CosSim（t，A）=ti·A4.1.2主题发现|t|一|A|主题发现确定是否应保留有条件分配的主题，或者应该创建一个新的主题。这是通过动态阈值来实现的，参见图6。第一个阈值将有条件分类的主题（tc）和文章（A）的余弦相似度与由NewTSim在等式4中计算的文章和假设主题的余弦相似度进行比较。 NewTSim使用来自条件分类主题和文章的信息来尝试确定文章和与其有点相似的假设主题之间的余弦相似度。当发现足够多的主题时，第二个阈值是有用的，在这种情况下，实验确定为10。它检查有条件分类的主题的余弦相似度是否远大于其他已知主题的余弦相似度（四）NewTSim（t，A）=（0. 05× |t c|）×（平均值（A）-标准差（A））×平均值（tc）（|一|（1）（2）（3）（|t c| ×（平均值（tc））2）C战争伊拉克 US UK战争伊拉克美国英国暴力254 1 ⇒25410战争伊拉克暴力战争伊拉克美国英国暴力131 ⇒1300160D.B. Bracewell等人/理论计算机科学电子笔记225（2009）51∧×(i) CosSim（ tc，A）>0。1.CosSim（ tc，A）> NewTSim（ tc，A）(ii) NumTopics> 10CosSim（t c，A） >（2StdDev（AllTopicSims）+平均值（AllTopicSims）见图6。主题发现保留如果这两个阈值都满足，则有条件分类的主题将被优先分配给文章。否则，将创建一个新主题，是训练数据的第一个来源。训练的方式与分类的方式相同。该算法非常简单，但满足新闻文章主题分类的严格要求。通过广泛的实验确定了NewTSim和其他阈值。下一节中显示的结果来自未用于确定阈值的文档。5实验本节展示了在所提出的算法上对日语和英语的实验结果。首先，给出范畴分类的结果。然后，将给出主题发现和分类5.1类别分类每个类别，包括英语和日语，都有一个接受过1,000篇文章培训的分类器。为了测试，英语和日语都有800篇文章，这些文章都是从各种在线新闻网站上摘录的。新闻网站使用的类别以确定分配给物品的类别。例如，如果文章在网站上的体育下，它将是我们类别的体育。表1显示英语的结果，表2显示日语的结果召回精度F-measure微平均值百分之九十七点二一百分之九十点一九百分之九十二点八六宏平均值百分之九十六点四六百分之九十七点九九百分之九十七点二二表1英语分类结果召回精度F-measure微平均值百分之九十四点五百分之九十七点四百分之九十五点九宏平均值百分之九十四百分之九十七点六百分之九十五点八D.B. Bracewell等人/理论计算机科学电子笔记225（2009）5161点五表2日本人的类别分类结果62D.B. Bracewell等人/理论计算机科学电子笔记225（2009）51实验结果表明，该方法对日语和英语都具有较高的查全率和查准率。日语成绩略好于英语成绩。这可能是关键字提取算法在日语上更有效的结果。虽然不能直接比较，但结果与其他研究人员的结果相似，例如如[3]，能够在其他语料库上实现支持向量机。然而，这种算法具有能够容易地更新的优点5.2主题发现和分类为主题发现和分类进行了一些测试。首先，由于主题分类器必须在稀疏训练数据下也能很好地工作，我们将其与使用稀疏数据训练的其他分类器进行了比较。其次，我们对两个不同的英语语料库（路透社[4]和我们使用各种在线新闻来源创建的一个）进行了测试。最后，我们用日语做了实验5.2.1稀疏训练数据第一个实验是在一个在线环境中使用稀疏数据进行训练。当发现新的主题时，在在线环境中，初始训练样本很小。即使是稀疏的训练数据，分类器也必须能够准确地确定新闻文章的主题。出于比较的目的，使用了朴素贝叶斯分类器（NBC）、决策树（DT）分类器和最大熵（ME）分类器。每个标准分类算法都使用从训练文章中提取的所有关键字作为特征。特征向量由关键词得分组成。为了公平比较，所提出的算法没有使用在线学习来改善其结果。表3和表4分别显示了宏观和微观平均召回率、精确率和f-测量。从表中可以看出，所提出的方法对于几乎每种训练大小都有更好的结果最先进的分类器，如最大熵，在只有稀疏训练数据时无法准确分类。这在结果中可以看出。朴素贝叶斯和决策树分类器能够表现得更好。所提出的方法在大多数情况下确实取得了更好的结果。另外，没有明显的方法为朴素贝叶斯和决策树分类器进行在线训练。5.2.2英语成绩第一次英语测试使用了路透社语料库的1,000篇文章子集[4]。这个子集由11个主题组成。从没有已知主题开始，新闻文章以随机顺序输入系统。为了进行评估，我们使用了四个指标：召回率，精度，F-测量和碎片因子。使用查全率、查准率和F-测度来评价分类能力。在这种情况下，我们只对作为主题分组在一起的文章是否真正在主题中感兴趣。正因为如此，我们结合了假警报或创建的主题，只包含D.B. Bracewell等人/理论计算机科学电子笔记225（2009）5163朴素贝叶斯决定树大小召回精度F测量召回精度F-measure1040.6% 64.9% 44.0%45.7%百分之六十一点八49.1%2051.7% 67.4% 53.0%百分之五十六点六百分之六十二点三百分之五十七点三3054.1% 68.3% 53.5%百分之五十三点九61.0%百分之五十四点二4047.4% 67.4% 48.5%百分之五十六点一百分之六十点八56.0%5054.3% 69.3% 55.2%百分之六十点二百分之六十点三百分之五十七点二最大熵提出大小召回精度F测量召回精度F-measure1010.4% 9.8% 8.1%百分之五十七点七百分之六十六点四百分之五十六点四2014.4% 11.0% 11.5%百分之六十二点二百分之六十八点二百分之五十八点六3013.3% 7.4%百分之六十点九66.0%百分之六十五点二4015.0% 14.4% 12.3%百分之六十一点七百分之六十九点一百分之六十七点一5015.3% 14.8% 12.1%百分之六十三点四百分之六十八点六百分之六十五点九表3稀疏训练数据文章在同一个较大的主题时，计算这些措施。下一个度量是碎片因子，它告诉平均每个真实主题找到了多少个主题。例如，我们最初的主题集可能有“棒球”，但算法64D.B. Bracewell等人/理论计算机科学电子笔记225（2009）51可能会发现“2005年世界职业棒球大赛”和“棒球”是两个不同的主题。在这种情况下，棒球的真正主题被分成两个主题。碎片因子越低，假警报的数量越少表5显示了10次不同运行的微观和宏观平均结果。该组的碎片因子为14。分类师能够取得足够的分类结果，但分散系数过高。然而，路透社的语料库是一个非常困难的语料库。它也不代表这些文章大多会在日常新闻中使用第二个测试使用了500篇从各种在线英语新闻网站随机抽取的文章，包括雅虎！新闻，华盛顿邮报，BBC和CNN。虽然这些网站主要来自美国，我们认为这不会有多大的不同。此测试显示了在真实世界系统中更有可能遇到的文章的结果。文章集有手动分配的主题，并导致13个不同的主题。实验开始时没有已知的主题。表6显示了10次运行的平均结果。可以看出，召回率和准确率比路透社语料库高得多。此外，碎片化率下降到只有5。由于这些新闻文章是我们系统的目标类型，我们对结果很满意D.B. Bracewell等人/理论计算机科学电子笔记225（2009）5165朴素贝叶斯决定树大小召回精度F测量召回精度F-measure1045.8% 45.8%49.2%49.2%49.2%2050.3% 50.3% 50.3%49.2%49.2%49.2%3054.1% 54.1%百分之五十六点八百分之五十六点八百分之五十六点八4039.0% 39.0% 39.0%百分之五十六点三百分之五十六点三百分之五十六点三5046.5% 46.5% 46.5%百分之五十四点六百分之五十四点六百分之五十四点六最大熵提出大小召回精度F测量召回精度F-measure1010.2% 10.2% 10.2%百分之五十四点六百分之五十四点六百分之五十四点六2017.0% 17.0% 17.0%百分之五十七点五百分之五十七点五百分之五十七点五3011.0% 11.0% 11.0%百分之五十一点二百分之五十一点二百分之五十一点二4013.9% 13.9% 13.9%百分之五十五点八百分之五十七点三百分之五十六点五5014.1% 14.1% 14.1%百分之五十五点九58.0%57.0%表4稀疏训练数据召回精度F-measure微平均值百分之七十七点六百分之七十七点六百分之七十七点六66D.B. Bracewell等人/理论计算机科学电子笔记225（2009）51宏平均值百分之七十五点六百分之八十点九76.2%表5路透社的主题发现和分类结果召回精度F-measure微平均值百分之九十六百分之九十六百分之九十六宏平均值百分之九十三点七四百分之九十六点零五百分之九十四点六七表6非路透社数据的主题发现和分类结果5.2.3日本结果最后的测试使用了1,000篇随机抽取的文章，这些文章来自日本的各种新闻网站，包括《每日新闻》、《朝日新闻》和《读卖新闻》。文章集有手动分配的主题，并导致10个不同的主题。实验开始时没有已知的主题。表7显示了10次运行的平均结果查全率、查准率和F-D.B. Bracewell等人/理论计算机科学电子笔记225（2009）5167召回精度F-measure微平均值91.0%91.0%91.0%宏平均值90.04%百分之九十二点零八百分之九十点六一表7日语的主题发现和分类结果对日本人来说都是非常高的。然而，破碎系数也很高，为11.3。结果比英语非路透社测试的结果略差。这可能是由于日本人使用汉字（汉字）。这些字符有助于消除单词的歧义，但也会使简单的单词匹配变得困难。6结论和今后的工作本文提出了新闻文章的类别分类和主题发现与分类算法。新闻领域提出了其他领域没有的挑战。处理在线新闻需要在线分类，主题发现和稀疏训练数据的分类本文提出的算法是基于一个关键字提取算法，能够处理多种语言，不需要一个文档集或语料库统计。正因为如此，所提出的算法也能够与多种语言一起工作，在这种情况下是日语和英语。实验结果表明，虽然这些简单的算法还有改进的余地，但都能取得较好的效果。类别分类算法可以训练彼此独立的分类器，并且很容易更新。主题发现和分类算法是无监督的，并以在线方式学习。在未来，我们希望在更大的语料库上测试这些算法。我们还希望将命名实体识别添加到主题分类器中，希望它能有所帮助。此外，我们将研究改进算法的方法，以便碎片更容易接受。引用[1] Allan，J.，J. Carbonell，G.Doddington，J.Yamron和Y.杨，主题检测和跟踪试点研究：最终报告，在：美国国防部高级研究计划局广播新闻转录和理解研讨会，1998年，pp.194-218[2] Bracewell，D. B、F. Ren和S.李文，多语言文本关键词抽取技术，计算机科学与工程，北京，2005。[3] Joachims，T.，文本分类与支持向量机：学习与许多相关的功能，在：C。 N'edellec和C. Rouveirol，editors ， ProceedingsofECML-98 ， 10thEuropeanConferenceon Machine Learning ， 1398 （ 1998 ），pp.137-142.[4] Lewis，D. D、Y. Yang，T. Rose和F. Li，Rcv1：A new benchmark collection for text categorizationresearch，Journal of Machine Learning Research5（2004），pp. 361-397.[5] McCallum，A.，多标签文本分类与em训练的混合模型，在：AAAI68D.B. Bracewell等人/理论计算机科学电子笔记225（2009）51[6] McCallum，A.和K.Nigam，朴素贝叶斯文本分类的事件模型比较，在：AAAI/ICML-98文本分类学习研讨会，1998年。[7] 沙佩尔河E.和Y. Singer，Boostexter：A system for multiclass-multi-label text categorization，MachineLearning39（1998），pp. 135-168[8] 施瓦茨河，Unsupervised topic discovery，in：Proceedings of Workshop on Language Modeling andInformation Retrieval，2001.[9] 通，S。和D. Koller，Support vector machine active learning with applications to text classification，P.Langley ， editor ， Proceedings of ICML-00 ， 17th International Conference on Machine Learning（2000），pp. 999-1006[10] 范赖斯贝根河C. J.，[11] 王，X.，N. Mohanty和A. McCallum，从关系和文本中发现组和主题，第11届ACM SIGKDD知识发现和数据挖掘国际会议研讨会链接发现：问题、方法和应用（LinkKDD-05），2005年。

下载后可阅读完整内容，剩余1页未读，立即下载