模糊语义相似性模型用于检测高度模糊的剽窃案例

65 浏览量更新于2024-01-14 收藏 2.12MB PDF 举报

统计分析

实验验证

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com使用基于模糊语义的相似性模型萨勒哈湾Alzahrania，*， Naomie Salimb， Vasile Paladeca沙特阿拉伯塔伊夫的塔伊夫大学计算机和信息技术学院b马来西亚柔佛州马来西亚科技大学计算机科学与信息系统学院c英国牛津大学计算机科学系接收日期：2014年8月13日;修订日期：2014年10月24日;接受日期：2014年2015年6月27日在线发布摘要高度模糊的剽窃案例包含不可见和模糊的文本，这在使用现有的剽窃检测方法时会带来困难。一种基于模糊语义的相似度模型用于发现混淆的剽窃，并与五个最先进的基线进行比较。基于词性标记和WordNet相似性度量研究了词与词之间的语义相关性。引入基于模糊的规则来评估源文本和短文本之间的语义距离，将词与词之间的语义相关性作为模糊集的隶属函数。为了最大限度地减少误报和漏报的数量，使用了一种结合许可阈值和变化阈值的学习方法来确定真正的剽窃案例。该模型和基线基于从不同数据集中提取的99，033个地面实况注释案例进行评估，其中包括11，621个（11.7%）手工释义，54，815个（55.4%）人工剽窃案例和32，578个（32.9%）无剽窃案例。我们进行了广泛的实验验证，包括研究不同分割方案和参数设置的影响。使用精确度，召回率，F-测量和粒度对分层的10倍交叉验证数据进行评估。采用配对t检验的统计分析表明，该方法与基线的一致性在统计上是显著的，这表明模糊语义模型能够检测出字面剽窃之外的剽窃案例。此外，方差分析（ANOVA）的统计测试表明，所提出的方法使用不同的分割方案的有效性。？2015制作和主办Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。*通讯作者。电子邮件地址：s. tu.edu.sa（S.M. Alzahrani）。沙特国王大学负责同行审查。http://dx.doi.org/10.1016/j.jksuci.2014.12.0011. 介绍自然语言文本中的剽窃检测（PD）是NLP应用的一个例子，它与相关领域的方法相关联，例如信息检索（IR），数据挖掘（DM）和软计算（SC）。PD研究的重点是发现非法复制的文本模式1319-1578< $2015制作和主办Elsevier B. V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier关键词特征提取;模糊相似度;混淆;剽窃检测;语义相似度基于模糊语义相似度模型的249从其他人那里。最简单和常见的方式来犯plagia- rism是复制和粘贴文本从数字资源。这被称为字面剽窃，很容易通过当前的PD方法发现。与字面剽窃不同，模糊剽窃几乎看不见，因为剽窃的文本被改变成不同的单词和结构，或者可能变成不同的语言。混淆的剽窃案例可以是使用不同的句法结构和词汇变体（如同义词、反义词、超词等）对原始文本进行短语化的形式，但没有引用原文。当文本从一种语言翻译成另一种语言而不归功于原始版本时，剽窃也是隐藏的，这被称为跨语言剽窃。另一种形式是概括剽窃，其中长文本被简化为较短的形式，其中排除细节，并保留源文本中最重要的思想，但没有对原始来源进行认证。在这些典型的剽窃形式中，文本被改变，但原始文本中的思想保持不变。挪用全部或部分的想法，表面上的修改和混淆，为了隐藏他们的来源，而不给其创始人的信用，被称为创意剽窃（Roig，2006; Bouville，2008）。PD的传统技术依赖于文档相似性模型，例如重复检测（Elhadi 和Al-Tobi，2008，2009）和bag-o-words相关模型（Barro'n-CedenBagio等人，2009年、2010年、2009年）。然而，文档相似性的应用，实现了一组具有全局相似性（在文档级）的查询文档从一些源档案的检索。PD的目的还没有通过文档相似性来实现，并且应该执行查询文档与其候选日期列表之间的进一步详细比较以报告局部相似性（例如，在文档级）。精确和近似的字符串匹配通常用于详细比较两个文档并发现剽窃。文档被分割成小的比较单元，例如字符n-gram（Grozea等人， 2009），wordn-grams（ Barro'n-Cedenoetal.， 2009 ）、或其他术语（Alzahrani，2009; Yerra和Ng，2005; Zechner等人，2009年）。执行穷举匹配，由此将彼此相邻的匹配的n元语法（或句子）组合成段落。这些方法对于逐字抄袭是有效的，但对于字面上不同的抄袭文本却不起作用最近关于PD研究领域的文献综述（Alzahrani等人，2012）已经表明，需要有效和高效的算法来发现与原始文本在语义上相同但在字面上不同的剽窃模式。大多数当前的PD方法无法检测混淆的plagiarism情况，因为在没有任何文本的语言和语义结构的知识的情况下计算比较文本的相似性度量（Ceska，2007）。只有少数方法是基于对文本的部分理解而开发的，例如，当这些词被同义词、反义词和上位词取代时（ Yerra 和 Ng ， 2005 ）。例如，Alzahrani和Salim（2010）提出了一种基于单词及其同义词计算句子之间相似性得分的方法。该方法可能有助于检测语义相似的文本，但应进一步加强，因为不是所有的同义词涉及到每一个意义。近年来，基于词的语义相关性的句子相似性度量吸引了不同领域和不同应用的研究者，例如基于知识的系统（Lee，2011），文本聚类（Shehata等人，2010）、文本分类（Luo等人，2011）和文本摘要（Binwahlan等人，2010年）。Lee（2011）的一项研究提出了一种基于语义的句子相似性度量，其中可以基于由名词向量和动词向量组成的语义空间来比较两个句子。计算两个句子的名词向量之间和句子的动词向量之间的余弦相似度，其进一步组合成单个相似度分数。Li等（2006）提出了一种基于句法结构、语义本体和语料统计的句子相似性度量方法。Fernando和Stevenson（2008）提出了一种检测短长度释义的方法。该方法基于文本中的联合词构建联合相似度矩阵，采用不同的语义相似度度量计算词对之间的相似度.在本文中，我们提出了一个深入的词分析，在与WordNet词汇数据库（米勒，1995年），检测类似的，但不一定是相同的，段落。我们专注于高度混淆的剽窃案件，这些案件被改写成另一个文本，而没有适当的归属于原始文本。与现有的PD方法不同，现有的PD方法提取词袋特征（如n-gram）而不使用语义特征，我们实现了一种特征提取方法（FEM），该方法在进一步分块之前保持文本的词性（POS）语义空间。文本分割是有后，使用不同的方案，包括词3克，词5克，词8克与3字重叠，和句子。使用不同的分割方案的目的是调查哪一个更好地与文本中的语义特征一起工作。一种基于模糊语义的方法是基于这样的假设，即词（来自两个文本）与模糊集具有模糊（近似或模糊）相似性，模糊集包含来自两个文本的相同含义的词。某种语言。为了模糊化词对之间的关系（从文本对），我们提出了一个基于WordNet的语义相似度度量作为模糊隶属度函数。两个单词之间的模糊关系的范围在1（对于相同或具有相同含义的单词（即同义词））和0（对于完全不同的单词（即，没有任何语义关系）。建立了一个模糊推理系统来评估两篇文章的相似性，并对剽窃行为进行推理。对99，033个不同的案例进行了实验工作，这些案例包括手工/模拟剽窃案例，从一些文本文档自动构建并插入另一个文本文档的人工剽窃案例，以及无剽窃案例。这些病例的PD结果使用精确度、召回率、F-测量和粒度平均10倍交叉验证数据进行评估。所提出的方法进行了统计评估，对不同的国家的最先进的基线使用配对t检验，这表明这种方法的有效性，以检测高度混淆的剽窃案件。本文的其余部分组织如下。第二节介绍了基于WordNet等词汇分类法的语义相似性度量的相关工作，并对相关的PD方法进行了综述。第三节介绍了本研究中使用的特征提取方法。第4节提出了基于模糊语义模型的PD模型。在第5节中，我们讨论了实验设计，包括数据集，基线，参数设置，评估指标，10倍交叉验证方法和统计分析。250S.M. Alzahrani等人1221w2T12w2T21121212ð Þ¼1 2 2ω最大深度第6节介绍了使用不同句子样本和两个数据集的方法的结果，并讨论了lin w;w2ωICLCSw1;w2公司简介ð4Þ1 2将我们的结果与不同的实验结果进行比较，最先进的基线第7节得出一些结论并概述了这一领域未来可能的研究jcnw;w1-ICw1ICw2-2ωICLCSw1;w2ð5Þ2. 相关工作2.1. 语义相似性度量在词汇分类中，如WordNet（Miller，1995），词汇被排列成“这些词通常有不同的含义（即，因此，它们可能属于不同的同义词集。基于这种分类法，词与词的语义相似性可以实现为词的同义词集之间的关系词到词语义相似性度量的一部分假设有向无环图（DAG）分类法，其通过is-a关系将相同POS边界内的概念相关联。路径度量（Jiang和Conrath，1997; Li等人，2003），例如，测量最短路径（即，跳数）连接两个概念（即，两个词的同义词集）的形式。路径越小，两个词之间的语义相似度越高。lch度量（Leacock和Chodorow，1998）将连接两个单词同义词集的最短路径与它们出现的DAG分类法的根的最大深度相关联，如以下公式所示：我很高兴;我有四分之一的日志。路径w1;w21其他词与词之间的相似性度量已经在POS边界上定义，例如 lesk 度量（ Banerjee 和 Pedersen ， 2003 ）和hso 度量（Hirst和St Onge，1998）。事实上，这些度量是语义相关性，而不是Corley和Mihalcea（2005），Budanitsky和Hirst（2006）中所述的相似性度量。第一种方法是从两个词的同义词集合的词汇链之间的方向来整合信息，第二种方法是根据两个词的同义词集合的词典注释的重叠来衡量它们之间的关系句子相似性方法已经基于它们的词的语义相似性/相关性进行了研究，如由Mihalcea等人（2006）、Corley和Mihalcea（2005）、Li等人（2006），Lee（2011）和其他人。在Budanitsky和Hirst（2006）中，单词相似性度量被分为基于知识和基于语料库的方法。基于知识的方法基于语义本体，例如WordNet，它绘制单词之间的关系。这些度量包括path、lch（Leacock和Chodorow，1998）、wup（Wu和Palmer，1994）、res（Resnik，1995）、lin（Lin，1998）、jcnJiang和Conrath，1997、lesk（Banerjee和Pedersen，2003）和hso（Hirst和St Onge，1998）度量，我们详细讨论了这些度量。另一方面，基于语料库的方法实现了从大型（和标准）文本语料库（如Penn TreebankCorpus ， Brown Corpus ， Project Gutenberg corpus ，Wikipedia corpus等）中导出的单词之间的关系。基于语料库的测量的示例涉及潜在语义分析（LSA）（Mihalcea等人，2006）和逐点互信息（PMI）（Turney，2001）。为了计算两个文本的相似性，Corley和Mihalcea（2005），Mihalcea等人（2006）的研究结合了使用单词到单词相似性度量之一的局部度量和全局度量，即IDF。两个文本T1和 T2 之间的相似性定义如下（ Budanitsky 和 Hirst ，2006）：其中path（w，w）如上所定义，maxdepth是1二、P在DAG tax中，根和任何叶子之间的最长距离-maxSimw;T×idfw包含两个同义词集的onomyWup度量（Wu和模拟量T1;T2±2Pw2T1 以色列国防军Palmer，1994）将单词的同义词集在DAG分类法及其最不常见子分类的深度PmaxSimw;T×idfw！sumer（或最特定的祖先），表示为LCS。我们将在本文的后面部分详细讨论此措施T22的可编程电源以色列国防军ð6Þ信息内容（IC）Fernando和Stevenson，2008是一种衡量概念c在标准文本语料库中的存在IC其中P（c）是在语料库中可以找到c的概率。res度量（Resnik，1995）根据DAG分类法中LCS的IC定义了两个单词同义词集的相似性得分。保留字w;w其中，maxSim（w，T2）是通过基于知识或语料库的相似性度量之一获得的来自T1的每个词w和 T2 中的词，并且idf（w）是从关系 nw/N获得的IDF，其中nw是包含词w的文档的数量，并且N是大型文本语料库中的文档在Fernando和Stevenson（2008））中，提出了两个候选文本之间的联合（不同的和非停止的）词的相似性矩阵W。每个文本被表示为具有条目的二进制向量：如果存在来自联合词矩阵的词，则为1，否则为相似性矩阵W中的每个单元具有等于从以下此外， lin 度量（ Lin ， 1998 ）和 jcn 度量（ Jiang 和Conrath，1997）分别基于LCS的IC和词的同义词集的IC，基于知识的度量。相似性得分被计算为来自两个文本的二进制向量和相似性矩阵的数学乘积，如下所示：基于模糊语义相似度模型的251Þ ¼222N1212T1T2121212V12ð Þ ¼ð Þ¼T~1WT~2模拟量T1;T2= T~j= T ~ j =T~j=7以及VV向量中的其他动词）。根据两个向量计算余弦相似性测量值，如下所示：1 2其中T~和T~是文本T和T的二进制向量，TNVT1·NVT2ð13ÞW是联合相似性矩阵。Li等人（2006）的研究提出了一种基于词语相似度的句子间语义相似度度量方法jjNVT1jj·jjNVT1jjVVT;VVVT ·V VTð14Þ和词序相似性。他们提出了一个词到词的语义相似度，我们称之为li度量，它结合了两个词w1和w2之间的最短路径以及两个词在分类中的LCS深度，如下所示：jjVVT1jj·jjVVT1jj为了找到两个文本之间的最终相似性得分，以类似于Eq.（12）如下模拟量T1;T2模拟量D·SNT1;T2模拟量 T1-D·SVT1;T2模拟量T15-a ·pathw;web·深度LCSw1;w2eb·深度LCSw1;w2li w 1; w 2e12 × eb·深度LCSw1;w2-eb·深度LCSw1;w2ð8Þ2.2. 剽窃检测方法其中a[0，1]和b[0，1]是公式中的路径和深度度量的分布的缩放参数。然后，联合词集被定义为来自文本T1和T2的唯一的、不间断的和词干词的统一。文本T1的语义向量s1中的条目的值定义如下：s1wilwi;w~×ICwi×ICw~9其中，如果该词存在于T1中，则li度量被评估为1，或者li度量被评估为在词wi与候选文本T2中的任何词之间找到的最高词到词语义相似度如（8）中所定义，IC是应用于PD的语篇特征从词汇、句法特征到语义特征。表1示出了采用文本特征类型的研究工作的总结（Alzahrani等人， 2012年）。通常，文本文档中的PD方法集中于对文本进行分块并测量两个文档之间的重叠（Alzahrani等人，2012年）。这些方法的一个典型例子是将文本分割成N元语法，并使用Jaccard系数（16）、Dice包容系数（19）。如（2）中所定义的。文本T2的语义向量s2以类似的方式定义，最终的句子相似度得分计算为两个向量的余弦相似度JaccardT;TjfNGramsgT1\fNGramsgT2jjfNGramsgT1[fNGramsgT2]ð16Þs1·s2骰子T;T=2jfN克gT1\fN克gT2jð17ÞSST1;T2jjs1jj ·jjs2jjð10ÞjfNGramsgT1 [fNGramsgT2j顺序相似性（Li等人， 2006年），另一方面，MatchT1;T2jfNGramsgTj -jfNGramsgT意味着不同的词序可能传达不同的意思-11并且应该计入语义相似度。例如，如果我们有两个候选文本，T1=\fNGramsgT2j 2011年1月8日fox jumps over the lazy包含T;TjfNGramsgT1\fNGramgT2j最小值jfNGramsgj;jfNGramsgjð19Þ{A，quick，brown，fox，jumps，over，the，lazy，dog}，其中我们可以通过唯一的数字来指示每个单词的出现因此，来自T1和T2的词序向量可以分别给出为r1={1，2，3，4，5，6，7，8，9}和r2={1，2，3，9，5，6，7，8，4}，很好余弦相似度从如下所示的顺序向量获得。其中fNGramsgT1 和fNGramsgT2 是分别从T1和T2生成的N元语法的集合。在Yerra和Ng（2005）中，作者采用了一种基于重复的拷贝检测方法，即3-最少频率的4-gram。在他们的方法中，句子被分成独特的字符4-gram{g1，g2，. . ，gJ}，每4克的频率为ST;T1-jjr1-r2jjð11Þ计算如下：R1 2jjr1r2jjniLi et al. （2006年）fgiPJnð20Þ（10）和（11）的相似之处如下：模拟量T1;T2模拟量D·SS·T1;T2模拟量T1-D·S·R·T1;T2模拟量 12次其中d是缩放参数 [0.5，1]。最近的一项研究（Lee，2011）报告了一种句子相似性度量，其实现了包含来自两个候选文本T1和T2的联合名词集合的NOUN向量（NV）和包含来自T1和T2的联合动词集合的VERB向量（VV）。NV向量（和VV向量）中条目的值被定义为NV向量（和相应动词）中相应名词和其他名词之间的最高wup相似度（Wu和Palmer，1994j/1j其中ni是第i个4-gramgi的出现次数，J是句子中不同4-gram的总数。两个句子T1和T2由它们的三个最不频繁的4-gram（也称为指纹）唯一地表示。句子的指纹与它们的代表指纹相匹配，复制的句子很容易被检测出来。然而，大多数（如果不是全部的话）剽窃检测器还没有应用包含对语言规则或两个候选文本之间的语义关系的部分理解的剽窃检测方法（Alzahrani等人，2012年）。一些研究工作已经应用语义-121212252S.M. Alzahrani等人每隔一周;w/wi2V1wj2V2i j辛伐他汀联系我们12表1文本特征在PD研究中的应用。–示例参考文献词汇特征字符n元语法（固定长度）字符n元语法（可变长度）单词n元语法Grozea等人（2009年）Yerra和Ng（2005年）Zechner等人（2009年），Koberstein和Ng（2006年），Basile等人（2009年），Kasprzak等人（2009年），（2009年）; Alzahrani和Salim（2010年）句法特征块词性和短语结构句话05 The Dog（2009）Elhadi和Al-Tobi，2008年，2009年; Ceska等人，2007Li等人，Alzahrani（2009），Yerra and Ng（2005）语义特征同义词、下位词、上位词等。语义依赖Alzahrani（2009年），Yerra和Ng（2005年），Li等人（ 2006 年）， Alzahrani 和 Salim （ 2009 年），Alzahrani 和 Salim （ 2010 年） Li等人（ 2006 年），Muftah（2009年）的方法和报告的积极结果相比，N-gram匹配方法（Turney，2001）。这是由于这些方法的能力，以发现剽窃时，Wikipedia文档，并且从公式（23）获得句子与句子的相似度。PPw;w1-1这些方法的复杂性影响了它们在1 2jVj× jVj1 2实用工具。提出了一种基于SVDPlag的关于奇异值分解（SVD）的潜在语义分析（LSA）Ceska，2008，2009。该方法使用特征提取和减少n-gram从文本文档，其中n是实验评估使用1和8之间的潜在语义联想然后将不同的n-gram合并到文档中，其中V1是包含单词w1及其所有词干在文本文档D中的变体中，V2是包含单词w2及其词干的集合，并且dis（wi，wj）是D中wi和wj之间的距离（或单词的数量）。Pn分钟1;Pmperminwi;wjmin1 2基于LSA的语义相似性模型，保留了语义信息，1j文档中的n元语法之间的关联如典型的IR模型（Manning等人，2009年）。Yerra和Ng（2005）中的基于句子的拷贝检测方法使用文献（Ogawa等人，1991; Bordogna和Pasi，1993;Cross，1994）。FIR不仅能够检测相同的句子，而且能够检测相似的句子，其结果优于3-最少频率的4-gram。该方法是基于使用模糊集，其中包含具有相同或相似用法的单词，可以从大型文本语料库中的文档中导出。相互相关（或相似）的单词通常出现在许多文档中;因此，它们的相关系数可以通过包含两个单词的文档数量与包含其中一个或两个单词的文档数量之间的比率来获得。因此，Yerra和Ng（2005）提出了一个词与词之间的相关系数，我们称之为Yer度量，它可以从以下公式推导出来（Yerra和Ng，2005）：其中n和m分别是T1和T22.3. 讨论有一些语义相似度的方法，旨在比较短的长度，如句子，但他们很少用于PD应用。事实上，在学术社会中存在一些情况，其中我们需要检测剽窃活动，这些剽窃活动旨在通过导出与原始来源相似的内容但使用不同的单词来隐藏。分块（即，一种用于将文本分割成小的和可扫描的片段的方法）和字符串匹配，它们是用于PD的主要方法，对于混淆的剽窃情况是非常不可靠的。我们建议，因此，使用语义相似性测量检测字面上不同的剽窃案件。在这方面，我们解决的问题是如何使组块方法之间的组合，它使用的语义关系-yerw;wNw1;w2ð21Þ单词船和基于模糊语义的PD。在这项工作中，NwNw- N w; w1 2 1 2其中N（w1，w2）是文本集合中包含单词w1和w2的文档数，N（w1）是包含w 1的文档数，N（w2）是包含w 2的文档数。句子的比较基于它们的词的相关因子的总和，并且句子与句子的相似度被报告为两个句子中的词与模糊集之间的隶属度。Pera和Ng（2011）的另一项研究使用了一种不同的词与词之间的相关性测量，我们称之为每一个指标，用于基于数据的PD方法。两个词之间的关系是从公式（22）中使用880，000导出的。我们在Yerra和Ng（2005）中修改了FIR模型，以增加porate基于WordNet的语义相似性度量，而不是单词相关性因素。我们使用FIR作为我们方法的基线，并比较了两者在地面实况注释的剽窃语料库中的结果。3. 特征提取方法（FEM）在这项研究中，我们实现了两种类型的文本结构。第一个目标是将文本描述为单词k-gram（也称为k-shingles），其中k通常在实验之前设置。在这种情况下，我们提出了相同的设置，文本被改写和重新措辞。然而，时间复杂-ð22Þð23Þ基于模糊语义相似度模型的253在以前的研究工作中取得了很好的结果，即单词3-grams（ Barro'n-Cedenoetal. ，2010 ），单词 5-grams （ Barro'n-CedenBaghio等人，2010; Alzahrani等人， 2012），以及具有3字重叠的字8元语法（Alzahrani等人，2012年）。第二个目标是使用语句结束分隔符（即，句号、问号和感叹号）。基于句子的特征提取方法已经广泛应用于PD研究中（Alzahrani，2009; Yerra和Ng，2005; Zechner等人， 2009年）。3.1. FEM框架使用特征提取方法（FEM）对输入文本进行词典和词性标注。主要部件如图1所示，可描述如下：Tokenization -POS消歧（或标记）-在文本的进一步预处理之前，采用POS标记器根据宾夕法尼亚树库POS标记来注释语音的部分（Marcus等人， 1993年）。i. Lemmatization -因此，在该组件中，标记被改变为引理[L]。这将有助于，在本文的后面部分，比较两个句子的语义意义的基础上的语义相关性的（lemmatized）的单词来自WordNet。基于我们在以前的研究工作中使用“词干提取”的经验Salim，2010），使用WordNet提供单词“stem”的同义词集可能会有缺陷，因为 WordNet 是基于“lemmas "而不是”stem“，这应该有助于在我们的模型中找到合适的同义词集。ii. 停用词删除从文本中删除。因此，大多数连词和感叹词将在这一步中被删除停止词列表已从NLTK（nltk.org）项目获得。iii. 文本分割-将生成的文本分割为单词3-gram （W3G）、单词5-gram（W5 G）、单词8-gram（3-word重叠）（W8 G3 W）和句子（S2 S）。这些不同的分割方案将在实验工作中进行比较，就哪种方法可以更好地处理混淆的剽窃案件以及提出的基于模糊语义的相似性方法而言。iv. POS相关的语义空间构建-每个片段中的词元被归类为以下标签：名词[N]，动词[V]，形容词[AJ]或副词[AV]。在这方面，转换函数用于将多个PennTreebank标签转换为我们的标签。例如，VB，VBD，VBN，VBG将是[V]，等等。3.2. 例在本节中，让我们考虑以下从名为PAN-PC-11的语料库中提取的原始文本（Potthast等人，2011）最近被基准PD评价实验室1使用（数据集将在第5.2节中讨论）：原始文本：她真可爱！她说，想着应该送她一份特别的礼物。她漂浮在小家伙的头上我们应用有限元法，它保持了词汇和语法的特点，提出了这项研究。表2显示了从不同预处理步骤获得的结果，包括：(I)标记化过程，其中文本被分割成标记和句尾分隔符;（II）POS消歧;（III）词形化，其中标记被转换成词元（字典形式）;以及（IV）停用词去除。表3示出了分割成涉及句子W3G、W5G和W8G3W（第2列）的不同结构的过程，以及针对每个片段的所得POS相关语义空间（第3列），由此我们在输入文本的POS消歧过程期间保持与每个术语相关联的原始POS标签。FEM算法的输出将在PD方法中用作不同的比较方案，并且POS语义空间将有助于在基于语义的度量中找到每个单词的适当含义。图1基于不同特征的分割设置和POS相关的语义空间。1剽窃分析、作者身份识别和近似重复检测（PAN）研讨会，http://pan.webis.de/。254S.M. Alzahrani等人12表2文本标记化、词形化、POS消歧和停用词删除。4. 基于模糊语义的串相似度模型在剽窃检测中的应用在本文中，我们提出了一个深入的词分析之间的两个输入文本利用其POS相关的语义空间。两个单词之间的语义相关性可以根据WordNet词汇分类法中的“is-a”关系来定义因此，两个文本之间的语义关系可以定义为基于词的语义相似性的不同模糊规则的集合根据Yerra和Ng（2005），我们将Yerra和Ng（2005）中的模糊集IR系统改编为基于模糊语义的模型，并将前者用作基线（更多细节请参见第5.2该模型的基础上的语义之间的相关性作为隶属度的一方，和两个候选文本的模糊规则为基础的比较。4.1. 总框架在规则的评估之后，输出被聚合成单个值，该值可以被解释为输入文本之间的相似性分数。高度相似的文本部分将突出显示并显示给用户。该系统应该能够推断文字剽窃以及模糊的剽窃案件。4.2. 词间语义相似度词与词之间的关系可以基于不同的假设：词是相同的，词在同一个同义词集中（即，同义词），单词不在同一个同义词集中，但它们的同义词集中包含至少一个共同的单词，单词至少有一个共享的上位词，单词是不同的。在这方面，已经提出了关于词在WordNet词汇数据库中的关系的词的各种语义相似性度量，如先前在第2.1节中所讨论的。在本文中，我们使用Wu& Palmer（1994）测量Wu和Palmer，1994，其已经变得非常流行（Lee，2011; Lin等人，1998年）。该度量结合了两个单词同义词集的最小公共包含者（LCS）的深度和每个单词在其词汇分类中的深度，如图3所示。该公式可以表示如下：图 2显示了该模型的总体框架。两个输入wup/w;w/1/2/2×深度/LCS/w/1/2/2ð24Þ深度w深度w1 2文本（可能是文档大小）在功能extrac中使用方法。从文本中得到的特征被用作模糊推理系统的输入，由此语义相似性度量被建模为隶属函数。其中w1和w2是两个词概念（以同义词集的形式），深度（x）是从DAG分类法的根到概念x的边的总数.使用基于模糊语义的相似性模型发现剽窃案例255表3将文本分割成句子和单词k- Grams。结构分割与POS相关的语义空间句子#1：甜#2：说想礼物的特别礼物#3：让小脑袋开花宣布孩子结婚谁选择永远幸福生活W3G #1：Sweet Say Think #2：Say Think Present#3：Think PresentKind#4：特殊礼物.. .W5G #1：Sweet Say Think Present种#2：认为礼物特别#3：认为礼物种类特殊的礼物#4：礼物种类特别礼物.. .W8G3W #1：Sweet Say Think Present一种特殊的礼品包装#2：特殊的礼物-#1：[AJ]#2：[V][V][V][N][AJ][N]#3：[N] [AJ] [N][V][N][V][AV][V][V][AV][AV]#1：[AJ] [V][V]#2：[V] [V][V]#3：[V] [V][N]#4：[V] [N][AJ].. .#1：[AJ][V][V][V][N]#2：[V][V][V][N][AJ]#3：[V] [V] [N][AJ] [N]#4：[V] [N] [AJ] [N][N].. .#1：[AJ][V][V][N][AJ] [N][N]#2：[AJ] [N] [N][AJ][N][V] [N][V]#3：[V] [N] [V][AV][V][V][AV][AV]图3WordNet词汇分类法的有向无环图（DAG）。为了正确地使用这个公式，我们利用POS语义空间来从WordNet数据库中找到合适的同义词。为了说明这一点，让使用的结构包括句子和单词k-gram。产生的片段将作为PD系统中的不同比较方案。POS相关的语义空间将有助于找到每个术语的正确同义词集（例如，[V]与[N]的含义不同。如在图4中表示两个词的语义本体中可以看到的。Wu和Palmer相似度（Wu and Palmer，1994）仅在两个词具有相同的词性标记时才能计算;例如，如果“present "和”gift"是名词，则它们在语义上相似，但如果“present "是动词，而”gift"是名词，则它们没有语义相似性。此外，相同词性的两个词之间的相似性将基于两个词的不同含义而变化。使用NLTK （Edward and Steven ，2002 ），我们计算了“gift”和“present”的不同同义词之间的不同值，其中POS =[N]：[[[然而，在这项研究中，我们没有采用任何词义消歧的方法，以避免额外的复杂性。我们假设具有相同词性的词的同义词集之间的Wu Palmer相似度最高。因此，我们认为“礼物”和“礼物”的例子中的wup相似性4.3. 用于剽窃检测的我们提出了一个模糊系统的PD使用作为输入的一组单词2{a1，a2，. . ，an}中的文本A，图2基于模糊语义模型的总体框架文本相似性和剽窃检测。2从这个时候起的词指的是文本中原始词的不常见的词目形式。22256 S.M. Alzahrani等人图4“gift "和”present“不同意义的语义网络文档d源和一组单词{b1，b2，.. . .，bm}中的候选文本B中。文本A和B使用第3节中介绍的FEM方法表示为特征。我们可以用两个简单的公式IF-THEN规则审查两个文本，如下：规则一：IF（A中的a1与B中的单词bj匹配/语义相似AND（A中的a2与B中的单词bj匹配/语义相似...AND（A中的an与B中的单词bj匹配/语义相似A与B其中bj是指候选文本B中出现的任何单词，j[1，m]，m是B中的单词总数。类似地，我们可以将文本B的单词与文本A进行比较规则二：IF（B中的b1与A中的单词ai匹配/语义相似AND（B中的b2与A中的ai匹配/语义相似...AND（B中的bm与A中的ai匹配/语义相似B类似于A。其中ai指的是文本A中出现的任何单词，i[1，n]，n是A中的单词总数。可以看出，这样的模糊系统只有两条规则，n-和连词在的第一规则，和间-和第二个中的连词，其中n和m是指文本中与另一个进行比较的单词的数量。如果两个检查规则的输出都为真，则认为A和B构成剽窃案。如果一个文本中的词与候选文本中的词既不匹配也不语义等同，则这导致A和B完全不同的结果（即，无剽窃）。也就是说，模糊规则的结果只能有两个值：真（1）和非真（0），模糊集的评估只在前件上进行;这意味着我们的规则系统类似于Sugeno风格的推理系统（Sugeno，1985）。在这两个无剽窃），我们可以在两个文本中的词和包含相同含义的词的模糊集之间具有不同sense）。两个文本之间的相似性得分可以基于学习方法来解释，如稍后将看到的。4.3.1. Fuzzi公司两个输入文本的词对被认为是模糊变量。我们考虑Wu和Palmer（1994）的相似性度量作为模糊系统中的隶属度，它可以表示为：lai;bj 2019年12月25日这种关系评估两个词之间的（语义）相似度，范围从0（当词之间没有共享的上位词时完全不同）到1（相同或同义）。4.3.2. 规则评价前面所示的if-then规则将文本A中的每个单词ai与候选文本B中的所有单词进行比较，反之亦然。到基于模糊语义相似度模型的257YY2Y为了评估一个文本中的单词与另一个文本中的单词的关系，我们可以使用模糊PROD运算符，如下公式所示：4.3.4. 例在这一部分中，我们展示了一个从名为PAN-PC的剽窃语料库中提取的剽窃案例，la1;B 1/41-bj2B：j2½1;m]l¼1-1-wup1-wup11（Potthast等人，2011年）。请注意，第一个文本是使用以证明第3.2节中的FEM。该示例包括以下原始文本：a2;B...2Jbj2B：j2½1;m]案文A（原文）：她真可爱！她说，想着应该送她一份特别的礼物。漂浮在小家伙lan;B¼1-bj2B：j2½1;m]1-wup她宣布这个孩子将嫁给她选择的任何人，从此过上幸福的生活。文本B（抄袭）：我们也可以使用模糊MAX运算符如下：la1;B1/4MAX（最大值）wu pa1;b1;wu pa1;b2;. . . ;wupa1;bmla2;B1/4MAX（最大值）;wu pa2;b1;wu pa2;b2;. . . ;wupa2;bm...lan;B¼MAXwu pan;b1;wu pan;b2;. . . ;吴佩安;梁美芬27岁为了将规则前件评估为单个值，我们简单地计算平均和，如下所示：lA;Bla1;Bla2;B·· ·lan;B=nlB;Alb1;Alb2;A· ··l

下载后可阅读完整内容，剩余1页未读，立即下载