没有合适的资源?快使用搜索试试~ 我知道了~
制作和主办:ElsevierJournalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com分类问答系统综述Amit Mishra*,Sanjay Kumar Jain计算机工程系,NIT Kurukshetra,Haryana 136119,印度接收日期:2014年1月25日;修订日期:2014年5月9日;接受日期:2014年10月23日2015年11月2日在线发布摘要问答系统(QAS)生成以自然语言提出的问题的答案。早期的QAS是为受限域开发的,功能有限。目前的QAS侧重于用户通常提出的问题类型、所咨询的数据源的特点并生成正确答案的形式。QAS领域的研究始于20世纪60年代,从那时起,大量的QAS被开发出来。为了确定这一领域未来的研究范围,自然需要对QAS进行全面调查。本文对QAS进行了调查,并根据不同的标准对它们进行了分类。我们确定了目前的研究现状,在每一类的QAS,并建议未来的研究范围©2015作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。 这是CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。内容1.导言. 3462.相关工作3463.问答系统的分类标准3474.问答系统的分类3474.1.基于应用领域的分类3474.1.1.一般领域QAS 3484.1.2.受限域QAS 3484.2.基于问题类型的分类3514.2.1.事实类型问题[什么,何时,谁,如何] 351*通讯作者。联系电话:+91 9355782052。电子邮件地址:amitmishrag@gmail.com(A.Mishra),skj_nith@yahoo.com(S.K. Jain)。1电话:+91 9996127295。沙特国王大学负责同行审查http://dx.doi.org/10.1016/j.jksuci.2014.10.0071319-1578© 2015作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。 这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词问答系统;信息检索;自然语言处理;自然语言理解;搜索引擎346A. Mishra,S.K.Jain4.2.2.列表类型问题3514.2.3.第351章假设题4.2.4.第352章为什么?4.2.5.确认问题3524.3.根据对问题进行的分析类型进行分类3524.3.1.形态分析3534.3.2.语法分析3534.3.3.语义分析3534.3.4.语用和话语分析3534.3.5.预期答案类型分析3544.3.6.焦点识别问题3544.4.基于数据源类型的分类3544.4.1.结构化数据源3544.4.2.半结构化数据源3554.4.3.非结构化数据源3554.5.基于不同检索模型中使用的匹配函数类型的分类3554.5.1.理论模型3554.5.2.代数模型3554.5.3.概率模型3554.5.4.基于特征的模型3564.5.5.基于概念图的模型3564.6.根据数据源的特征进行分类3564.6.1.源大小3564.6.2.语言3564.6.3.异源3564.6.4.类型3574.6.5.媒体3574.7.QAS中使用的技术3574.8.基于QAS生成的回答形式的分类3584.8.1.答案3584.8.2.答案3585.与其他类别的比较3586.结论359参考文献3591. 介绍搜索引擎基于诸如流行度测量、关键字匹配、访问文档的频率等的各个方面响应于用户制定的关键字而呈现相关文档的排名列表。然而,它们并没有真正完成信息检索的任务,因为用户必须逐个检查每个文档以获得期望的信息(Ferret等人,2001);它使信息检索成为一个耗时的过程。理想情况下,搜索引擎应该返回几个相关和简洁的句子作为答案以及相应的网络链接。自20世纪60年代以来,已 经 开 发 了 大 量 的 QAS ( Androutsopoulos 等 人 , 1995;Kolomiyets,2011)。当前的QAS试图在检索和处理来自不同数据源(甚至是语义网)的信息后,用自然语言回答用 户 提 出 的 问 题 ( Vanessa , 2011; Dwivedi , 2013;Sureshkumar和Zayaraz,2014)。答案的格式也将从简单的文本改为多媒体(Voorhees和Weishedel,2000年)。自20世纪60年代以来发展起来的QAS涉及不同的领域、数据来源、问题类型、答案格式等;这样的QAS的数量太大。为了评估这些质量保证系统的成功及其满足当前和未来需求的能力,有必要对所有这些质量保证系统进行系统调查。在本文中,我们根据明确识别的标准(如应用程序域、问题、数据源、匹配函数和答案)对QAS进行分类。我们对按每个标准分类的QAS文献进行了调查,并确定了该领域未来的研究范围。本文的其余部分组织如下:第2节介绍了QAS的相关工作 , 从 早 期 的 研 究 开 始 , 以 自 然 语 言 数 据 库 接 口(NLIDB)的形式开放域QAS文本。第3节列出了QAS分类的标准。第4节涉及基于不同标准的QAS分类第5节将建议的分类与其他分类进行比较。在第六节中,我们得出结论。2. 相关工作在这一部分中,我们介绍了自20世纪60年代至今QAS发展的背景。开发能够处理自然语言问题的系统的计划始于第五代计算机编程语言(Hill I 1982)。NLIDB是一个为用户提供用自然语言提问的用于从数据库获取信息(Androutsopoulos等人,1995年)。它简化了人机交互,因为用户不需要学习SQL,Prolog,问答系统347Lisp等用于提交输入。Green等人(1961)提出了棒球,这是一种QAS,它提供与特定赛季在美国举行的棒球联赛相关的信息。该系统提供与日期、位置等有关的问题的答案。Woods(1973)提出了LUNAR,一种QAS,提供关于阿波罗月球探测所取土壤样品的信息。这些系统通过简单的模式匹配规则将用户的问题转换为数据库查询,并最终生成答案。这些普通模式匹配规则利用有限的语法、硬连线知识和依赖于应用领域的映射规则。由于自然语言支持释义,通过模式匹配处理自然语言问题不是一个可行的解决方案。 BASEBALL和LUNAR系统都能产生良好的结果,但它们与应用领域相关的信息库有限。在随后的开发中,QAS旨在对问题进行语言分析,以自然 的 方 式 捕 捉 预 期 一 种 这 样 的 系 统 MASQUE(Androutsopoulos等人,1993)以逻辑表示来表示自然语言问题,然后将逻辑查询转换为数据库查询,用于从数据库中检索预期信息(Androutsopoulos等人,1995年; Lopeza和Uren,2011年)。它将语言过程的任务从映射过程中分离出来。常见问题解答(Burke等人,1997)通过统计相似度和语义相似度将问题与知识库中编译的问题列表进行匹配。QAS PRECISE [Pa 2002]对问题进行自然语言处理;它识别问题的类别(wh ques)并将wh questions映射到相关的数据库查询。这些问题是一组属性或值对;每个属性都与wh值相关联。另一个QAS,QUARC由Quaroff和Thelen(2000)开发,将问题分类为不同的wh-类型,并通过使用词汇和语义线索来获得预期的答案类型。释义问题至今没有解决后来,开发QAS的重点转向开放域QAS。自 1999 年 以 来 , 每 年 定 期 举 行 的 TREC 评 估 活 动(Voorhees,2001,2004; Voorhees和Weishedel,2000)实例化了非结构化数据源的开放域问题回答研究。第一次TREC评估活动提供了一份200个问题的清单和一份文件集。答案就在这些收藏品中。答案的最大长度允许为50或250个字符。系统被要求给出5个排序的答案列表。在2000年举行的下一次TREC-9运动中,问题的数量和文件收藏的规模都有所增加。在2001年的TREC-10中,一个关于答案的新的复杂性,即,由于不能保证所有答案都出现在文档集合中,因此包括了答案确认任务。答案的长度减少到50个字。在2002年举行的TREC- 11会议上,预计各系统将对这些问题给出准确的简短答案。在2002年至2007年的TREC中,问题清单、定义问题和事实问题被纳入了评估活动。在2005年TREC中,有一套75个主题,其中包含各种类型的问题(列表,事实或其他)。2005年和2006年TREC增加了时间问题。在2007年TREC中,文件集包括博客集。简而言之,TREC竞争随着规模和复杂性的增加而发展,文档收集;问题的复杂性增加;以及答案评估策略的复杂性增加TREC活动提供本地数据集作为生成答案的信息源,但随着万维网的兴起,网上有大量的数据集合,可以为用户提供有用的信息。这样一个大的集合可以被用作回答用户问题的知识库已经开发了几种基于网络的QAS(Li和Roth,2002;Vanitha等人, 这些基于网络的QAS可以分为开放域QAS和封闭域QAS(Vanessa,2011)。开放域QAS的几个示例是(1)Webclopedia(Hovy等人,2000),(2 )Mulder (Kwok 等人 ,2001 ) ,和( 3 ) Chaerbus(Zheng,2002)。限制域QAS的示例是(1)Start(Katz等人, 2002),(2)Naluri (Wong,2004),和(3)Webcoop(Benamara,2004)。这些QAS所解决的大多数问题都是事实性问题。不同类型的QAS使用不同的技术,例如片段容忍属性、关键字匹配和通过WordNet进行答案匹配的规则(Miller,1995; Carbonell等人,2000年)。这些系统生成的回复通常以文本、xml或维基百科文档的形式出现(Vanessa,2011)。 QAS START(Katz等人,2002)、QAS(Chung 等人,2004 )和QAS(Mishra等人,2010)将从网络借来的重要信息保存在其本地数据集上,并将其用作使用语言技术和基于规则的技术生成问题答案的来源。除了在文献中使用的网络和本地数据集,在QAS的研究正在考虑作为一个数据源的语义Web。Unger等人(2012年)通过使用SPARQL(Prudhommeaux和Seaborne,2007年)对资源描述框架(RDF)数据使用基于模板的模式匹配方法。作者认为,该技术可以应用于语义Web。3. 问答系统图 1展示了一个广义架构的QAS。根据文献调查,我们确定了八个标准,支持分类大量的QAS。这些标准是:(1)开发QAS的应用领域,(2)用户提出的问题类型,(3)对用户问题和源文件进行的分析类型,(4)数据源中涉及表1解释了每个标准的简要描述,基于标准的QAS分类,以及每个类别中QAS的一些示例4. 问答系统在本节中,我们将详细讨论拟议的QAS分类。我们给出了一个分类的描述;讨论QAS在每个类的优点和缺点,以及他们的相关研究问题。4.1. 基于应用领域的生成问题答案的任务与所问问题的类型有关(Moldovan等人, Voorheesand Weishedel,2000).某些用户可能需要通用348A. Mishra,S.K.Jain知识库回答提取/生成的答案回答后处理答案验证答案处理模块(排名/融合)检索模型问题表示(数据库表,词袋,逻辑)问题分析和分类(EAT,句法和更高层次的分析,问题聚焦和问题类)文档分析和表示(句法和更高层次的分析,词袋,逻辑等)用户界面(用户提问并得到答案)图1QAS的一般化架构一般主题的信息;其他人可能需要特定应用领域的特定信息。因此,选择该领域作为QAS分类的基础可能是一种自然的选择。4.1.1. 一般域QAS在一般领域QAS中,QAS回答领域独立的问题。QAS通常在大型文档集合中搜索答案。在一般领域的QAS中,可以提出大量问题。QAS在其生成答案的方法中利用一般本体和世界知识(Kan和Lam,2006)。在这里,QAS提供的答案质量不高,一般来说,问题是由临时用户提出的(Indurkhya和Damereau,2010年)。一般域QAS的优点如下:有大量的临时用户;一般领域的QAS更适合他们。一般域QAS不需要特定于域的字典;它们使用通用字典。用户在一般领域的QAS中,可以提出大量问题。维基百科或新闻网文本可用作此类QA一般域QAS的缺点如下:答案的质量很低。答案的满意度取决于用户。领域专家在回答中需要专门的信息,因此受限领域QAS可能更适合他们。4.1.2. 受限域QAS受限领域QAS回答特定领域的问题(Molla和Vicedo,2007)。在特定领域的文档集合中搜索答案问题集的存储空间非常有限,因此系统能够达到很好的回答问题的准确性。QAS利用特定领域的本体和术语。答案的质量应该更高。文献中开发了各种受限领域QAS,例如:时间域QAS、地理空间域QAS、医疗领域QAS、专利QAS、基于社区的QAS等。不同的受限领域QAS可以集成为通用领域QAS(Vanessa,2011;Indurkhya和Damereau,2010)。此类QAS要求基于从问题的关键字导出的知识将给定问题分配给适当的特定于领域的QAS由于系统存在问题分类问题、歧义解决问题等,现有技术在将给定问题处理和转发到特定受限域QAS方面面临问题(Indurkhya和Damereau,2010)。受限域QAS的优点如下:受限领域QAS适合领域专家用户,因为他们需要专门的答案。由受限领域QAS生成的答案的质量是高的,用户的满意度取决于他们的领域知识。●●●●●●●●●问答系统349表1QAS的分类序列号标准分类分类示例1应用领域用户提出的问题与受限应用程序域或开放域。与开放域问题不同,问题库仅限于受限域。需要不同的技术来回答依赖于特定领域本体和术语的受限领域问题,而不像依赖于通用本体和世界知识来获得最终答案的开放领域问题。因此,这是根据问题与应用程序域的受限域QAS开放域QASStart Katz et al.(2002),Naluri Wong(2004),Webcoop Benamara(2004)Webclopedia Hovy et al.(2000),Answer-bus Zheng(2002),MulderKwok et al. (2001年),2用户提出的问题类型预期的答案取决于用户提出的问题的类型。处理不同类型问题的系统需要不同的策略来定位答案。因此,这类事实性问题Webclopedia Hovy et al.(2000),NaluriWong(2004),Start Katz et al.(2002),Zheng Zheng(2002),Webcoop Benamara(2004),MulderKwok et al. (2001年)根据用户提出的问题类型提出的问题-模拟事实(什么、谁、何时、如何、数量、质量)、确认(是、将等),假设Naluri Wong(2004),Start Katz et al.04 The Dog ofthe Woman(2004)假设性问题3对用户问题和源文件进行的分析类型4在数据源(what would happen),因果关系(how or why)需要不同类型的分析技术来处理用户的问题,以确定他们的需求。系统在找到相关答案之前会分析这些要求。源文本文件也处理和分析与这些技术。这些方法大致分为两类:基于统计的方法、基于规则的模式匹配方法和混合方法大量的文本集合存在于结构化数据源(数据库)和非结构化数据源(报告、书籍、文章)或半结构化数据源(XML)中。不同类型的数据源具有不同类型的表示。因此,这是根据数据源的类型进行分类的因果关系问题形态分析语法分析语义分析语用和语篇分析预期答案类型分析焦点识别问题QAS中的结构化QAS中的半结构化数据源语义webWebclopediaHovy et al.(2000),WebcoopBenamara(2004)Webclopedia Hovy et al.(2000),Naluri Wong(2004),Zerbus Zheng(2002),Webcoop Benamara(2004),Mulder Kwok et al. ( 2001年)Webclopedia Hovy et al.(2000),NaluriWong(2004),Start Katz et al.(2002),Zheng Zheng(2002),Webcoop Benamara(2004),MulderKwok et al. (2001年)Webclopedia Hovy et al.(2000),Answer-bus Zheng(2002),WebcoopBenamara(2004),Mulder Kwok et al.(2001)Naluri Wong(2004),StartKatz et al. (2002),WebcoopBenamara(2004)Naluri Wong(2004),Start Katz et al. 04 The Dogofthe Dog(2004)Webclopedia Hovy et al.(2000),Naluri Wong(2004),Start Katz et al.(2002),Webcoop Benamara(2004),Mulder Kwok et al. ( 2001年)Webclopedia Hovy et al.(2000),Naluri Wong(2004),Start Katz et al.(2002),Webcoop Benamara(2004),Mulder Kwok et al. ( 2001年)Naluri Wong(2004),Start Katz et al.04 The Dog ofthe Woman(2004)Webclopedia Hovy et al.(2000),Answer-bus Zheng(2002),MulderKwok et al. (2001年)(接下页)350A. Mishra,S.K.Jain表1(续)序列号标准分类分类示例5数据源特征数据源的特征在于其源大小,语言,存储的数据类型等。与小规模文档相比,大规模文档以不同的方式进行处理(分析,表示)。此外,所使用的语言(正式或非正式)也使寻找答案的任务复杂化。因此,这类数据源的各种特征Hovy et al.(2000),NaluriWong(2004),Start Katz et al.(2002),Zheng(2002),WebcoopBenamara(2004),Mulder Kwok et al.(2001年)语言6问题数据的表示类型及其生成候选答案7用于检索答案8QAS生成的回答形式用户的问题和文档用自然语言表达。它们必须转换成机器可读的形式,以便QAS进一步处理。存在用于表示和检索的不同模型,即,集合理论模型将文档视为单词或短语的集合,代数模型将源文档和问题表示为向量、矩阵或元组,概率模型根据概率相关性来处理文档和问题,基于特征的模型将文档视为特征函数的值的向量,并将这些特征组合成单个相关性分数不同的检索答案技术的适用性取决于它们的使用环境。上下文指的是问题、数据源和用户期望的答案的复杂性。这是基于用于检索答案问答系统利用数据挖掘技术从数据库中搜索事实数据,并使用词袋模型生成简短的答案。QAS使用信息检索技术在文本文档中搜索事实信息。基于自然语言处理技术的QAS搜索可以是主观或客观的信息。基于知识检索的QAS,用于搜索理解和创建知识答案以各种形式呈现给用户,可以从源文档或生成的答案中提取文本片段。答案的形式通常取决于用户的问题。通常,事实陈述或列表问题以句子的形式给出答案。因果性假设性问题的答案以短文的形式出现。确认问题的答案是肯定的或否定的,一些意见问题的答案是评级。对话问题有简短的对话回答。集合论模型代数模型概率模型特征模型信息检索技术自然语言理解技术知识检索和发现技术QAS中提取的文本片段或其他在QAS中生成Start Katz et al.(2002),Naluri Wong(2004),Webcoop Benamara(2004),Web-clopedia Hovy et al.(2000),Zerbus Zheng(2002),Mulder Kwok et al. ( 2001年)Start Katz et al.(2002),Naluri Wong(2004),Webcoop Benamara(2004),Web-clopedia Hovy et al.(2000),Zerbus Zheng(2002),Mulder Kwok et al. ( 2001年)Webclopedia Hovy et al.(2000),Answer-bus Zheng(2002),MulderKwok et al. (2001年)Naluri Wong(2004),Start Katz et al.04 The Dog ofthe Woman(2004)问答系统351受限域QAS的缺点如下:特定领域问题的存储库有限;此类QA可以回答的问题数量有限。4.2. 根据问题类型分类生成对用户问题的答案的任务与所问问题的类型直接相关(Moldovan等人,2003年)。因此,在QAS中进行的问题分类直接影响答案。结果表明,36.4%的错误是由于QAS中执行的问题分类错误而发生的(Moldovan等人,2003年)。Li和Roth(2002)将问题分类为基于细粒度内容的分类,但它们处理的是非常有限的一类现实世界问题。Fan et al.(2010)通过集成模式匹配和机器学习技术来执行面向功能的问题分类。Benamara(2004)通过考虑预期的回答类型对问题进行分类。我们根据用户提出的问题类型对QAS进行分类。不同的类别是(1)事实类型问题,(2)列表类型问题,(3)假设类型问题,(4)确认问题,(5)因果关系问题。我们在以下小节中对每个分类类别进行了简要说明4.2.1. 模拟事实类型的问题[什么,何时,谁,如何]这些问题很简单,基于事实,需要在一个简短的短语或句子中回答(Indurkhya和Damereau,2010),例如。谁是电影XYZ的制片人事实型问句一般以wh开头目前的QAS在回答事实型问题方面表现令人满意(Kolomiyets,2011年;Vanessa , 2011 年 ; Indurkhya 和 Damereau , 2010 年 ;Dwivedi,2013年; Suresh kumar和Zayaraz,2014年)。在QAS中提出的事实型问题的优点如下:大多数类事实问题的预期答案类型通常是命名实体,可以通过命名实体标记软件在文档中跟踪这些实体(Kolomiyets,2011; Vanessa,2011)。它们依赖于疑问句的wh-范畴。因此,可以实现良好的精度。现有的问答系统在回答事实类问题时取得了令人满意的成绩。在QAS中有一个大型的问题库,其中包含了事实QAS不需要部署复杂的自然语言处理来提取答案。维基百科或新闻稿可用作此类问答的信息来源(ARNAUD,2010)。在QAS中提出的事实型问题的缺点如下:拟事实类型问题的识别及其进一步的子分类自动化本身就是QAS中的一个研究问题。描述型问题:需要在问题中找到术语[事件或实体]的定义或描述的问题(Cui et al.,2007; Vanessa,2011)。他们通常从“是什么”开始。描述型模糊问题:不能正确反映用户信息需求的问题称为模糊问题。这些问题通常具有模糊术语和评价性形容词,例如,找到镇上所有高个子的人关系或信息提取(IE):它识别命名实体之间的关系。例如,XYZ在ABC工作。在这里同样,IE关注的是从文本中提取语义信息。它包括命名实体识别、共指消解、关系抽取等。对话问题:这些问题通常是不完整的和语法上不正确的问题,这使得系统难以在答案中识别用户的要求。措辞不当的问题或模棱两可的问题:这些问题要么是拼写错误,要么是模棱两可的问题。它们很难被处理以生成正确的答案。比如什么让他酷?4.2.2. 列表型问题列表问题要求在答案中列出实体或事实,例如,- 列出工资超过5000美元的员工名单?QAS认为这些问题是一系列的事实问题,一个接一个地问十次。QAS在回答下一个问题时会忽略前面的答案。QAS通常在确定列表型问题中所问实体的数量或数量的阈值方面存在问题(Indurkhya和Damereau,2010年)。QAS中提出的列表型问题的优点如下:预期答案类型是列表类型问题的命名实体。因此,可以实现良好的精度这些技巧在事实类问题上的成功应用,也可以很好地应用于列表类问题。QAS不需要深度自然语言处理来提取列表类型问题的答案。QAS中提出的列表式问题的缺点如下:QAS观察到一个问题,即在确定列表类型问题中所问实体的数量或数量的阈值。4.2.3. 假设型问题假设性问题询问与任何假设事件相关的信息。它们通常以“如果”开始QAS需要知识检索技术来生成答案。此外,这些问题的答案是主观的。这些问题没有具体的正确答案。●●●●●●●●●●●●●●●●352A. Mishra,S.K.JainQAS中提出的假设性问题的优点如下:一些专家用户可能喜欢搜索需要世界知识和常识推理的假设问题的最佳答案。QAS中提出的假设性问题的缺点如下:对于QAS中提出的假设类型问题,预期答案类型是分散的。因此,QAS的准确性很低。成功应用于事实类型问题的技术● 可靠性低,取决于用户和环境。4.2.4. 因果问题(How or Why)因果问题需要对一个实体进行解释。答案不是在fac- toid类型问题的情况下观察到的命名实体。QAS需要先进的自然语言处理技术来在语用和话语层面分析文本以生成答案(Higashinaka和Isozaki,2008; Verberne等人,2007、2008、2010; Moldovan等人, 2000年)。在QAS中提出因果类型问题的优点如下:这些问题是由用户提出的,他们希望在与特定事件或对象相关的答案中得到解释,原因,阐述等。在QAS中提出的因果型问题的缺点如下:在确定相关或独特的答案的问题-问题,如为什么需要理由,阐述,解释等作为答案。为什么问题的答案通常是主观的,可以从一个句子到一个段落到整个文件。同一个问题可以根据解释有不同的答案,例如,为什么X在2班上课 它有三种解释,根据不同的用户给出下面为什么X?为什么要上课?为什么是class2?因此,答案的检索基于用户的意图这是一项具有挑战性的任务。与QAS中的有效检索模型相关的问题-当前大多数检索模型基于词袋模型(Verberne et al.,2007年、2008年、2010年)。该模型在检索过程中存在一词多义、同形异义、同义等问题.因此,它们在QAS中引起检索问题。此外,为什么类型问题有主观的答案,可以从句子延伸到段落。为了回答这些问题,需要对源文档中的话语关系进行识别。4.2.5. 确认问题确认问题需要以是或否的形式回答。系统需要推理机制、世界知识和常识推理来生成答案。在QAS中提出的确认型问题的优点如下:一些专家用户可能喜欢搜索需要世界知识和常识推理以获得新知识的信息。QAS中提出的确认型问题的缺点如下:这些问题对知识获取和检索技术提出了更高的要求,而知识获取和检索技术还处于发展阶段。除 了 上 述 问 题 分 类 , QAS 中 还 可 以 提 出 意 见 问 题(Missen和Cabanac,2010; Missen,2009)。这些问题需要关于实体或事件的主观信息。QAS使用社交网络来回答这些问题。QAS使用意见挖掘技术来生成问题的答案。SenticNet是一个著名的意见挖掘系统,它通过使用机器学习和基于知识的技术来(Ketchetal.,2012、2013、2014)。SenticNet通过使用概念袋模型捕获句子中的概念和情感信息。系统假定输入文本是有意见的。它不涉及多个句子。QAS中提出的意见问题的优点如下:随着Web 2.0的出现,网络上有大量用户这些有意见的数据源包含公众意见,可以帮助用户对产品做出判断。QAS中提出的意见问题的缺点如下:非正式的问题-一般用户提出的问题通常是非正式的问题。系统在处理问题时发现困难,因为问题很难解析,而且它们的语义很差。意见检测-将文本分类为主观或客观仍然是一个研究问题(Khan,2014)。此外,找到相关的意见文件是困难的。句子的边界没有定义。用户检测文本中的虚假或垃圾内容-系统在检测虚假或垃圾内容时面临问题,这导致文本的真正意见挖掘的4.3. 根据对问题我们根据QAS对问题进行的分析类型对QAS进行分类。不同的类别是:(1)形态分析,(2)句法分析,(3)语义分析,(4)语用和语篇分析;(5)预期答案类型分析;(6)疑问句焦点识别。●●●●●●●●●●●●问答系统3534.3.1. 形态分析这种类型的分析旨在将单词分离成单独的词素并为词素分配类别,例如,plays,plays,played被分配到“play”类。对词进行词干提取和词形化,以进行文本的形态分析。形态分析的优点如下:这种分析是有效搜索所必需的,因为它考虑到了不同形式的单词。因此,冗余在信息检索过程中在单词级别被删除。形态分析的缺点如下:有时,执行词的词干提取在搜索中产生不正确的结果,例如,computer,compute,computa- tion将导致相同的词干词“compute”。但是这些词在语义上是不同的。因此,有时搜索词干后可能会产生错误的结果。4.3.2. 语法分析这种类型的分析识别问题和源文件中单词的语法结构。通常,一个句子由承载关键词(名词、动词、形容词或副词)的内容组成,这些关键词与功能词(限定词或介词)相连。在这种类型的分析中,QAS在处理问题和文档之后生成解析树。QAS试图减少文档中的搜索空间,从而有助于有效的搜索。例如,xyz在哪部戏中发挥了作用?QAS将搜索在QAS中进行句法分析的优点如下:这种分析是有效搜索所必需的,因为它考虑到了单词的不同词性;因此,在信息检索过程中,在单词级别上消除了冗余。在QAS中进行句法分析的缺点如下:在分析问题时可能存在句法歧义,例如,列出XYZ公司有驾照的员工姓名在这里,系统观察到一种语法上的模糊性,因为系统将许可证与XYZ公司而不是员工联系起来;这在问题的真正解释中是不正确的。4.3.3. 语义分析这种分析是根据问句中使用的词语来推断问句可能的含义它一般对句法分析阶段生成的句法分析树进行分析,并根据句法分析树解释问句的目前的QAS在词汇和句子层面上运 作 , 用 于 推 断 问 题 的 含 义 ( Kolomiyets , 2011;Alexander Clark , 2010; SaeedehMomtazi , 2011; Sureshkumar和Zayaraz,2014)。语义分析的任务之一是文本中的语义角色标注。语义角色标记(浅语义分析)旨在识别和标记文本中的论点(Daniel和Daniel,2000)。这些技术有助于对问句进行语义分析。在QAS中进行语义分析的优点如下:语义分析解决了问题的语义类和答案类型的发现问题。与基于关键字的搜索相比,基于语义分析的搜索提供了有效的答案搜索在QAS中进行语义分析的缺点如下:目前的问答系统主要在词汇和句子层面上进行推理。据我们所知,我们在共指消解、名称实体识别、关系提取、词性标注等方面观察到的问题使得执行文本语义分析的任务变得困难。4.3.4. 语用与语篇分析在这种分析中,问题和文件是在句子或更高的水平上解释的语法分析是一个参数的功能,即。而语用解释则是话语和语境的功能。例如,在一个实施例中,我需要一个好的相机和良好的音质手机。我在市场上找到了诺基亚我为什么要买它?这里的语篇分析-语篇通常是一串超过一句话的语言。在这种类型的分析中,系统识别连接文本的话语结构,即存在于文本中的句子之间的话语关系类型(阐述、解释、对比)(Verberne等人,2010; Mishra和Jain,2014,2015)。这种类型的分析通常需要寻找复杂问题的长答案,如为什么和如何。它执行以下任务:回指解析话语结构识别-它识别文本中句子的逻辑连接性。例如,在一个实施例中,报纸文章可以分成标题、主要故事、以前的事件、评价等。这种类型的分析通常需要在固执己见的情况下,因果关系,假设和在问答系统中进行语用和语篇分析的优点如下:这种分析是找到复杂问题的答案所必需的,比如为什么或意见问题。句与句之间存在的阐述、解释、对比等关系可以帮助问答系统追踪答案。● 这样的分析有助于推断文本的意义。在问答系统中进行语用和语篇分析的缺点如下:●●●●●●●●●●●354A. Mishra,S.K.Jain当前技术使用句子的句间和句内话语结构。因此,该技术离理想的文本话语分析还很远(J.E.等人, 2014年)。在共指消解、命名实体识别、关系抽取、词性标注等方面存在的问题使得语篇分析的任务更加艰巨。4.3.5. 预期答案类型分析QAS根据问题的类别确定答案中所需的实体(答案类型),例如,XY书的作者是谁?这里,预期的答案类型是人。因此,预期答案类型分析有助于生成事实类型问题和列表类型问题的答案。正如我们所讨论的,有一些问题,如因此,这种类型的分析并不能直接帮助QAS解决这些问题。4.3.6. 焦点识别问题确定问题的焦点对得出正确答案很重要。例如,在一个问题,如'如果我需要手机与良好的相机和良好的音质。我在市场上找到了诺基亚。“我为什么要买诺基亚?”在这里,问题的焦点是“需要手机,音质好,买诺基亚,相机好”。因此,识别问题的焦点对于得出正确答案至关重要。不同类型的问题需要不同的焦点识别处理技术。在分析自然语言问题时有多个方面,例如目标提取,模式提取和解析(Saeedeh Momtazi,2011)。根据分析问题和源文件的方法进行分类QAS的性能取决于良好形式化的用户问题。像英语这样的自然语言充满了歧义(Indurkhya和Damereau,2010)。因此,系统有额外的负担来对自然语言问题进行适当的逻辑表示。基于文献综述(Manning and Schu¨ tze,1999;Frederik,2010; Dwivedi,2013),对自然语言问题和源文档进行分析的方法大致有三种。它们是:基于统计的方法,基于规则的模式匹配方法和混合方法。基于统计的方法:这些是数据驱动的方法。他们使用定量关系来发现问题和文档中存在的统计关系(Sureshkumar和Zayaraz,2014)。其中包括概率模型-ing、线性代数和信息论等。统计查询通常是从问题中派生的关键字,因此它们不是人工查询语言。基于统计的方法需要大量的数据来进行正确的统计学习。经过学习,他们可以产生有希望的结果。QAS中统计方法的优点不需要专业知识。自然语言的问题,如泄漏的语法,paraphrasing被忽略.包含答案的大量数据可以很容易地处理。● 更有效地处理复杂的问题。● 可以处理异构数据源。QAS中统计方法的缺点需要大量的数据用于训练目的。不要考虑单词和句子的语义和上下文。基于规则的模式匹配方法。基于模式的方法在信息检索过程中结合使用语言规则和人类知识。在这种方法中,为问题和答案构建了预定义的模式。答案的提取是根据预定义模式的匹配进行的。这些模式可以是词汇-句法或词汇-语 义 模 式 ( Ravichandranand Hovy , 2002; Zheng ,2002)。QAS中基于模式的方法的优点需要更少的训练数据。不需要专业知识。包含答案的大量数据可以很容易地处理。● 不受查询语言类型的影响● 更有效地处理复杂的问题。QAS中基于模式的方法的缺点需要专业或领域知识构建模式是一项繁琐而重要的任务。自然语言并不遵循一个确定的模式,因此开发
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功