埃及信息学杂志：SOPHIA文本案例推理知识发现框架的改进

31 浏览量更新于2023-12-10 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志（2014年）15，211开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章SOPHIA文本案例推理知识发现框架的改进Islam Elhalwanya，*， Ammar Mohammeda， Khaled T.放大图片作者：Wassifb， Hesham A.赫夫尼aa埃及开罗大学统计研究所b埃及开罗大学计算机和信息学院接收日期：2014年1月20日;修订日期：2014年10月2日;接受日期：2014年10月12日2014年11月18日在线发布摘要基于文本的案例推理（TCBR）应用的开发方法很多。成功的方法之一是复杂信息分析（SOPHIA），其特点是能够在没有先验知识的情况下工作，没有领域依赖，没有语言依赖。SOPHIA基于分布式文档聚类方法，为基于案例的检索提供了一个先进而丰富的知识发现框架。本文对SOPHIA方法进行了改进，旨在提高检索效率和查准率。它还旨在保证所有结果都具有相同的用户查询主题。增强包括在索引阶段中的聚类步骤之前对案例库执行自动分类，并且包括在检索阶段之前对用户查询执行自动分类。此外，通过将SOPHIA方法应用于阿拉伯语的伊斯兰法学领域，证明了SOPHIA方法是一种独立于领域和语言的方法。©2014制作和主办由Elsevier B.V.代表计算机与信息学院开罗大学。1. 介绍传统的基于案例的推理（CBR）是一种人工智能（AI）技术，用于支持高级决策支持系统的推理和学习能力。是*通讯作者。开罗大学计算机和信息系负责同行审查。特别是一种推理范式，它利用了在以前遇到和解决的情况下收集的特定知识，这些情况被称为案例[1]。这是一种解决问题和学习的方法，其中专业知识体现在过去的案例库每个案例通常包含对问题的专家解决问题所使用的知识和推理过程没有记录，但隐含在解决方案中[2]。基于文本的案例推理（TCBR）-与传统的CBR一样最终目的是重用类似案例的解决方案来解决手头的问题。http://dx.doi.org/10.1016/j.eij.2014.10.0021110-8665© 2014制作和主办Elsevier B. V.代表开罗大学计算机和信息学院制作和主办：Elsevier关键词文本案例推理;问答系统;文本分类;文本聚类;知识发现212 I. Elhalwany等人显然，为了识别解决方案重用的相关案例集，比较文本内容的能力是至关重要的。然而，文本中的一个关键挑战是词汇的可变性，其表现为词汇歧义，例如一词多义和同义问题推理[3]。这种问题解决范式的基本思想是从早期的问题解决事件中收集经验，并将其重新用于处理新的任务。在现实生活中，许多最有价值的经验都是以文本文档的形式存储的[4]，例如：医生的报告技术设备的文件和手册。常见问题（FAQ）集合。关于特定功能和观察到的行为的非正式注释和评论。目前已有多种开发TCBR的方法，它们都采用CBR循环，但主要区别在于知识表示和知识检索阶段。不同之处在于研究中用于实施这些重要步骤的技术，例如：信息检索与Word Net技术。纯统计方法。浅NLP技术与手动构建的领域特定的本体和通用词库。Shallow NLP with a Nearest Neighbor Algorithm in aText Representation.关键字和排名计算和维护算法。采用概念袋（BOC）方法，通过利用分类法中捕获的是-a关系来扩展案例表示。TCBR的一个典型应用领域是一个问答（QA）系统，该系统可能受到热线支持或帮助台的启发。在这样的系统中，用户提交他的查询，然后得到最接近他的查询的答案。作为一个科学的定义，问答（QA）是计算机科学的一个应用领域，它试图建立一个软件系统，可以提供准确的，有用的答案，由人类用户提出的问题在自然语言（例如，英文本）[5]。Patterson等人[6]提出了SOPHIA; TCBR的一种新方法代表基于分布式文档聚类方法[7]的SOPHisticated InformationAnalysisfor TCBR（SOPHIA-TCBR）。它为基于案例的检索提供了一个先进而丰富的知识发现框架。它基于文档中术语的条件概率分布。然后，它智能地发现案例库中的重要主题，并将案例组织成大量的集群，这些集群将这些主题作为吸引子。这个形成集群的过程，允许一个非常有效和称职的情况下检索过程。除了自动发现和利用文本的情况下，它发现相似性知识，这使得语义的情况下，考虑，从而使更有意义的相似性比较的情况。(This是指涉及相同或相似主题但使用不同术语的案件可被视为相似。）本研究的贡献是将SOPHIA作为TCBR科学领域的成功方法之一，Fatawa QA系统，然后修改的方法，得到一个增强版本的SOPHIA，这个增强版本将提供一个更好的性能和更高的精度。提出的Fatawa QA系统继承了SOPHIA-TCBR方法的主要特征和优点[6]。这是SOPHIA方法在阿拉伯伊斯兰法塔瓦语领域的首次应用;可以证明SOPHIA是一个独立于领域和语言的、可扩展的，因此适用于大型案例库。在下一节中，将讨论应用领域。此外，它还将澄清实施系统的挑战和限制，以响应Fatwa请求并自动提供预定义的答案。第三节介绍SOPHIA方法和基于文本案例推理的Fatawa问题分类系统，并描述该方法的增强版本。第4节将展示实验、结果和评价。最后，第五部分将讨论未来的工作。2. 适用领域适用领域是伊斯兰法塔瓦，法塔瓦（宗教裁决）一词指的是寻求对全球穆斯林每天提出的宗教问题作出法律裁决。Fatwa是一个问题和一个答案的组合，可以称为“一个案例”，因此Fatwa和一个案例具有相同的含义。虽然大多数宗教问题都有多种答案（观点），但有一个组织可以为我们提供任何问题的认证意见，并可以对最近因时间，地点，人员和环境的发展和变化而出现的新问题进行研究。该组织是埃及法特瓦的官方宗教组织，名为埃及它成立于1895年，由khedive Abbas Hilmi高级指挥。由于人力资源的限制，这个组织无法每天处理大量的问题，这迫使人们从不合格或不专业的学者那里获得答案。因此，我们的目标是帮助人们从正确的地方得到正确的答案，通过帮助这个组织，以实现其巨大的责任，并提高其能力，回答询问的建议法塔瓦QA系统。拟议的法特瓦QA系统是一个智能系统，可以回答问题的最接近的答案，已经记录了之前。全自动系统。如果有类似的答案记录，所提出的系统可以减少提交问题的需要。随着时间的推移，提出问题的必要性将仅限于新问题。因此，组织可以处理越来越多的用户，而无需人力资源干预。在与从事法学和法特瓦领域工作的学者进行了多次个人访谈后，谈到了这一领域的特殊性，发现了以下挑战：从事这一领域工作的学者认为，问题必须一个接一个地手动处理。这是因为任何误解都可能导致错误或不完美的答案;这是不被接受的。他们看到人类可以比机器系统完美地完成这项工作●●●●●●●●●●●对知识发现框架的增强213有些法塔瓦不能一概而论，也不能随意浏览，判决是针对某个特殊案件的，或者可能造成社会的不稳定。一些法塔瓦有名字，公众人物，或私人情况，读者可以知道谁是案例库问题的原始所有者。该领域的敏感性，错误是不允许的，可能会导致伊斯兰学者和所有穆斯林的公开拒绝。不接受语言错误或不良的语言表达。为了克服先前的挑战，施加了以下条件和限制。答案永远不能自动生成或修改，也不能依赖于语法组合。语言准确性必须达到最高水平。案例问题和答案始终是耦合的，答案不应在案例之间自动交换。从案例库中删除无法公开浏览的法塔瓦。在案例库中删除原始查询者的姓名或任何指示。新系统教会用户如何完美地提出问题，并提供所有相关案例。此外，如果用户对结果有疑问，他可以提交他的问题。除此之外，用户已经自然而然地这样做了，当他们浏览Fatawa网站或观看宗教电视频道时，他们总是将他们阅读或观看的内容应用到自己的案例中3. 相关工作在分析已有研究成果的基础上，提出了多种实现TCBR的方法。TCBR方法之间的差异可能存在于CBR循环的两个主要步骤中：Retain：知识表示（索引和聚类）。● 检索：（相似性评估）。差异在于用于实现这些重要步骤的技术。一些研究人员使用信息检索和WordNet技术，而其他人则使用纯统计方法。研究人员同样可以使用Shallow NLP技术，人工构建的特定领域本体和通用的thesaurus。其他人更喜欢在文本表示中使用最近邻算法的Shallow NLP。一些研究者使用了关键词、秩计算和维护算法.此外，其他人采用概念袋（BOC）的方法，通过利用从分类法中捕获的“是”关系来扩展案例表示所有这些方法都依赖于领域和语言，需要大量的工程知识。以下是一些研究人员的贡献摘要Burke等人。[8]开发了FAQ-EQUIPMENT，一个问答系统，他们使用结合统计和语义知识的技术。该系统从基于向量空间模型的标准信息检索方法开始。案例作为术语向量进行比较，权重基于术语此外，FAQ-REPORT还包括一个词之间相似性的语义定义，该定义基于WORDNET中的概念结构;英语词的语义网络提供了一个词与同义词集之间以及同义词集本身之间的关系系统。Lenz等人[4]提出了CBR-Answers Project，这是另一个通过术语的含义来比较文本案例的问答系统。该程序处理自由文本组件以识别信息实体（IE），这些信息实体是可能以不同形式出现在文本中的索引概念，从文本映射到IE集合，其中IE可能不仅仅是一个关键字。这种方法需要一些特定于领域的知识工程来识别特定于任务的术语，这些术语可能包括产品名称或物理单位。FAIIQ的相似性评估使用两个词汇源来检查词的相似性：手动构建的领域特定本体和通用词库。案例检索网络支持FAIIQ的检索策略，将案例库表示为IE节点的网络，其中相似弧连接具有相似含义的节点。检索是通过传播激活，通过这个网络。FAIIQ与FAQEQUALITY不同，因为FAIIQ是域特定的，而FAQEQUALITY是域独立的。Bruüninghaus和Ashley[9]提出了一些方法，这些方法支持在文本案例中自动查找抽象索引概念，并演示了如何在解释性CBR系统中使用这些案例来执行基于案例的论证和预测。他们实现了这些方法，这些方法使用给定的文本摘要预测法律案件的结果他们的方法使用基于分类的方法来分配指数。他们比较不同的方法来表示文本的情况下，并考虑多种学习算法。他们还表明，结合一些背景知识和浅NLP与最近邻算法在文本表示导致最佳性能的TCBR任务。他们引入了一个名为SMILE + IBP的程序;它代表“智能指数学习器+基于问题的预测”。它使用CBR来预测直接作为文本输入的法律纠纷的结果，并解释这些预测。Han等人[10]介绍了一种问答系统。他们提出了一个交互式和内省的问答引擎，它使用问题的关键字来触发案例，并按关系对结果进行排序。该引擎还可以根据用户的反馈动态地修改关键字的权重。在引擎内部，他们使用特征权重维护算法来提高准确性。并将CBR的2层结构扩展为3层结构，使系统具有更好的可扩展性和可维护性。他们将这种表示分为三个级别：对应于特征值F的特征级别，对应于P的问题描述级别和对应于S的答案级别。Recio-GarcBrach'a和Wiratunga[11]提出了一种从网页中获取知识的新方法。它侧重●●●●●●●●●●●P214 I. Elhalwany等人基于动态生成的分类法的主要知识结构。分类法一旦创建，就可以在CBR周期的检索和重用阶段使用。他们感兴趣的是收集分类法，以捕捉文本情况下，不能通过统计方法单独获得的语义知识。首先，他们建议使用一种新的CBR特定的消歧算法来指导分类生成过程。其次，通过一种新的基于剪枝分类法的索引算法--分类语义索引，对案例比较进行了改进。他们采用了概念袋（BOC）的方法来扩展的情况下表示，利用分类中捕获的是-一个关系。结果表明，与BOC表示和最好的结果时，得到了显着的性能改善的分类修剪使用其disam- biguation算法。Patterson等人[6]提出了SOPHIA; TCBR的一种新方法代表 SOPHICAS Information Analysisfor TCBR （ SOPHIA-TCBR），基于SOPHIA的分布式文档聚类[7]方法，它促进了基于案例的检索的高级和丰富的知识发现框架。它基于文档中术语的条件概率分布。然后，它智能地发现案例库中的重要主题，并将案例组织成大量的集群，这些集群将这些主题作为吸引子。这个形成集群的过程，允许一个非常有效和称职的情况下检索过程。除了自动发现和利用文本的情况下，它发现的相似性知识，这使得语义的情况下被考虑，从而使更有意义的相似性比较的情况下。(This是指在相同或相似主题上但使用不同术语的案件可以被认为是相似的。Vattam和Goel[12]对跨域TCBR感兴趣。他们在生物启发设计（BID）的所需的生物学知识通常以非结构化文本文档的形式存在，通常在Web上。由于其日益增长的重要性，他们认为BID为开发和探索跨域TCBR提供了一个很好的机会。他们开发了一种基于生物系统结构-行为-功能模型的生物学文章语义标注技术。他们还在一个名为Biologue的交互式系统中实施了这项技术; Biologue的受控实验表明，有用的生物学文章的可发现性和可识别性都有所改善。他们的工作表明，任务特定的，但域一般的基于模型的标记可能是有用的TCBR在支持复杂的推理任务，从事跨域类比。4. 应用在SOPHIA-TCBR框架的以下五个阶段中自动发现知识● 案例知识发现。● 窄主题发现。● 相似性知识发现。● 案件分配发现。● 内部群集结构发现。以下部分将展示这种方法如何在拟议的法特瓦QA系统中发挥作用。4.1. Fatawa提问系统本研究主要贡献于提出基于TCBR 的Fatawa QA 系统。Fatawa QA系统是一个智能系统，它可以用语义上最接近的问题来回答用户的问题。提出的系统可以在提出新问题时进行推理.所提出的系统继承了SOPHIA-TCBR方法[6]的主要特征和优点。Fatawa QA系统循环包括索引、检索和学习阶段。索引包括许多步骤，例如根据特定标准选择Fatawa（案例）用作案例库，将Fatwa以术语向量的形式放置，计算术语频率，通过计算在术语z共同出现的随机选择的案例中随机选择术语y的概率来形成术语上下文。然后，计算术语z代表上下文的程度，确定可定义为窄主题的术语，然后选取窄主题的主题上下文，最后将实例库中的每个实例分配到最近的主题上下文（簇），得到聚类实例库。检索包括相同的索引步骤，但对单个传入问题进行检索，以检索其最接近的问题。学习阶段包括向案例库中添加新问题和重建索引。以下步骤将详细描述如何实施所提议的系统：1. 索引和聚类过程从应用词干提取过程开始，如下所示：删除变音字符、数字、符号和任何非阿拉伯字符。将多种形式的字符转换为单一形式（例如，，，=>）。将问题文本拆分为单词。删除停用词;这是非常常见的词，如代词和介词。2. 使用以下公式计算案例库表中每个案例的所有术语的术语频率和概率分布。tfx;ySOPHIA-TCBR方法有几个优点，例如;它是域独立的，不需要任何用户干预。PyjXt2 YtfX;t1获取领域知识。因此，所有的知识都可以自动发现。它也是一种独立的语言，可扩展，因此适用于大型案例库，除其中tf（X，y）是文档X中术语y的术语频率，Y表示所有情况下的所有术语的集合。在图1中，显示了一个示例问题以及一个术语及其频率表。●●●●⊂我P.P.J.对知识发现框架215的'' H（Y|z）“被用作主题的狭义上下文选择的标准。5. 整个词集被分成不相交的子集根据案例频率cf：Y¼[i YiYi¼ f z： z2 Y; cfi6cf z6 cfi1gI¼ 1. r4其中Y（z）表示来自X（z）和情况频率cf（z）= |X（z）|的术语Z。这里，阈值cfi满足条件cfi+1=acfi，其中a>1是常数。选择窄词主题是基于这样的假设，即总共有N个窄词主题和r个格频率区间。对于每个i=1.. . 选择集合Zi Yi，使得：N·jYijjZij¼I ¼1. RjYj5图1示例问题和频率表。3. 计算概率分布“P（y|z）“，其等于在术语z共同出现的随机选择的情况中随机选择术语y的概率，即由特定主题绑定在一起的语义相关情况的分组。这个分布可以近似为你可以在下面的等式中看到：和z12Zi;z22Yi-Zi！H<$Yjz1<$6H<$Yjz2<$;则Z¼[iZið6Þ其中Z是选定的窄主题的集合。并且N被设置为1000。图3显示了一些狭义主题及其案例频率的表格。6. 直到这一步，创建了N组术语，其中每个组或簇具有语义相关的术语。现在需要测量案例库中的案例与每个聚类上下文之间的相似性，这可以通过分别表示案例和主题的概率分布P 1和P 2之间的Jensen-Shannon散度[13]来实现（七）：Pyzx2XztfX;yx2Xz;t2YtfX;tð2ÞJSf0：5;0：5g1/2P1;P2]1 /2H1/2 P] -0：5H1/2P1] -0：5H1/2 P2]-7H其中X（z）是来自语料库的包含术语z的所有情况的集合。4.计算项z表示其上下文或其主题，其中计算每个单词上下文的熵。通过以下公式在单词上下文条件概率分布上找到熵：HYjz-XyPyjzlogPyjz3其中H[P]表示概率分布P的熵，P表示概率分布P的熵。平均概率分布，分布tion=0.5P1+0.5P2，JS分歧值越小，格与主位的语义相似度越高JS是P1和P2的非负有界函数，它等于零当且仅当P1=P2.7. 在此步骤中，将根据案例的与主题的语义相似性。由方程式在公式（8）中，如果：图2案例分配到距离为“JSDist”的窄主题“ZID ”。P216I. Elhalwany等人在图4中，来自相同集群“ZID“的一对病例图3窄主题表。图4病例之间的距离z½argmint2ZJSf0：5;0：5g½PYjx;PYjt]8也就是说，案例被分配给其吸引子具有最高语义相似性的聚类。9. 检索过程可以从Fatwa请求者表单中启动，描述了与Fatawa QA系统的典型交互10. 假设用户输入他的问题。他可以选择直接向DarAliftaa后端团队提交他的问题，或者首先检查案例库如果用户倾向于首先检查案例库，他将得到两种不同的搜索机制，他可以使用两者或其中之一。首先，一个是文本搜索，它顺序地搜索整个案例库中最接近的案例;它不依赖于任何文本聚类。此选项在对案例库中的问题术语和案例术语两者应用词干提取步骤后，仅匹配两者。匹配结果将按匹配单词的数量和它们之间的术语计数差异进行排序。第二种方案是相似案例检索，它利用了聚类案例库的优点。JS Divergence函数用于确定问题将被分配到哪个聚类，然后检查最相似的案例。图5示出了用户表单，其允许用户输入他的问题并在两个选项之间进行选择。图2显示了Fatawa主题、问题、答案、窄主题ID“ZID”和Jensen分歧“JSDist”的表格。8. 计算来自同一聚类的两个病例之间的相似性可以使用JS散度来实现。这样，JS分歧越小，相似度越高，这就是相似性知识，它形成了发现语义相关案例的关键。11. 标记为新的问题将添加到案例库中通过学习过程和指数将定期重建。4.2. 强化SOPHIA方法在这一节中，我们将对SOPHIA方法进行改进。如前所述，SOPHIA不适用于图5用户表单。二层三层案例22 n案例21 n案例12 n案例11 n框体222壳体212箱体122壳体112壳体221壳体211壳体121壳体111窄主题22窄主题21窄主题1 2狭义主题11Class2Class1壳体12壳体22箱32案例1n案例2n案例3n对知识发现框架的增强217第一层二层图6SOPHIA两层模型。第一层图7增强模型的三层。改进的方法不需要任何知识工程，其中它具有用于知识发现的全自动过程。SOPHIA模型由两层组成，第一层是窄主题（吸引子），第二层是分配给窄主题以形成集群的案例两层模型将扩展为三层模型，其中第一层将被提议作为一个新的层，以包含案件的类别，而第二层将是狭窄的主题，第三层将是以前的案件。图图6和图7示出了作为两层模型的原始SOPHIA和所提出的增强的SOPHIA三层模型之间的差异。在图7中，您将看到一个新的层包含案例库的分类，然后每个案例类被聚类。修改将通过向知识发现过程提供少量预定义的知识来实现这条知识将增强集群过程，并将授予平衡的集群，这将导致系统的更好的性能。幸运的是，已经存在分类法塔瓦，这节省了分类的努力，并很容易提取狭窄的主题和主题的的以下步骤将描述这种修改如何影响原始算法。1. 在原始算法中，整个词集被划分为不相交的子集，如等式2所示。（4）、然而，这个等式将被修改以划分整个单词集以同样的方式，但根据他们的类，而不是他们的情况下，频率。2. 在原始算法中，对于等式中所述的每个区间，存在不同的熵阈值。（六）、然而，这将被修改为具有相同的熵阈值，其中根据它们的类别而不是它们的情况频率划分单词。3. 第三个修改是将窄主题上下文的大小限制为每个上下文的200个术语，而不是在原始算法中采用整个上下文。这也将提高性能。图8显示了一个类的样本和一个窄主题的样本。检索算法也进行了修改，以采取增加的知识（分类）的好处，其中用户查询的类将首先被检测到，然后它将被比较，只有这个类的集群。这种修改将明显影响检索过程的性能。5. 实验进行了两个实验;第一个使用SOPHIA方法没有任何修改，而第二个使用SOPHIA方法的增强版本。5.1. 数据集Dar Alifta Fatawa 档案被使用 ; 这个档案包含了大量的Fatawa在九种不同的语言，这些Fatawa有不同的状态，定义如果Fatwa是新的壳体31壳体21窄主题3壳体11窄主题2窄主题1218I. Elhalwany等人图8示例类及其狭窄的主题。(not回答尚未），回答，修订中，在transla- tion，拒绝，或完成（完成）;这些法塔瓦也分为不同的类，如婚姻，祈祷，离婚，净化，银行，也有许多其他详细信息记录在Fatawa档案中。选择了阿拉伯语法塔瓦，这些法塔瓦被回答并分类到任何类，但避免了继承选定病例（Fatawa）总数为（7337）例。这些案例将被用作训练集，在训练集上将应用上一节中描述的所有步骤。表1显示了从埃及Dar alifta档案馆获得5.2. 实验输出实验的输出可以从Fatwa请求者的形式开始，描述了与Fatawa QA 系统的典型交互。用户可以选择直接向DarAliftaa后端团队提交他的问题，或者首先检查案例库。如果用户更喜欢先检查案例库，他将得到两种不同的搜索机制，他可以使用这两种或任何一种。第一个选项是关键字搜索，它不依赖于TCBR。此选项在对案例库中的问题术语和案例术语两者应用词干提取步骤后，仅匹配两者。匹配结果将按匹配单词的数量和它们之间的术语计数差异进行排序。第二种选择是类似的情况下搜索，这取决于TCBR。以同样的方式，JS Divergence函数用于确定问题将被分配到哪个聚类，然后检查最相似的案例。第二个实验的输出比第一个实验更快，因为聚类更小，并且在这里它保证所有结果都来自同一个类，这由于分类步骤而提高了精度5.3. 实验结果实验环境包括一个笔记本电脑与英特尔酷睿2由于2.5GHz，4 GB RAM。SQL Server 2012企业版本用于数据库，C# 2010用于表单。对于第一个实验;执行时间范围从19到30秒取决于包含结果的集群的大小。然而，在第二个实验中，执行时间范围从2到3秒取决于包含结果的集群的大小5.4. 对分类过程的评估在本节中，将对分类过程进行评估，以确定自动分类与手动专家分类的匹配程度;步骤如下：表1每个班级都有病例。对知识发现框架的增强219图9应用SOPHIA方法的聚类图11SOPHI（S）与增强版SOPHIA检索时间比较结果是大约6000例自动分类与手动分类相匹配，其他的不匹配;这意味着自动分类的正确率为80%。5.5. 评价图10增强的SOPHIA方法中的聚类分类过程从检测每个类别的窄上下文开始;该上下文在类别中具有最高频率和最低熵值。Jensen–Shannon divergence对已分类的全部案例库案例（7337例）进行测试，以比较专家手动分类和自动分类。本文介绍了TCBR的两个应用，一个是SOPHIA方法的启发，另一个是SOPHIA方法的增强版本。根据前面的实验结果，很明显，这两个应用程序都可以工作，但第二个有一个更好的结果，在应用领域。图图9和图10示出了簇大小之间的一致性，其中很明显，修改后的版本使簇更加平衡。聚类过程中的这种差异影响了检索过程的性能，其中修改后的版本提供了更好的性能，除了添加分类保证之外表2 SO P H I （S）与SOPHIA 增强版检索时间的比较。病例ID类回收时间1（S）（s）回收时间2（ES）（s）520505誓言和誓言222520543犯罪、死刑和重罪242520570股票和市场231520586保险242520721银行182520726道德252520761维护212520779朝觐和小朝圣212520790婚姻202520908纯化242520910离婚283520922祈祷222520924葬礼祈祷212520928谱系212520929空腹212520931义务慈善263220 I. Elhalwany等人另一个性能测试运行;从每个类中随机选择一个问题作为测试集。从表2和图11中可以清楚地看出，检索时间的差异很明显。6. 今后工作将考虑增强聚类算法，以便在案例库扩展到包括100，000个案例的情况下可以快速执行检索过程此外，词干提取过程可以通过使用词根提取算法和删除单词拼写检查器可用于帮助法特瓦申请人写他的问题没有拼写错误。分类过程也可以被增强以更准确。此外，同义词问题也将被考虑。引用[1] Aamodt A，Plaza E.基于案例的推理：基础问题，方法论的变化和系统方法。AI Commun1994;7：39-59.[2] Abdrabou E，Salem A.基于案例的推理工具，从外壳到面向对象的框架。载于：2008年6月至7月在保加利亚瓦尔纳举行的知识-对话-解决方案KDS国际会议记录[3] Recio-Garc'aJ，WiratunggaN. 基于文本案例推理的分类语义索引。见：ICCBR会议记录; 2010年。第302- 316页。[4] 张文辉，张文辉.文本CBR。案例推理技术，从基础到应用。London（UK）：Springer-Verlag. p. 115比38[5] Freeucci D等人，IBM研究报告，面向QA系统的开放式发展。RC 24789（W0904-093）。计算机科学; 2009.[6] [10]杨文，李文. SOPHIA-TCBR：一个基于文本案例推理的知识发现框架。基于知识的系统2008;21（5）：404-14.[7] 放大图片作者：Dobrynin V，Patterson D.上下文文档聚类。第26届欧洲信息检索研究会议论文集，LNCS，第2297卷。Springer; 2004. p. 167比80[8] Burke RD，Hammond KJ，Kulyukin V，Lytinen SL，TomuroN，Schoenberg S.从常见问题文件中回答问题：FAQ查找系统的经验。AI Mag1997;18（1）：57-66.[9] 作者：Bru¨ ninghaus S，Ashley K.推理与文本案例。In：MunBazoz-AvilaH ，RicciF，editors.案例推理研究与开发（ Case-based Reasoning Research and Development ， LNAI3620）Berlin：Springer; 2005. p. 137比51[10] Han P，Shen R，Yang F，Yang Q.案例推理在问答系统中的应用。在：澳大利亚人工智能AI-02联合会议论文集; 2002年。p. 704-13[11] Recio-Ga rc'aJA，Wiratung gaN. 基于文本案例推理的分类语义索引。见：ICCBR会议记录; 2010年。第302- 316页。[12] Vattam S，Goel A.工程问题的生物学解决方案：跨领域文本案例推理研究。见： ICCBR 2013 会议记录， LNAI 7969;2013。p. 343-57.[13] Lin J. 基于 Shannon 熵的发散度量。 IEEETransInform Theor1991;37（1）：145-51.

下载后可阅读完整内容，剩余1页未读，立即下载