改进的基于排名的疾病预测方法的性能优于传统模型

4 浏览量更新于2023-12-09 收藏 1.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取ScienceDirectFuture Computing and Informatics Journal 2（2017）133e147http://www.journals.elsevier.com/future-computing-and-informatics-journal/一种改进的基于排名的疾病预测方法P. Dhanalakshmia，*，K. 拉马尼湾 Eswara Reddyca印度阿南塔普尔JNTUA计算机科学与工程系b信息技术部，SVEC，A。天气-班加罗尔，印度cJNTUA，Kalikiri，印度接收日期2016年6月29日;修订日期2017年10月18日;接受日期2017年10月26日2017年11月13日在线发布摘要将机器学习技术应用于在线生物医学数据库是一项具有挑战性的任务，因为这些数据是从大量来源收集的，并且是多维的。此外，从大型存储库检索相关文档（例如基因文档）花费更多处理时间且增加假阳性率。生物医学文档的提取通常是基于在不同时间段对基因参数的先验观测流。传统的Web使用模型，如马尔可夫模型，贝叶斯模型和聚类模型是敏感的分析用户的导航模式和会话识别在线生物医学数据库。此外，大多数生物医学数据库上的文档排序模型提出了一种基于疾病类型、基因实体和用户导航模式的生物医学文档在该推荐系统中，使用动态为了验证该模型的性能，该模型的真阳性率和运行时间与传统的静态模型，如贝叶斯和模糊秩进行了比较。实验结果表明，该模型的性能优于传统的模型。©2017埃及未来大学计算机与信息技术学院由爱思唯尔公司制作和主持这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：生物医学文献; PubMed;排名预测; Web使用;用户模式;服务器日志1. 介绍每年都有大量的生物医学和研究文献在PubMed/Medline 数据库中发表。医疗保健专家认为PubMed/Medline是医疗保健数据库的权威和可靠来源。到目前为止，最可靠的生物医学知识库是由医学图书馆国家生物技术信息中心设计和开发的PubMed[1]PubMed有* 通讯作者。电子邮件地址：mallidhana5@gmail.com（P。Dhanalakshmi），ramanidileep@yahoo.com（K. Ramani）。埃及未来大学计算机和信息系负责的同行审查每周有超过2500万篇文章和大约20，000篇引文被添加到该库中。可访问知识的爆炸已经影响了许多领域的搜索，包括疾病，治疗，基因，蛋白质，医疗程序等生物医学文档每年翻一番，一个新的排名模型是必要的，基于用户的导航模式，基因实体和疾病类型的文档排名。然而，从生物医学数据库中发现最相关的文档是具有挑战性的，由于大量的文档和用户导航模式。基于证据的生物医学疾病预测涉及通过分析用户的导航历史和来自PubMed数据库的基因相关文档来提取相关医学文档图 1显示疾病名称的文档命中率https://doi.org/10.1016/j.fcij.2017.10.0032314-7288/©2017埃及未来大学计算机与信息技术学院由爱思唯尔公司制作和主持这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。134P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147如帕金森、糖尿病、心脏和肾脏等疾病的文献数量。在参考文献中。[4，5]相关用户反馈模型已应用于生物医学检索以提高检索效率。该模型利用明确的用户反馈或以前的搜索结果来找到与用户更相关的新结果。但在生物医学领域使用这种模型数据库的数量仍然有限，而且非常耗时。1.1.生物医学知识库早期发现糖尿病和癌症等医疗问题将增加成功治疗的数量。已经实现了各种机器学习模型来检测潜在的医学疾病。一些生物医学疾病如心脏病和糖尿病显示出遗传症状，即，许多医学疾病具有在各种生物医学文献中看到的共同的遗传Zhang等人[16]开发了一种新的系统来提高文档搜索过程的效率。分析生物医学知识库中文档之间的内部和内部关系对于诊断特定患者的疾病是必不可少的。用户推荐模型可以优化Web用户的活动，因为每个用户都有不同的上下文和背景知识。为了优化PubMed上的查询搜索，研究人员研究了不同的技术，例如处理文本信息、提取领域知识、领域分类、医学主题词（MeSH）术语识别以制定PubMed查询[3]。但是，即使使用相同的MeSH术语，用户的具体要求也是不同的。例如，对于MeSH主题“喉癌”，一个用户可能对查找与匹配该查询相关的文档感兴趣，而另一个用户可能想要查找与用户的导航模式和遗传行为类型相关的文档。因此，由于两个主要问题，根据全球衡量标准进行排名往往不能满足用户的具体需要。首先，在持久的用户配置文件中识别用户导航模式或兴趣，其次，在基于Web的实时文档搜索中估计用户偏好。由于静态用户识别和会话识别模型这是一个挑战性的问题[17，18]。2. 相关工作行为定向系统的一个重要特征是设计用户行为框架，以区分和理解用户。如果服务器知道用户对Web服务请求感兴趣，那么它就可以推荐正确的信息来满足用户的需要。当生物医学搜索工具预先捕获用户的请求信息并搜索与用户的请求相关的文档和导航模式时大多数传统的用户行为系统主要是基于个性化中的显式反馈、搜索中的反馈、用户兴趣建模等来实现的。这些系统[2]大多研究短时间间隔的聚合用户行为，其中用户导航和搜索行为发生在不同的时间间隔上被聚合在一起。因此，用户的会话和长期信息不可用。Bio Creative I和II开始解决自动查找医疗文档中实体的需求[3]。一般来说，Bio Creative中的基因检测任务主要针对基因名称检测。生物医学命名实体检测是必不可少的，因为它是许多自然语言处理任务的构建块，例如基因识别，蛋白质，基因和蛋白质提取[4]。第一个面向生物医学临床的服务是由信息学在2006年开始的，用于整合生物学和床边（i2b2）[5]，其扩展版本直到2014年才可用。整合生物学和床边信息学（i2b2）托管生物医学文本分类服务，以在2006年使用生物医学文档集确定文档级别的吸烟状态，在2008年预测肥胖及其相关疾病[6]，并在2014年使用临床记录预测文档级别的心脏相关风险[7]。i2b2不考虑用于识别过程的生物实体，而是使用生物医学背景，例如治疗，医学测试，MeSH术语等。Fig. 1. PubMed疾病检索统计。P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147135文本检索会议（TREC）医学工具包于2011年[8]和2012年[9]实施，以寻找特定的内容，如年龄组，性别，疾病存在和生物医学研究的治疗。Fong等人[10]实现了周期性Web推荐系统，该系统通过处理Web服务器日志中的访问模式，以周期性的方式推荐用户的请求。但是，主要的局限性该模型的一个缺点是，它只考虑用户导航模式，而不考虑与唯一访问者的数量、动态会话初始化、用户的历史细节等相关联的参数。Li等人[11]开发了一个可扩展的两阶段个性化推荐系统，该系统在新闻文章上实现。在第一阶段，处理与用户请求相关的各种查询它还实现了一个框架，新闻过滤的基础上，Web用户的选择与新颖的推荐结果。几个网络日志搜索[12，13]和点击分析[14]被实现来分析单个用户会话以创建聚合模型。主要的挑战包括搜索查询和日志数据处理的用户行为分析，遵循不同的分布在许多方面。Rong等人。[15]为推荐系统实现了基于Web服务的用户配置文件本体机制。在这个过程中，基于本体的机制是用来实现一个在线推荐系统，涉及Web日志文件上的Web使用挖掘，找到所有可能的导航模式，为登录用户和解决任何不确定性，通过应用本体的概念，基于层次的上下文，相似性比较和排名评分算法。这种模式通常存在稀缺性和多关联问题。本文的组织如下：第3节，讨论了不同日志文件的Web用户技术的概念和局限性以及用户推荐的系统。第4节介绍了一种新的用户推荐系统。我们所提出的算法的结果和分析在第5节，最后的结论和未来的范围在第6节详细讨论。3. Web使用推荐模型3.1. 使用本体构建的传统的信息检索系统在Medline或PubMed等生物医学训练数据集上的实现分为用户查询初始化、查询搜索和查询排序三个步骤。在初始化步骤中，大量文档被初始化到集中式服务器。在查询搜索步骤中，根据余弦相似性度量对服务器数据库中的文档集进行主题聚类。在本体构建过程中，用户兴趣是发现上下文意义和查询组件建模的关键。在排名过程中，本体构建使用关于属性、关系和概念的不同域的概念化，用于web使用挖掘过程，如图2所示。用户使用属性及其特征关系模式用于形成规则挖掘过程的上下文本体结构。然而，从生物医学数据库中检索相关信息并将这些信息与计算度量相结合是耗时的，并且需要领域知识来进行关键字选择和查询处理。Web本体预测模型框架分五个阶段实现。在第一阶段中，以网页html形式的twitter weblog文件作为输入。通过捕获不同的主题标签结构，实现了对Web针对每个用户会话，分析语法或语义结构和主题行为，并通过提取输入文件中的时间、资源属性来构造子格。在第二阶段，每个主题或用户活动及其交互以层次的形式表示。该阶段利用用户在会话周期内的活动及其资源构造通用格结构。在第三、四阶段，基于Web用户的活动构建通用Web本体.主题本体构建完成后，将通用格结构映射为层次本体结构。从映射的本体中提取相关的关系和活动。在最后一个阶段，使用Web主题和用户评论创建owl文件。owl文件包含类、属性及其关系，使用模糊规则挖掘算法生成相关的主题视图。对给定语料进行模式挖掘的主要任务是从TREC数据集中提取特征和挖掘模式。整个程序都遵循通过计算每一个功能.被概括的特征是候选者，而与相关观点一起标记的特征是基于观点的特征，这是候选者和观点特征之间的基本区别。3.2. Web推荐系统推荐系统在帮助网络用户进行相关搜索查询方面变得越来越重要。推荐系统利用不同来源的生物医学数据为用户提供建议图二.基于本体的Web使用检索。136P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147八<、 . ΣΣðÞ：¼TPY¼我的天啊 þ Þ¼如果k∈Ars∈MD12n12nMempMD12n¼×和MeSH术语的预测有几种常见的使用推荐的Web个性化系统模型。8Minar2ð3Þ在基于内容的系统中，用户将被推荐生物医学文档类似于用户过去导航过的文档。网络用户通过数据访问和会话持续时间来表达他们的兴趣，以揭示他们对在线服务的满意度。本文介绍了一个基于生物医学知识库/PubMed的用户推荐系统。联系我们1否则最小值ap2kAp如果kAps，最小值ap2k A p：1否则ð4Þ帮助用户找到他们想要的东西，改善用户的体验，从而节省他们的搜索时间。在该系统中，用户请求查询与用户的交互一起进行，例如隐式浏览、发布查询、点击通过活动、导航模式等，用于计算文档排序模型。3.3. 基于模糊贝叶斯的Web使用上下文将模糊Web使用方法应用于预处理后的活跃用户TREC微博文本文档。通过这种方法，识别与每个用户的活动会话共同的相关特征集、经历相同特征的访问会话集和web访问活动。这种模糊模型的主要挑战是在分布式覆盖数据库中的文档集的物理表示。该模型在高维向量空间模型中不适用。文本排名措施也起着至关重要的作用，作用的自然语言处理和信息这里，模糊支持定义了每个用户对给定时间和资源属性。如果在用户的访问模式中定义了资源属性，则等式（3）用于计算给定隶属函数的支持度值。类似地，如果在用户的访问模式中定义时间属性，则等式（1）（4）用于计算给定隶属函数的支持度3.3.2.生物医学贝叶斯秩令MD 1/4 {md 1，md 2，-mdn}为生物医学文档的集合。令TP {tp 1，tp 2--tpn}是文档的唯一生物医学主题的集合。对于每个主题，前N个检索到的文档中的k个MeSH术语被选择为正排名上下文。使用贝叶斯方法的主题相关性可以公式化为：P. tp¼fmd;md检索排序度量被用于文本相关的文档库和应用，例如信息检索、文本挖掘、文本关键短语识别和主题摘要过程。一般来说，有一个广泛的研究排名我的天啊MD¼fmd1;md2P. tp¼fmd;md短文本文档上的度量，而不是排名度量用于生物医学研究或医学知识库。模糊周期性用户上下文被定义为r1/4{U（s），Ap，Ar，As}MD1联系我们N1/12Probn.MD¼fmd1; md2. md ngTP其中U（s）表示用户活动会话的集合，Ap表示发送时态属性集，Ar表示资源集其中，P（tp/MD1/4 {md，md-md}）是属性，As U（s）{Ap<$Ar}表示域模糊关系属性集。模糊隶属度函数可以使用Eq.（一）.每个成员资格值都应在0和 1之间。F或每个模糊关系RεUs*fApArg.R 如果m2A话题TP从的设置的生物医学文件;P（MD {md1，md2-mdn}/tp）是与给定主题tp相关的文档的概率。最后，向量空间模型已被用来计算之间的排名相似性用户指定的查询tp给定的文档集使用Eq。（五）、J. T.Prob. t<$fmd;mdð5ÞMemrR 如果m2Ar这里，隶属函数Mem（R）获取给定会话中每个注册用户的时间和资源属性。3.3.1. Web规则挖掘的模糊支持度和置信度模糊支持度是在属性集k2ApAr上计算的，其中nk^nX.MemrR × MempRrank<$maxfSupk;J tg ωXwd;i：w t;i其中w d; i概率d; i= d $log N0： 5，N训练数据的大小。静态排名计算的主要局限性是需要更多的资源和计算时间。这种限制可能部分是由于大多数静态排名措施忽略了遗传信息和用户的导航，联系我们了2kjujujujujujujujujujujuju行为。由于同质和异质由于书面资源的性质，生物学知识的自动提取不是小事。因此，文本挖掘具有Σ在哪里MemrRMem的评论pð1ÞP. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147137在生物医学知识库中，机器学习和文本挖掘技术与使用基因数据和用户导航模式的生物医学疾病文档的挖掘相结合4. 基于动态用户的医学文档预测模型在我们提出的生物医学推荐模型中，每个用户通过发布查询与PubMed服务进行通信。用户可以通过输入感兴趣的主题来触发web服务。用户的请求查询在服务器程序中进行处理，进行动态用户会话初始化、用户识别和字段提取过程。每个用户的通信细节（诸如用户的请求信息、服务器请求和响应信息、感兴趣的主题、会话信息等）被存储在服务器数据库中以用于排名计算。在PubMed网络服务中，使用用户的查询请求（感兴趣的主题）获取疾病基因名称及其同义词。这里，用户选择的疾病被用作参数从PubMed库中获取相关基因和基因同义词的文档集。所有这些文档集以及用户数据库都作为输入提供给排序模型，以预测请求用户的最顶级疾病文档，如图3所示，用户与PubMed服务的交互如图3所示。四、设u_id（r 11），u_id（r 12），u_id（r 13）.. u_id（r1m）表示对服务器的第一用户请求。 u_id （ r21 ）、 u_id（r22）、u_id（r23）.u_id（r 2m）表示第二用户对服务器的请求. u_id（rn1）、u_id（r n2）、u_id（r n3）.. u_id（rnm）表示对服务器的第n个用户请求。设q1和q2表示会话明智阈值和连续寻呼请求阈值通常，q1，q22{0，30}分钟;4.1. 动态会话初始化算法输入：web用户请求，服务器数据库和服务器日志文件，rij：用户请求。输出：用户的会话。138P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147图3. 用于特征提取的动态秩模型条件2（）：条件2给出了满足q2在动态用户会话初始化算法中，用户在Web服务框架中的成功登录后，自动创建用户的初始会话。该模型通过页面请求阈值和会话超时在单个会话中处理n超时成功后P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147139图四、用户与PubMed服务的交互利用新的会话ID和相同的用户标识ID动态地重新初始化每个用户的会话。如果用户的ID为空，则它返回错误web服务请求，否则针对活动用户检查两个连续请求之间的会话方面的阈值和时间间隔。示例会话初始化详细信息如表1所示。4.2. 用户请求记录器算法输入：U_id，用户请求。输出：用户请求以及数据库中的交易详细信息在用户请求记录器算法中，用户请求和用户标识作为输入，用户的导航信息存储在服务器和用户数据库中作为输出。如果用户请求url为空，则返回错误页面，否则检查会话ID（图1）。 5）。如果session-id为空，则创建一个新的会话，否则使用点击流程序将用户的请求路径贯穿整个会话，并将点击流详细信息（如u_id、sess_id、clickstream、url_list）存储到服务器数据库以进行排名计算。图五.用户单击流数据库。表1会话详细信息示例。会话ID Con path Path Remo add Server path Req url 69B95FDACF40799645E58976745777F2 application/x-www-form-urlencoded 8888 HTTP/1.1 10：0：0：0：0：0：0：1http：//localhost：8888/MedFinal/LoginFinal859 DAB 83 C9 E2 E07 B 9 B 9 CE 4847 DFCB 18 D应用程序/x-www-form-urlencoded 8888 HTTP/1.1 0：40：0：0：0：0：1http：//localhost：8888/MedFinal/LoginFinal859 DAB 83 C9 E2 E07 B 9 B 9 CE 4847 DFCB 18 D应用程序/x-www-form-urlencoded 8888 HTTP/1.1 20：0：0：0：0：0：0：1http：//localhost：8888/MedFinal/LoginFinal480B7AFBCF01C3C1E87710E0313E5790 application/x-www-form-urlencoded 8888 HTTP/1.1 0：0：0：0：0：0：1http：//localhost：8888/MedFinal/LoginFinal1307A5E90C55B7F158D637F331B7F524 application/x-www-form-urlencoded 8888 HTTP/1.1 0：0：0：0：0：0：0：1http：//localhost：888/MedFinal/LoginFinalD 0 DC 397 DCAB 5138521 DF 65910 F807 B1 A应用程序/x-www-form-urlencoded 8888 HTTP/1.1 124：0：0：0：0：0：1http：//localhost：8888/MedFinal/LoginFinalC915668 F3 AECCCF 4126 CF 00682 B7721 F应用程序/x-www-form-urlencoded 8888 HTTP/1.1 0：0：0：0：0：0：1http：//localhost：8888/MedFinal/LoginFinalC915668F3AECCCF4126CF00682B7721F application/x-www-form-urlencoded 8888 HTTP/1.1 0：0：0：0：0：0：1http：//localhost：8888/MedFinal/homePage.jspC915668F3AECCCF4126CF00682B7721F application/x-www-form-urlencoded 8888 HTTP/1.1 144：0：0：0：0：0：1http：//localhost：8888/MedFinal/homePage.jsp1f29e7012b20a1f8e7a9ee896908 application/x-www-form-urlencoded 8080 HTTP/1.1 0：0：0：0：0：0：1http：//localhost：8080/MedicalFinal/homePage.jsp1f29e7012b20a1f8e7a9ee896908 application/x-www-form-urlencoded 8080 HTTP/1.1 0：0：0：0：0：0：1http：//localhost：8080/MedicalFinal/table.jsp1f29e7012b20a1f8e7a9ee896908 application/x-www-form-urlencoded 8080 HTTP/1.1 0：0：0：0：0：0：1http：//localhost：8080/MedicalFinal/rankrules.jsp140P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147141bbVP4.3. 动态用户请求处理算法输入：U_id，Sess_id，服务器数据库和用户请求，布尔值，Uquery。输出：用户请求字段提取结果。当所有的动态用户请求都存储在数据库中后，字段抽取算法通过考虑现有用户和当前正在运行的用户来检索与用户相关的文档。下面的伪代码给出了动态字段提取过程：从URL列表中删除音频、视频和图像信息。对于每个用户到PubMed网络服务的请求流，重复该过程。4.4. 基于动态用户的生物医学疾病预测为了对生物医学文档进行排名，用户第一次访问的文档x（时间）和下一次访问的文档y（时间）被认为是每个会话中的参数。4.4.1. 估计用户未来访问变量估计每个用户会话中的未来是使用以下推导得出的：youngtime1p$xoung time q$young time其中，p和q是估计变量p q<$1; p$x时间 q$y时间62011年12月1日b b在该算法中，每个点击流请求从用户使用字段提取过程进行过滤动态。需要注意的是，点击流请求的数量不应超过预定义的阈值。对于每个点击流请求，其中x时间和y时间表示用户访问估计变量。我们有，X½y时间1- p$xtimbeq$y timb e]2¼07vX½y时间1-p$xtimb e-q$y timbe]2¼08142P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147XX½ y时间e1-p$xtimb e-q$y timb e]x时间e¼0vqBbXbb半小时[ -]-XΣD¼-q¼简体中文我iijðÞ ðþ Þ¼ðÞð我JBb1我JJ2X½y时间e1-p$xtimb e-q$y timbe]-x时间e10x时间e时间y时间e时间1时间-pXx2时间i时间e时间-qXy时间e时间2基因列表中的每种基因类型。做使用4.4.1节估计用户完了浏览次数：0下载时间下载时间下载时间Xxtimb e步骤4：使用用户预测和基因信息qXyvX½y时间1-p$xtim e-q$y tim e]2¼0102 y时间1 p$ x时间q$ y时间y时间0X½y时间1-p$xtimb e-q$y timb e]y时间10用户的加权排名计算。对于DB中的每个用户的req_query。做从数据库中提取用户计算访问模式的秩作为归一化值：Xy时间y时间1-pXXxtimeyjSuijrðuÞ¼jSuijωyðtimeþ1ÞXytimey time1 pXx timb e$y timejSj用户模式的加权等级为2019年12月11日通过求解方程（6）和（8），我们得到估计的p和q计算为w（ri，sj）价值观;从等式（3）我们得到.Σ2Jri1w ri; sj 1-P。P1youngtime1p$xoungtime q$youngtime：12其中Pj是会话模式长度。由于ri是递增函数，w（ri，sj）是递减函数。4.4.2. 建议的排名算法输入：用户请求查询：User_Keyword，用户数据库：User_DB，服务器数据库：Server_DB。输出：医疗文档排名。完了第五步：排名计算。设G1，G2，G3为疾病名称为g1，g2，g3，-gn的F1¼ 2ωj探头user_DB.Dj1：：jG12GiD-Probuser_DB.Dj1：：jG1;Gi. ;F1排名第二的基因_做c½]w。r;S评分根据Rank值对文档进行排序;Prob（yi）基因文档在基因文档集中的概率。Prob（yi/Gj）第j个基因集合中存在的基因文档的条件概率GMDP. ydy-Proby;11iGi我M1型坦克GMDP. 于迪22iGiM2高速公路步骤3：估计未来用户访问变量。G-分数<$G1M1D- G2M2DXÞP. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147143表2基于PubMed基因的疾病文档样本。Gene id Gene sym Gene name疾病540 ATP 7B ATP酶，铜转运蛋白，β多肽肝豆状核变性4160 MC4R黑皮质素4受体肥胖3667 IRS 1胰岛素受体底物1糖尿病，25621 PRNP朊蛋白2332 FMR 1脆性X智力低下-1脆性X综合征3815 KIT癌基因同源物，v-kit，4猫肉瘤病毒，Hardy-Zuckerman胃肠道肿瘤6331 SCN 5A电压门控，钠通道，Brugada综合征1756 DMD Dystrophin肌营养不良症，杜兴精氨酸加压素尿崩症，神经源性472 ATM ATM丝氨酸/苏氨酸激酶共济失调毛细血管扩张症4221 MEN1多发性内分泌瘤I型多发性内分泌443 ASPA天冬氨酸酰化酶Canavan病411 ARSB芳基硫酸酯酶B粘多糖样变性VI331 APP淀粉样β（A4）前体蛋白阿尔茨海默病见图6。PubMed文档统计。表3Mapper节点上的数据预处理结果。文件数量#MeSH#基因术语#非基因符号#非功能性字符#过滤文件10万33482428378423433145469274420万45673348593737365243431889563Lakh63749659876846374472652676904Lakh967386698366597836453435988550万1247836893771786539736643859144P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147DJ可能yjD表4使用用户导航模式进行基因排序。基因id基因对称基因名称疾病评分4160MC4R黑皮质素4受体肥胖0.943667IRS1胰岛素受体底物1糖尿病，20.9074204MeCP2甲基结合蛋白2雷特综合征0.95621PRNP朊病毒蛋白Creutzfeldt-Jakob综合征0.8843612332FMR1脆性X-精神发育迟滞1脆性X综合征0.8803613815试剂盒v-kit Hardy-Zuckerman 4猫肉瘤病毒癌基因同源物胃肠道间质瘤0.879394210MEFV地中海热家族性地中海热0.8702716331SCN5A电压门控，钠通道，V型α亚单位布鲁加达综合征0.8691051756DMDDystrophin肌营养不良，杜兴氏0.8654132200FBN1蛋白质1马凡氏综合征0.8582565314PKHD 1多囊肾和肝病1（常染色体隐性遗传）多囊肾，常染色体隐性遗传0.8507285781PTPN11非受体11型，蛋白酪氨酸磷酸酶，努南综合征0.849717472ATMATM丝氨酸/苏氨酸激酶共济失调毛细血管扩张0.8443544221MEN1多发性内分泌瘤I多发性内分泌肿瘤（1型）0.843737443ASPA天冬氨酸酰化酶卡纳万病0.8395535009OTC鸟氨酸氨甲酰转移酶鸟氨酸氨甲酰转移酶缺乏病0.838731411ARSB芳基硫酸酯酶B粘多糖样沉积症VI0.8372363848KRT1角蛋白1，II角化过度，表皮炎性0.8330126261RYR1兰尼碱受体1（骨骼）恶性高热0.83158表5使用Hadoop框架对高维数据的文档排序模型的性能数据大小（千）基因大小（Lakhs）平均相关排名贝叶斯秩和模糊排序建议排名100K#1L0.680.69230.74920.8591500K#2L0.68760.7130.75130.89721000K#3L0.6530.69760.74920.92491500K#4L0.6920.7490.79830.94142000K#5L0.6290.73970.8420.9643其中，M1（D）是具有以下特征的医疗文档的数量：用户指定的基因类型。 M2（D）是医疗除了用户指定的基因类型之外的文档（。 . 2GProb. （yi）D该模型不仅依赖于用户导航详细信息，但也考虑文件的相关性，其中，M1Δ D ≤ D，可能yiD为每个用户请求提供高度相关的文档的访问或记录产品的次数图第七章使用Hadoop对高维数据的文档排名模型的性能和M2的平均值P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147145联系我们Zy≥1ZyU1表63.与传统排名模型的比较模型甲状腺疾病（秒）癌症（秒）阿尔茨海默病（秒）神经疾病（秒）贝叶斯秩64.7548.2452.6439.45模糊秩55.3653.5655.3536.75建议职级33.2637.2542.5630.44如果用户在Web日志文件中有3个会话，则Sω。Z. 杜伊·阿吉Li 为3.我加权优先级w（ri，sj）的性质。1. w（ri，sj）应该是递减函数Py≤Py1Dω1Prob和dDy2.wri;sj1定理：对于任何基因数据库向量v，这个不等式成立，这个不等式成立。1000万美元Dω1可能DydDy.概率（y/v）概率（y*）校样：因为我们有v是标量和非奇异特征向量空间我们有≤P。y1Zv可能多吉内达乌德D1 x2 D1000万美元Dv可能DydDy.. Dx1.Σ . Dx1y1优惠概率1$Py>Proby P1美元1. 我是Z Dy$v-1。-1. D1x$v$v-1.Σ . D1x$v$v-1≤P y1DvProbdD y$ vy优惠概率1$Py>可能1$P11Z. Dy$v-1。-1惠Dx D.x$v$v-12Dv1000万美元ProbdDy$ v1111y146P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147y...惠Dω<$Dv. yDv111≤PvP. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147147类似地，Dω< $Dv148P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 1472 2 n n也P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147149因此证明。150P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147图八、将该模型与传统的排序模型进行了比较P. Dhanalakshmi等人/Future Computing and Informatics Journal 2（2017）133e 147151J5. 实验结果使用Web用户服务器日志文件和PubMed[1]存储库Web服务进行了一项实验。使用如表2所示的新推荐系统和如图6所示的PubMed的样本生物医学统计数据，从PubMed动态提取与基因名称相关的人类疾病列表。使用用户的导航模式和基因排序模型提取排名靠前的生物医学人类疾病文档。为了从PubMed知识库中提取特定疾病相关基因文档，实现了一个用于人类疾病生物医学文档排序的Web服务框架。与特定疾病相关的生物医学基因的列表通过它们的关系、共现和用户的导航模式进行排名，如表4所示。使用我们的Web服务从PubMed中检索了12，45，344份与生物医学基因相关的疾病文档。实验结果在Intel i7处理器、3.7GHz处理器和8 GB RAM上进行。所提出的排序模型可用于从训练的PubMed MeSH术语中整个实验分析分为两个阶段：预处理和文档排序。最初，从PubMed存储库中提取用户选择的疾病文档以进行特征提取过程。这些文档集在Hadoop框架中进行预处理-使用多个映射器集群。每个映射器负责文档预处理以去除噪声。在传统的顺序文档预处理模型中，随着文档规模的增大，从大规模语料库中发现噪声特征变得困难在传统的文献过滤方法中，对于开放存取文献，搜索过程仅依赖于作为文档提取算法的第一步，从PubMed/Medline存储库中提取约10 GB的文章。无障碍的结构化数据是提高提取模型性能的关键。除了XML标记之外，PubMed存储库中的所有文档通常都具有非结构化信息。利用基因-蛋白质数据集对每个文档进行预处理，以消除非功能性字符，从而找到生物医学疾病名称。以下是在Mapper阶段的预处理阶段应用的规则。删除与基因标签符号如果左大括号前面是一个空格，而右大括号后面是一个空格，则删除“[]（）”对删除与“;：.”中的任何字符匹配的字符，后面跟着一个空格删除并替换非通用字符$&* A~ 3@~！y“sym bols with th space.删除单引号，如果它前面或后面有一个空格。● 如果“/“后面有一个空格，请删除● 如果'sMapper节点中XML原始生物医学文档的文档预处理结果如表3所示。从表3中可以清楚地观察到，随着文档数量的增加，诸如非基因符号、非功能字符和缺失属性的噪声特征也在增加。在我们提出的模型中，我们应用文档预处理步骤，使用Hadoop框架去除大数据上的所有这些噪声特征。所有预处理的文档特征都在多个映射器集群节点的中央Hadoop核心节点处合并。在这里，中央Hadoop核心节点包含大量预处理文档集，这些文

下载后可阅读完整内容，剩余1页未读，立即下载