没有合适的资源?快使用搜索试试~ 我知道了~
通过知识共享优化生物医学内容的语义丰富性
通过知识共享优化生物医学内容的语义丰富AsimAbbas1,SteveMbouadeu1,AvinashBisram1,NadeemIqbal1,FazelKeshtkar1andSyed Ahmad Chan Bukhari1,*1计算机科学,数学科学,柯林斯专业研究学院,圣。美国纽约皇后区约翰摘要每天,生物医学领域都会从各种来源生成大量的非结构化内容,例如临床笔记,研究文章和医学报告。 这些内容包含足够数量的有效和有意义的信息,需要将其转换为可操作的知识以供二次使用。然而,访问精确的生物医学内容是相当具有挑战性的,因为内容的异质性,缺失和不精确的元数据和搜索引擎优化所需的相关语义标签的不可用性。我们引入了一种社会技术语义标注优化方法,增强了生物医学内容的语义搜索。所提出的方法包括分层架构。在第一层(初步语义丰富),它与NCBO BioPortal的本体概念注释的生物医学内容随着生物医学信息的增长,NCBO Bioportal建议的语义注释并不总是正确的。因此,在第二层(优化丰富的语义信息),我们引入了一个知识共享方案,通过该方案,作者/用户可以请求其他用户的建议,以优化语义丰富的过程。 为了衡量人类推荐的可信度,我们的系统记录了推荐者的置信度得分,收集社区对以前的推荐的投票,存储正确建议的注释的百分比,并将其转换为索引,以便稍后连接正确的用户以获得建议,以优化生物医学内容的语义丰富。 在NCBO注释的初步层,我们分析了用于生物医学词边界识别的n元语法策略。我们已经发现,NCBO识别生物医学术语的n-gram-1比n-gram-2到n-gram-5。类似地,使用Wilson评分和数据归一化对显著特征进行统计测量相比之下,所提出的方法实现了适当的准确性≈90%的语义优化方法。关键词结构化数据,生物医学语义富集,标注优化,推荐1. 介绍在过去的几十年中,在生物医学研究和实践中已经产生了大量的数字非结构化文本内容,包括各种内容类型,例如科学论文、医学报告和医师笔记。生物医学领域的这种爆炸性增长为研究人员和从业人员带来了一些访问级别的挑战。这些有价值的信息存在于Web内容中,但对于信息检索和知识抽取搜索来说仍然第四版知识感知和会话推荐系统(KaRS)研讨会@ RecSys 2022,2023年9月18日*通讯作者。[2]这些作者的贡献是相等的。abbasa@stjohns.edu(A. Abbas); stjohns.edu(S.Mbouadeu);stjohns.edu(A. Bisram); iqbaln@stjohns.edu(N.Iqbal);keshtkaf@stjohns.edu. Keshtkar);bukharis@stjohns.edu(S.上午梭布 哈 里 )https://www.linkedin.com/in/asim-abbas-b2891ab8/(A. Abbas);https://bukharilab.org(S.Mbouadeu);https://bukharilab.org(A. Bisram);https://bukharilab.org(N. Iqbal);https://bukharilab.org. Keshtkar);https://bukharilab.org(S.上午梭布哈里)0000-0001-6374-0397(A. 阿巴斯);0000-0002-6517-5261(S.上午梭布哈里)© 2022本文版权归作者所有。在知识共享许可署名4.0国际(CC BY 4.0)下允许使用CEUR研讨会论文集(CEUR-WS.org)引擎,因为缺少机器可解释的元数据(语义注释)[1]。搜索引擎需要元数据以上下文感知的方式正确索引内容,以精确搜索生物医学文献,并促进次要活动,如荟萃分析的自动集成[2]。在生物医学内容的出版前阶段(首次起草时)纳入机器可解释的语义注释并在在线出版期间保留它们是可取的,并且将是对更广泛的语义网愿景的巨大价值补充[3]。然而,这两个过程都是复杂的,并且需要深入的技术和/或领域知识。因此,一个国家的最先进的,可免费访问的生物医学语义内容创作框架将是一个改变游戏规则。语义注释过程的主要组件是本体,本体是提供域的“概念化的显式规范”的机器可读受控词汇表的集合类似地,语义注释器被设计成便于以手动、自动或混合方式用预定义的术语标记/注释相关本体概念[4]。结果,当与传统的合成过程(例如,使用文字处理器[5]。由于语义标注过程在生物医学信息处理中的重要性CEU Rhttp://ceur-ws.org讲习班ISSN1613-0073程序ICS的研究和检索,科学界已经投入了大量的资源在语义注释器的发展而生物医学注释者主要使用术语到概念匹配,有或没有基于机器学习的方法[5]。类似地 , 生 物 医 学 注 释 器 , 如 NOBLE Coder [6] ,ConceptMapper[7],Neji[8]和OpenBiomedicalAnnotator [9]使用机器学习并以可接受的处理速度注释文本。然而,它们缺乏强大的消歧能力,即,在几个候选概念中识别给定文本段的正确生 物 医 学 概 念 的 能 力 尽 管 NCBOAnnotator [10] 和MGrep服务非常慢,但 Rysan-nMd Annotator声称在注释过程中平衡了速度和准确性然而,另一方面,其知识库仅限于UMLS(统一医学语言系统)中可用的某些本体,并且不提供所有生物医学子域的完全覆盖[11]。除了如上所述的技术挑战之外,语义创作仍然处于婴儿期并且研究人员还不能实现期望目标的主要原因之一是因为研究人员没有意识到原始内容创建者(作者)参与的重要性,并且非常关注系统交互仅限于技术人员的技术复杂性。通常情况下,只有作者知道他们为什么使用特定的术语来解释一个概念。第三方开发者自然不知道这些隐性知识。研究人员和实践者面临着访问级别的问题,因为作者和添加语义注释并发表的人之间存在不协调。大多数作者缺乏技术和/或领域知识,并且存在陡峭的学习曲线,这需要大量时间来开发并非大多数作者的主要工作的关键技能。为了克服上述挑战,我们提出了一种语义标注优化方法,采用知识共享策略,并提出了一个框架,通过该框架,用户可以寻求和提供建议,以优化一个符号的质量。 我们的系统跟踪推荐者置信度得分,收集关于先前推荐的社区反馈,存储正确建议的注释的百分比,并将其转换为索引以稍后连接适当的用户以接收建议,从而优化生物医学内容的语义丰富。论文的其余部分组织如下。建议的方法部分包括餐饮初步语义注释,语义注释优化和示例场景中的注释优化环境的实施细节。随后,结果和讨论包括所使用的数据集,评估方法,以及在系统级实现的结果。结论部分总结了系统的工作和未来的2. 拟议方法本节介绍生物医学语义注释推荐和优化过程。我们开发了一个系统,通过该系统,用户可以访问一个生物医学内容创作界面,类似于MS Word编辑器的类型或导入生物医学内容的语义丰富。系统利用NCBOBioportal API [10]图1(a)生成第一层语义注释然而,所获取的语义注释的正确性随着一个注释可用于多个本体而变化。此外,Bioportal推荐器的语言映射机制经常忽略句子和段落级上下文。因此,建议的注释在内容级别上可能是正确的然而,在特定设置中,它们可能在上下文上完全不只有原作者才知道他们在什么语境中使用了特定的概念。因此,指定了最先进的知识共享方法,因为它提供了一种系统,该系统允许作者针对生物医学术语查询对等体以获得更具体的语义注释,从而优化注释质量。 在以下部分中,我们解释1)初步语义丰富,2)优化语义丰富,以及注释优化环境中的示例场景图1。另外,在下面的示例场景中,我们将角色分类为发布查询的作者,������= ���1,���2,���3……。������ 表示响应者或专家,并且������=���1,���2,���3…������ 社区用户。2.1. 初步语义充实生物医学注释器是语义注释或富集的重要组成部分[12]。可用的生物医学注释器使用公开可用的生物医学本体,如Bioportal [10]和UMLS [4],以帮助生物医学界研究人员使用本体概念来构建和注释他们的数据,以便更好地进行信息检索和索引。然而,语义注释和增强过程是乏味的,并且需要专家管理员。与我们开发的系统,我们自动化的语义注释分配过程。为此,我们利用了NCBO Bioportal网络服务资源[10],该资源分析原始文本内容并使用相关生物医学本体概念对其进行标记。通过按下最初,作者可以从研究论文、临床笔记和生物医学报告中导入预先存在的内容,或者直接在语义文本编辑器中开始输入,参见图1(a)。我们的系统接受用户该引擎识别相关的本体、首字母缩略词、定义和本体图1:生物医学内容语义优化的建议方法通过遵循字符串匹配方法,基于上下文最佳匹配的各个术语的链接。该语义信息显示在我们系统的注释面板中,作者可以基于他们的知识和经验来改变生成的语义信息,诸如从列表中选择适当的本体、选择合适的首字母缩略词、移除语义信息或注释明确的术语等。没有技术背景的用户可以容易地导航简化的界面,而更复杂的用户可以利用高级选项来进一步控制语义注释和创作过程。2.2. 寻求注释推荐随后,在初始级别语义注释处,使得作者能够通过寻求帮助模块图1(b)接近并从同行评审获得正确且高质量注释的要求作者从初步注释界面中选择生物医学术语,通过同行评审进行正确注释。 此外,作者利用界面来便利,以利用可用选项(诸如针对作者的推荐查询的下拉菜单)来平滑地查询。同样,作者可以解释他们的查询,并提供证据和链接,以更好地将他们的查询传达给专家评审或同行评审。���最后,当作者提交他们的查询时,它被张贴在2.3. 优化丰富的语义信息为了通过知识共享过程优化新获得的注释,作者需要选择现有注释,然后单击以从面板中寻求此时将出现一个弹出窗口,其中包含作者可能提出的问题集的下拉列表。例如,如果作者有兴趣知道特定的初步注释或本体是否正确。他们可以选择问题并填写所需信息。同样,作者可以寻求同行帮助发布问题。所有张贴的问题将转到“语义知识咖啡馆”论坛风格。“语义知识咖啡馆”是虚拟社交场所,人们/用户在其中提出问题并寻求关于他们的注释改进的帮助。一旦作者收到来自人群的响应,他们就会被通知,并且所有建议都以接受或拒绝的选项开始显示在这里,作者决定选择一个基于社会索引的特定建议 我们的系统计算社会指数,并根据其指数得分以降序显示每个建议。 为了衡量人类推荐者的可信度,我们的系统记录推荐者置信度得分,收集针对先前推荐的社区投票,存储正确建议的注释的百分比,并将其转换为索引以稍后连接正确的用户以获得建议,从而优化生物医学内容的语义丰富。所有过程信息都存储在后端知识库中。考虑到作者需要从同行评审中为生物医学术语“呼吸短促恶化”找到正确的本体注释作者在“语义知识咖啡馆”论坛上发布查询,诸如“我应该使用哪个本体用于医学内容‘恶化呼吸短促’”?并接收来自同行用户或专家的回复������。我们吃-���将作为专家用户回复的用户标记为���在研究中,三位专家用户参与,并且每位专家建议注释为(我们还要求专家提供他们的信心得分,他们记录为(4,6和7)的规模从1到10。“语义知识咖啡馆”处的社区用户/人群������可以观察所建议的推荐并且记录他们关于特定建议的赞成和反对投票。从用户���然而,我们记录了对专家推荐注释的赞成票(9,10,11)和反对票(9,8,7)。 每当作者接受来自专家的推荐注释时������,记录可信度分数。 我们使用伯努利参数的Wilson评分置信区间来归一化和汇总记录的评分,参见等式。(1)。建议注释为“总得分”的每个专家的自信和作者可信度得分������为(0.458,0.381,0.518)。最后,������������������������在总得分上应用()函数以获得每个专家注释获得的最大得分������,其为0.518。最后,高熟练度和排名注释被推荐给作者为相同的过程被应用于另一生物医学内容3. 结果和讨论30人参与了我们提出的模型。我们通过社交媒体请求重新审查参与者,并要求他们参与研究。我们还2������(+2 ±������2���[(1 −)+2������])将参与者分类为具有计算机和生物科学背景的最研究生水平的学生。���������������������������������=在哪里22√2���(1+2)���4(一)因此,我们考虑了一组30篇文章pubmed.org [13],并将其随机分发给参与者。同样,我们提供了系统的用户手册以及有关系统使用的预先录制的视频之后,我们要求每个参与者在“语义知识咖啡馆”上生成���̂=(∑+���)/(���)(2)=1���������=∑ ∑(+������������=0���并且,������ 是标准正态分布的(1−)分位数二两分布在Equ.(1),是社区用户对来自作者的正确注释的帖子的专家响应的赞成票(+)除以总票数(+,−)的总和,������������������(2)。同样地,n是upvote和downvote(+,-)的数量之和,参见等式。���(3)和���他们喜欢寻求社会帮助的生物医学内容注释我们的参与者总共向系统提交了140个问题 所有参与者还记录了他们从他们收到的建议中获得的1到10之间的信心分数,作为满意度分数。 因此,我们的系统记录了421对140个问题的专家用户的答复。同样,针对建议注释也记录了2929和3149张赞成票和反对票。表1说明了参与者及其答复。表1用于实验目的置信度是指统计置信水平:选择0.95,我们的下限有95%的概率是正确的。然而,该函数中的z分数是固定的。同样地,数据归一化公式(参见Equ.(4))对每个专家的可信度得分和作者的可信度得分下游采用0和1之间的值。������=(������−��������� (���))/(���������(���) − (���)) ∗ Q (4)������������其中是数据集中的归一化值������哪里������is the������ℎ value in the dataset e.g the user confidence得分 类似地,()是���������例如,1和10之间的最小值是1,所以()= 1,()是数据集中的最大值,例如,1和10之间的最大值是10,所以()= 10。��������������������� 因此,平均值标题号参与者人数30文件编号30职位140响应421第2929章投票不支持31493.1. 性能测量:初步语义充实在满足NCBO Bioportal的初始级别语义信息后,我们分析了以下的n-gram策略的内容。这一战略对于生物医学至关重要-���̂ =1∑��� ������applied on Wilson score, normalize the������=0调用单词或概念边界检测过程。一组���������图2:语义注释优化方法的统计过程图3:采用N元语法策略的生物医学术语的初始级语义注释性能30 pubmed.org [13]文章在初始级别进行处理从而获得n-gram-5范围内的注释生物医学术语随后仔细检查,我们发现所提出的注释系统识别的n-gram-1的生物医学术语在数量上高于n-gram-2至n-gram-5。非常少的生物医学术语识别n-gram-5,参见图3。然而,−> 1的生物医学术语在上下文上向用户提供了额外的有意义和连贯的信息������������例如,与诸如“压力”、“血液”、“冠状动脉”等单个术语相比,“血压高”、“他患有冠状动脉疾病”和“肝功能测试正常”是更有意义的随着−字长的增加,复合词的准确性会降低,如图3所示。������������因为所提出的系统采用精确词匹配到术语(Bioportal)方法,所以精确词匹配方法的主要特征是单个词比组合或复合词更精确地匹配3.2. 性能测量:基于知识共享的语义丰富优化来自学术界的教授级领域专家参与基于他们的知识和经验手动评估这些结果之后,计算在社会技术语义注释优化之前和在社会技术语义注释优化之后的语义注释的系统级准确性方法图4。记录文档X轴上的图4表示处理的30个文档的数量相比之下,左侧的Y轴表示没有社会技术方法的准确性水平,右侧的Y轴表示社会技术方法的准确性水平因此,审查的结果,一个系统的社会技术的方法比没有一个社会技术在文件层面上表现得更好。直到九个文件获得了90%的高准确度,三个文件获得了87%的较低准确度,并且最大数量的文件获得了87%和90%之间的准确度,社会技术方法见图4:社会技术注释推荐的系统级性能图4同样,一个文档产生了73%的高准确度,五个文档获得了65%的低准确度,并且在没有社会技术方法的情况下,最大文档数量在65%至73%的范围内获得总的来说,所提出的注释优化社会技术系统仍然是赢家,通过获得高精度的每个文档相关的没有社会技术。3.3. 语义工作空间:语义标注优化演示最初,作者能够在编辑器中导入或编写生物医学内容,并单击注释按钮以获得初步注释,参见图5。具有绿色的下划线单词呈现注释的术语,随后当作者选择任何术语时,下划线颜色变为粉红色,并且“需要帮助”选项出现在左侧面板上以供作者参考, 在点击“需要帮助”之后,打开界面,在该界面中,作者可以从专家那里编写查询,以获得对明确术语的推荐注释图5(b)。 此外,作者还可以使用主要选项进行快速查询。当作者点击“”按钮时������������������������如图5(c)所示每当用户������点击“SemanticallyKnowledge Cafe”时,新发布的查询就会出现,如图5(d)所示。 现在,如果用户知道发布的查询的答案,则他/她能够点击������������������“”按钮以回复作者发布/查询,如图5(d)所示。随后,用户用记录的自信分数回复帖子,现在该用户的角色被认为是领域专家。同样,一个光滑的具有可能选项的接口可供专家用于回复帖子。 随后由专家用精确注释回复作者帖子,同时其他社区用户������能够放弃对图5(e)中所示的专家回复帖子的赞成票或反对票。最后,如图5(f)所示,通过聚合威尔逊得分和专家自信得分来向作者生成高质量注释推荐通知。每当作者点击现在,这里允许作者接受推荐的注释或拒绝,在接受注释时,将1-5之间的可信度得分记录到作者简档,反之亦然,不将类似地,通过接受推荐的注释,特定术语的初始注释被推荐的注释替换,从而注释优化过程完成图5(g)。4. 结论该研究推进了最先进的生物医学语义研究和系统,使各种生物医学用户能够在不需要先前技术技能的情况下创作上下文感知内容。提出了一种开箱即用的社会技术语义注释优化方法,以自动化语义丰富机制并发现精确的语义注释,同时保持原始内容创建者处于循环中。最终用户使用类似于MS Word编辑器键入/写入生物医学内容的创作界面来促进。为了满足内容级别的初步语义注释或丰富,我们利用了Bioportal端点API并自动化了用于自动化的配置过程。图5:语义注释优化和丰富演示界面。thors. 类似地,设计了语义注释优化方法,其中作者可以发布他们的查询以用于优化的注释推荐。在我们未来的工作中,我们计划扩展后端知识图并应用神经 图 网 络 。 语 义 注 释 优 化 系 统 可 在https://gosemantically.com获得。致谢这项工作得到了国家科学基金会资助ID:2101350的支持引用[1] 上午Abbas,S.楼Mbouadeu,F. Keshtkar,J. 德贝罗美国上午梭Bukhari,使用整体语义提升方法编辑和共享生物医学学术文章,在:国际FLAIRS会议论文集,第35卷,2022年。[2] 美国上午梭Bukhari,Semantic enrichment andsimilarityapproximationforbiomedicalsequence images,Ph.D.论文,新不伦瑞克大学(加拿大),2017年。[3] 下午Warren,J.Davies,D.布朗,语义网-从愿景到现实,信息通信技术的未来:提供普遍的,实时的和安全的服务(2008年)55-66。[4] 上午Abbas,M. Afzal,J. Hussain,S.李,从非结构化临床文档中提取有意义的信息,Proc.亚太地区Adv. Netw 48(2019)42-47.[5] 克雷Hasida,Semantic authoring and semanticcomputing , in : New Frontiers in ArtificialIntelligence,Springer,2003,pp.137-149[6] 大肠Tseytlin,K.Mitchell,E.Legowski,J.科里根例如恰旺河美国Jacobson,[7] 梭Funk,W.鲍姆加特纳湾加西亚角罗德先 生 巴 达 湾 芽 孢 科 恩 湖 大 肠 Hunter , K.Verspoor , 大 规 模 生 物 医 学 概 念 识 别 : aevaluation of current automatic annotators andtheir parameters , BMC bioinformatics 15(2014)1-29.[8] 学 位 Campos , S.马 托 斯Oliveira , Amodularframeworkforbiomedicalconceptrecognition, BMC bioinformatics 14(2013)1[9] J. Jovanović,E. Bagheri,Semantic annotationin biomedicine:当前的景观,生物医学语义学杂志8(2017)1-18。[10] 梭Jonquet,N.沙阿角杨角Callendar,M.上午Storey,M. Musen,Ncbo注释者:生物医学数据的语义表示法,在:国际Se-mantic Web会议,海报和演示会议,第110卷,华盛顿特区,美国,2009年。[11] J. Cuzzola , J. Jovanović , E. Bagheri ,Rysannmd:生物医学语义注释器平衡速度和准确性,生物医学信息学 杂志71 ( 2017 ) 91-109。[12] 美 国 楼 Mbouadeu , A. Abbas , F. Ahmed , F.KeshtkarJ. De Bello , S. 上 午 梭 Bukhari , Towardsstructured biomedical content authoring andpublishing,in:2022年IEEE第16届语义计算国际会议(ICSC),IEEE,2022年,pp.175-176[13] PubMed,国家生物技术信息中心,2022。https://pubmed.ncbi.nlm.nih.gov/。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功