没有合适的资源?快使用搜索试试~ 我知道了~
实体网络:基于上下文的语料库探索
278ECCE:基于语境隐式网络摘要Julian Schelbjulian. uni-konstanz.de康斯坦茨大学德国康斯坦茨omanello@unil.ch瑞士洛桑大学莫德·埃尔曼Maud. epfl.ch瑞士洛桑联邦理工学院Andreas Spitzandreas. uni-konstanz.de康斯坦茨大学德国康斯坦茨可扩展的神经语言模型已经能够处理在数字时代,对非结构化文档集的分析和探索对于投资专业人员来说至关重要,无论他们是学者、记者、律师还是分析师。在它们的许多领域中,实体在发现文档内容之间的隐含关系方面发挥着关键作用,因此可以作为详细手动分析的自然入口点,例如新闻中的原型5W或金融中的股票符号。 为了帮助这些分析,以实体为中心的网络已被提出作为一种语言模型,表示文档集合作为实体和术语的共现图,从而使语料库的可视化探索。在这里,我们提出了ECCE,一个基于Web的应用程序,实现以实体为中心的网络,增强他们的上下文语言模型,并为用户提供上传,管理和探索文档集合的能力。 我们的应用程序可以作为基于Web的服务在www.example.com上http://dimtools.uni.kn/ecce。CCS概念• 计算方法学→信息提取;·信息系统→文档表示。关键词实体网络,共现网络,语料库探索ACM参考格式:Julian Schelb,Maud Ehrmann,Matteo Romanello,and Andreas Spitz.2022. ECCE:使用上下文内隐网络的以语义为中心的语料库探索。 在网络会议2022(WWW '22同伴)的同伴程序,2022年4月25日至29日,虚拟活动,里 昂 , 法 国 。 ACM , 美 国 纽 约 州 纽 约 市 , 4 页 。https://doi.org/10.1145/3487553.35242371引言越来越多的信息以非结构化文本的形式被创建、存储和传播近年来本 作 品 采 用 知 识 共 享 署 名 国 际 协 议 ( Creative Commons AttributionInternational)授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.3524237这一信息在以前不可行的规模。然而,在大语言数据不可用或不直接适用的较小环境中,仅凭这种语言模型还不能完全取代人类在知识获取方面的调查技能。因此,在从文档集合中获得见解时,通常需要将人类纳入循环的半监督方法。这种调查的一个共同点是对语料库的初步探索,这往往依赖于将文档、主题或实体关系可视化为网络或图形,以链接文档内和文档之间的信息。基于图形的索引和可视化工具的好处是巨大的,并已在新闻调查[5,17],政治和社会科学[8]或数字人文[6]等不同领域得到强调。支持基于图的探索的一种通用类型的语言模型是隐式实体模型[16,17],其已被证明在提取实体关系[14]和新闻领域[15]中的主题在这里,我们介绍ECCE,一个基于Web的应用程序,使用隐式网络表示的交互式探索包含英文文本的文档集合。 与以前的贡献相比,它采用了与领域无关的方法,并作为一个端到端的Web工具,用户可以在其中上传,注释和探索自己的语料库。捐款. 我们做出三个主要贡献。我们实现了一个Web服务的用户定义的文档和语料库的端到端的隐式网络探索我们演示了如何利用上下文语言模型来改进隐式实体网络。我们提出了按需聚类的边缘上下文,以支持通过最大限度地减少预计算的交互式探索。2相关工作由于文本数据分析领域的多样性,在文献中可以找到许多相关的应用交互式注释。有几个工具通过在线用户界面促进了语料库的交互式注释。例子包括ET,它使用户能够编辑,注释和查询语料库并评估注释的质量[1]。类似地,TALEN是一个用于交互式注释语料库中低资源实体的Web界面 [10]。与ECCE相比,上述工具提供注释功能作为主要功能,而我们仅将其用作促进以实体为中心的语料库探索的手段。···WWWJulian Schelb、Maud Ehrmann、Matteo Romanello和AndreasSpitz279VE∈VI.知识库整合。为了利用或扩展结构化信息,一些方法包括特定于领域的知识库。CurEx [9]识别非结构化文档中的实体,基于同现确定关系强度,并将它们链接到知识库中的实体以生成可探索的实体网络。 SEMANNOREX通过将实体链接到本体来支持语义丰富的新闻搜索,然后使用本体的结构来获得检索操作的语义相似性得分[7]。与幼儿保育和教育不同,这些工具不关注语料库中描述的隐含实体关系基于图形的主题建模。 主题是文档分析的主要内容,对于主题的可视化探索,- ten命名实体起着重要作用。 ContraVis演示了使用视觉主题建模来比较语料库[8]。 Nodus为词共现网络提供网络分析功能,并采用社区检测来识别主题[12]。与ECCE最密切相关的以主题为中心的方法是TopExNet [15],它在纠缠的新闻流中可视化图形主题,但不允许用户使用自己的文档数据。内隐关系的探索。实体间的隐性关系是语料库研究的一个重点 Receptor是一个通过图搜索提取敏感语料库中实体和事件之间隐式关系的平台[11]。在新闻领域中,关注实体的联合出现很快导致事件的检测,这些事件通常描述在特定地点和时间的人TiCCo是一个工具,用于基于图形的时间探索新闻中的此类事件[3]。类似地,EVELIN [14]支持通过分面搜索从新闻文章和维基百科文本中检索基于图的实体、它们的关系和隐含描述其他一些作品关注更窄的领域,例如分析新闻文章中共同出现的公司之间的关系[5]。与上述工具和方法相比,幼儿保育和教育不仅关注提取和探索,而且关注用户注释和探索其文档的综合管道。3理论背景ECCE是使用隐式实体网络[16]和上下文隐式实体网络[17]构建的,用于语料库表示和索引。我们简要描述了这些模型的基本直觉隐式实体网络(IEN)。IEN被提议作为实体,术语以及包含它们的句子和文档的联合表示,以实现交互式以实体为中心的检索[16]。从概念上讲,IEN是实体共现网络,其中节点对应于文档中的实体每个实体都与一个实体类型相关联,并且实体在实体名称和类型上是唯一的实体之间的边由同现距离δ的逆指数加权(通常以句子为单位计数)。 为了表示完整的语料库,实体v、w之间的平行边在它们共现的所有实例v、w上被聚合,以导出边权重ω,图1:上下文隐式实体网络构建的示意性概述。(A)实体被提取为节点,边权重从共生距离δ导出。上下文用于计算文本嵌入κ。(B)具有相似上下文的边被聚合,它们的权重被组合到ω,并且上下文被平均。(C)从语料库中的所有同现创建联合网络当实体在多个不同的上下文中共现时,在所有共现上下文中的聚合是有问题的。上下文隐式实体网络(CIEN)。 为了解决不同上下文中实体同现的模糊性,CIEN被构建为考虑上下文[17]。 代替聚集所有平行边,两个给定实体之间的各个边被归因于上下文嵌入κ,该上下文嵌入κ从同现窗口中的文本导出。 使用某种适当的相似性度量(例如, 余弦相似性)和算法(上下文的数量是先验未知的,因此基于密度的聚类,如DBSCAN [2]是明智的)。只有具有相似上下文的边才被聚合,使得所得到的网络保留一些平行边。有关概述,请参见图1。神经背景嵌入。在CIEN的原始实现中[17],边缘上下文是通过对上下文窗口中所有单词的静态word2vec嵌入进行平均来导出的。为了利用神经语言建模的进步,我们使用Transformer模型[13]直接从整个上下文窗口作为输入来计算上下文句子嵌入。边缘上下文的按需聚合。在默认实现中,当添加文档时,在CIEN中的平行边在预计算期间被聚合,这是昂贵的,因为大量的同现与上下文窗口内的实体的数量成二次方在实践中,我们观察到大多数关系将永远不会被用户探索,所以用一个IEN表示代替一个CIEN表示就足够了。因此,作为一种计算效率高的替代方案,我们提出了按需聚合的边缘,其中只有一个边缘被添加到图形可视化中的任何两个相邻的实体之间,直到这个实体对的上下文被探索,在这个时候,所选择的边缘的上下文根据需要被聚合。ω(v,w)=i∈Iv,wexp−δi(v,w).(一)4系统架构基于上述方法,我们描述了系统架构,由于指数衰减的权重,考虑固定大小c的某个上下文窗口内的同现就足够了。该方法在交互式探索中表现良好用于提取、显示文档语料库的上下文隐式实体网络表示并与之交互的结构有关系统的概述,请参见图2。ECCE:基于语境隐式网络的以语义为中心的语料库研究WWW2804.1文档数据库对于文档和语料库的存储,我们使用MongoDB作为以文本为中心的NoSQL数据库。 文档被分组为corpora并被分配唯一的对象标识符,用户可以使用这些标识符在以后检索、操作或删除数据。数据以JSON格式传入和传出数据库我们还使用数据库缓存文档注释,以避免昂贵的重复计算和手工注释数据的丢失4.2NLP和ML模块对于数据的处理,我们使用了四个主要模块:(1)文本预处理和命名实体标注,(2)句子嵌入,(3)隐式网络提取;(4)边缘聚类。文本预处理和注释。对于分割、标记、停止词检测和命名实体识别,我们使用Python包spaCy。在它的标签集中,我们使用person、org、gpe、norp、loc和work_oF_Art作为默认值。用户还可以激活针对证书、数据、金钱、产品、时间、百分比、数量、偶数、订单、发票、发票和发票的标记。句子嵌入。我们采用上下文语言模型来计算实体同现的上下文嵌入。具体来说,我们使用了预训练版本的pathence-BERT [13],该版本在Python包句子转换器中实现,具有Huggingface的multi-qa-distilbert-cos-v1模型。隐式网络提取。 对于IEN的提取(在添加上下文嵌入之前),我们实现了原始算法的Python版本[16],我们也将其作为单独的Python包1提供。 网络数据以JSON格式传递到前端。默认情况下,我们使用大小为c = 2的上下文窗口来确定每侧的同现,但用户可以调整此值。边缘聚类。 遵循最初提出的在CIEN中聚类边缘的方法,我们使用DBSCAN [2],如sklearn Python包中所实现的。我们指定余弦距离作为度量,并设置ε = 0。最小样本量为1。4.3后端后端作为RESTful Web服务运行,通过提供用于语料库管理、文档注释和实体网络提取的API端点,将数据库和NLP模块连接到前端。它使用Python包Flask实现。编程逻辑与前端完全解耦,可以通过使用标准化API端点的外部应用程序来服务HTTP请求。因此,后端允许跨机器分布和共享模块,这在考虑NLP模块中语言模型的GPU要求时对于可扩展性特别有用。4.4Web前端ECCE的前端使用Vue.js实现为Web界面,由三个主要视图组成:文档和语料库管理,注释接口和网络探索(有关详细信息,请参阅第5节)。对于交互式UI元素和实现响应式布局,我们使用BootstrapVue库。可视化1https://pypi.org/project/implicit-word-network/图2:应用程序架构的示意图在CIEN中,我们使用JavaScript库D3。 前端和后端之间的通信是通过HTTP请求处理的。应用程序本身是无状态的,服务器端存储和检索文档依赖于唯一标识符,我们使用MongoDB5功能和演示在下文中,我们通过描述一个典型的使用场景来展示应用程序的功能,该场景分为三个部分:主要阶段如图3所示:(A)上传文档和管理语料库,(B)注释文档,以及(C)探索提取的上下文隐式实体网络。幼儿保育和教育可作为网络演示,包括使用说明(关于URL,我们请读者参阅摘要)。A:文档上传和语料库管理。 我们设计了ECCE,允许用户分析自己的文档和语料库,无论是通过输入文本输入还是通过上传CSV文件中的纯文本。 所有文档都存储在基础数据库中,并分配一个唯一的标识符,以便以后通过提供此标识符对其进行检索和编辑。我们刻意依赖于一个无登录方案,以避免用户管理的必要性,并允许用户之间轻松而安全的数据共享。B:文档注释。 一旦用户创建或上传并编辑了所有文档,他们就可以进入命名实体识别阶段。 命名实体注释是自动建议的,在文本中突出显示,并按类型进行颜色编码。此外,停止词和标点符号标记被检测到(因此它们可以在实体网络的构造期间稍后被丢弃)。由于已知即使是最先进的实体识别在最好的情况下以及在来自充分研究和流行领域的数据上也容易出错[4],因此用户还可以选择纠正所有注释,这些注释可以被添加,删除或给定不同的实体类型。必要时,可以合并单个标记以反映复合或嵌套实体。C:实体网络探索。 一旦用户对注释感到满意,注释的文档将用于构建整个语料库的CIEN,然后使用力导向图布局将其显示给用户。节点通过实体类型进行颜色编码,并且实体在语料库中出现的频率通过使用线性缩放的节点大小来表示。实体WWWJulian Schelb、Maud Ehrmann、Matteo Romanello和AndreasSpitz281图3:幼儿保育和教育的Web界面(A)文档可以单独添加、编辑和删除,也可以通过上传文本文件批量导入(B)显示文档的命名实体注释(使用spaCy计算),并且可以编辑、删除或合并到复合实体中。(C)使用力导向布局可视化提取的实体网络,允许在上下文中探索实体同现。实体类型被编码为节点颜色,边宽度表示实体之间的关系强度。并行边在探索过程中按需聚类,使用神经上下文语句嵌入其上下文作为特征。可以查看文档出处的出现(节点)和同现(边)。在语料库中共现的两条边由边连接,边的宽度和不透明度对应于第3节中介绍的IEN边权重。这使得用户能够识别语料库中的高重要性实体以及它们之间的关系当一个节点被点击时,有关相应实体的更多细节将显示出来,包括出现该实体的句子和文档。当选择边时,如第4节所述,共现上下文按需自动聚类,并且为事件实体出现的所有检索到的上下文聚类显示出处信息,同样包括句子和文档。文档的文本内容显示在单独的窗格中,因此用户可以同时探索网络和文档中的实体关系。由于隐式网络可能会增长到不方便的大小或密度时,较大的文档集合作为输入,我们提供了过滤网络视图的显示选项默认情况下,我们显示150个最频繁出现的实体和所有边,但实体频率和边权重的阈值可以通过两个滑块进行调整。或者,可以应用过滤器来仅显示特定类型的实体。三个阶段之间的导航是连续的,以使用户能够更新注释或文档。6总结和展望我们提出了ECCE,这是一个利用上下文隐式实体网络探索用户定义文本语料库的Web应用程序,我们对其进行了调整,以利用预先训练的上下文语言模型。 我们的工作证明了隐式实体网络的实用性,将非结构化文本转换为结构化和易于探索的网络表示。通过引入基于上下文的同现边的按需聚类,我们减轻了隐式实体网络的运行时约束,并确保在探索过程中的交互响应时间。正在进行的工作。 我们正在致力于集成替代实体识别库和标签集,并包括用于其他语言的预训练语言模型。 我们的目标是进一步提高幼儿保育和教育的多功能性,作为一种工具,探索来自任意领域和语言的文本数据。引用[1] Elvis de Souza和Cláudia Freitas2021年ET:一个用于注释语料库查询、编辑和评价的工作站在EMNLPhttps://doi.org/10.18653/v1/2021.emnlp-demo.5[2] Martin Ester,Hans-Peter Kriegel,Jörg Sander,and Xiaowei Xu.一九九六年。 一种基于密度的含噪声大型空间数据库聚类发现算法。在KDDhttps://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf[3] 菲利普·豪斯纳,丹尼斯·奥米勒,迈克尔·格茨。2020. TiCCo:以时间为中心的内容探索。在CIKMhttps://doi.org/10.1145/3340531.3417432[4] Jiaxin Huang , Chunyuan Li , Krishan Subudhi , Damien Jose, ShobanaBalakr- ishnan , Weizhu Chen , Baolin Peng , Jianfeng Gao , and JiaweiHan.2021.少 数 命 名 实 体 识 别 : 一 项 经 验 基 线 研 究 。 在EMNLPhttps://doi.org/10.18653/v1/2021.emnlp-main.813[5] Thomas Kellermeier,Tim Repke,and Ralf Krestel. 2019. 从股票和新闻中挖掘商业关系。在PKDD '19的 MIDAS研讨会上http://doi.org/10.1007/978-3-030-37720-5_6[6] Florian Kerschbaumer , Linda von Keyserlingk-Schubein , Martin Stark 和MartenDüring。2020年。网络的力量:历史网络研究的前景。劳特利奇。 https://doi.org/10.4324/9781315189062[7] Amit Kumar,Govind,and Marc Spanish. 2021.通过语义类型的语义搜索:SEMANNOREX框架。在WWW https://doi.org/10。1145/3442442.3458607[8] Tuan Le和Leman Akoglu。2019年。ContraVis:用于比较文档集合的对比和视觉主题建模。在WWWhttps://doi.org/10.1145/3308558.3313617[9] MichaelLoster , FelixNaumann , JanEhmueller , andBenjaminFeldmann.2018年CurEx:A System for Extracting,Curating,and ExploringDomain-SpecificKnowl-edgeGraphsfromText.在CIKMhttps://doi.org/10.1145/3269206.3269229[10] 斯 蒂 芬 · 梅 休 和 丹 · 罗 斯 。 2018 年 TALEN : 低 资 源 实 体 标 注 工 具 在ACLhttps://doi.org/10.18653/v1/P18-4014[11] Hitarth Narvala,Graham McDonald,and Iadh Ounis.2020年。Receptor:一个探索敏感文档中潜在关系的平台。在SIGIRhttp://doi.org/10.1145/3397271.3401407[12] 德米特里·帕拉纽什金2019年。Nodus:Generating Insight Using Text NetworkAnalysis.在WWWhttps://doi.org/10.1145/3308558.3314123[13] 尼尔斯·赖默斯和伊琳娜·古雷维奇2019年。Sentence-BERT:使用Siamese BERT网络的句子嵌入。在EMNLPhttps://doi.org/10.18653/v1/D19-www.example.com[14] 安德烈亚斯·斯皮茨,萨蒂亚·阿尔马西安,迈克尔·格茨。2017年。EVELIN :ExplorationofEventandEntityLinksinImplicitNetworks.在WWWhttp://doi.org/10.1145/3041021.3054721[15] 安德烈亚斯·斯皮茨,萨蒂亚·阿尔马西安,迈克尔·格茨。2019. TopExNet:新闻流中以实体为中心的网络主题探索. 在WSDMhttp://doi.org/10.1145/3289600.3290619[16] 安德烈亚斯·斯皮茨和迈克尔·格茨。2016年。负载上的术语:利用命名实体进行跨文档提取和事件摘要。在SIGIRhttps://doi.org/10.1145/2911451.2911529[17] 安德烈亚斯·斯皮茨和迈克尔·格茨。2018年 在纠缠的新闻流中探索以安全为中心的网络。在WWWhttps://doi.org/10.1145/3184558.3188726
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功