CCKS2019医疗实体识别与属性抽取任务详解

需积分: 0 155 浏览量更新于2024-08-04 收藏 891KB DOCX 举报

"CCKS2019任务1是一个关于医疗命名实体识别和属性抽取的挑战，旨在从中文电子病历中抽取出与医学临床相关的实体，包括疾病、检查、检验、手术、药物和解剖部位等。该任务分为两个子任务：1) 医疗命名实体识别，2) 医疗实体及属性抽取（跨院迁移）。参赛者可以选择单独参加任一子任务或同时参加两个。任务以预定义类别为指导，提供了经过修订的数据集，由医渡云公司提供并标注。评价标准基于精确率、召回率和F1-Measure。" 在这个任务中，【医疗命名实体识别】是一个关键知识点，它要求系统能够从电子病历的文本中准确地识别出特定类型的实体，例如疾病诊断、检查、检验、手术、药物和解剖部位。这需要模型理解医学术语和上下文，因为这些实体常常具有高度的专业性和复杂性。为了实现这一目标，可能需要利用自然语言处理（NLP）技术，如词性标注、依存关系分析和命名实体识别算法。【迁移学习】是另一个重要的标签，表明参赛者需要在目标场景（此处是医疗实体及属性抽取）中应用已有的知识，即使在目标场景的标注数据有限的情况下。这通常涉及到使用预训练模型，例如在大规模数据集上训练的语言模型，然后在特定领域的小型数据集上进行微调，以适应医疗领域的专业词汇和表达。【数据集】的描述强调了数据的来源和质量，医渡云公司的专业医学团队进行了人工标注，确保了数据的准确性。这对于训练和评估模型至关重要，因为高质量的标注数据是机器学习任务成功的基础。数据集的详细描述和标注规范会随着数据的发布一同提供，这对于参赛者理解和处理数据至关重要。【评价指标】包括精确率、召回率和F1-Measure，这些都是衡量信息抽取任务性能的标准方法。精确率衡量识别出的实体中有多少是正确的，召回率表示所有真实实体中有多少被正确识别，而F1-Measure综合了精确率和召回率，是评估整体性能的关键指标。在医疗领域，高精度尤为重要，因为错误的识别可能导致严重的医疗决策失误。

面向中文电子病历的医疗实体识别及属性抽取

本任务是 CCKS 围绕中文电子病历语义化开展的系列评测的一个延续，在

CCKS 2017，2018 医疗命名实体识别评测任务的基础上进行了延伸和拓展。

包括两个子任务：1）医疗命名实体识别：由于国内没有公开可获得的面向

中文电子病历医疗实体识别数据集，本年度保留了医疗命名实体识别任务，对

2017 年度数据集做了修订，并随任务一同发布。2）医疗实体及属性抽取（跨

院迁移）：在医疗实体识别的基础上，对预定义实体属性进行抽取。本任务为

迁移学习任务，即在只提供目标场景少量标注数据的情况下，通过其他场景的

标注数据及非标注数据进行目标场景的识别任务。

参赛队可同时选择两个子任务参赛，也可选择任一一个子任务单独参赛。

一、医疗命名实体识别

1. 任务定义及描述

对于给定的一组电子病历纯文本文档，任务的目标是识别并抽取出与医学

临床相关的实体提及（entity mention），并将它们归类到预定义类别（pre-

defined categories），比如疾病、治疗、检查检验等。

1.1 形式化定义

输入：

1.电子病历的自然语言文本

集合：

𝒟

{

𝑑

,⋯

𝑑

𝑁

}

𝑑

𝑖

〈

𝑤

𝑖1

,⋯

𝑤

𝑖𝑛

〉

2.预定义类别：

𝐶

{

𝑐

,⋯

𝑐

𝑚

}

输出：

实体提及和所属类别对的集合：

{

〈

𝑚

𝑐

𝑚

〉

〈

𝑚

𝑐

𝑚

〉

,⋯

〈

𝑚

𝑝

𝑐

𝑚

𝑝

〉

}

其中

𝑚

𝑖

〈

𝑑

𝑖

𝑏

𝑖

𝑒

𝑖

〉

是出现在

文档

𝑖

中的医疗实体提及（mention），

𝑏

𝑖

和

𝑒

𝑖

分

别表示

𝑚

𝑖

在

𝑑

𝑖

中的起止位置，

𝑐

𝑚

𝑖

∈

𝐶

表示所属的预定义类别。要求实体提及之

间不重叠，即

𝑒

𝑖

𝑏

𝑖

。

1.2 预定义类别

预定义类别定义如下：

下载后可阅读完整内容，剩余4页未读，立即下载

chenbtravel

粉丝: 28
资源: 296

CCKS2019医疗实体识别与属性抽取任务详解

用例描述模板 V21

SyncToySetupPackage_v21_x64.rar

配置用例RUCM文本描述_v21

请求响应用例RUCM文本描述_v21

数据库增加用例RUCM文本描述_v21

V21

s1clone v21 software

multishop_v21_sp1

legion v21

DevExpress V21

最新资源