VerSe2020数据集介绍
时间: 2023-10-30 20:06:42 浏览: 367
数据集介绍1
VerSe2020是微软公司于2020年发布的一个大规模多语言语义理解数据集。该数据集包含了12种不同语言的文本数据,涵盖了新闻、维基百科、社交媒体等多种语料类型,总计超过20亿个标记。VerSe2020的目标是为多语言NLP研究提供一个丰富的训练和评估平台,为全球范围内的NLP技术发展做出贡献。
VerSe2020的语言覆盖范围包括英语、阿拉伯语、迪维希语、荷兰语、芬兰语、法语、德语、希伯来语、意大利语、挪威语、葡萄牙语和西班牙语。每种语言的数据量都达到了数百万级别,其中英语数据量最大,达到了18亿个标记。
VerSe2020数据集的标注方式是基于框架的,包括实体、关系、事件等多种注释类型。该数据集还提供了多个基准任务,如命名实体识别、关系提取、文本分类等,方便研究者进行模型训练和性能评估。
阅读全文