"NKCorpus：构建大型高质量中文数据集支持深度学习"

版权申诉

10 浏览量更新于2024-02-20 收藏 477KB DOCX 举报

NKCorpus是一个利用海量网络数据构建的大型高质量中文数据集，在近年来随着深度学习的发展，预训练语言模型（PLM）的研究取得了巨大进展。与有监督学习相比，预训练语言模型能够充分利用大规模的无标注数据学习通用语言特征，且仅需要通过少试、单试甚至零试学习就能完成各项自然语言处理下游任务，具备一定的常识和认知泛化能力。随着PLM的快速发展，除模型结构、模型规模外，大规模高质量的训练数据对模型效果的提升起到了关键作用。PLM使用的训练数据通常来源广泛、内容丰富，具有数十GB到数TB的规模。然而，仅靠庞大的数据规模并不能保证模型的训练效果，还需要数据拥有较高的质量和可靠性。因此，对于大型PLM及其他自然语言处理模型来说，使用大规模高质量的中文数据集进行训练至关重要。在目前的PLM相关工作中，一些开源的大规模高质量英文数据集已被广泛使用，但开源的大规模高质量中文数据集却相对较少。 NKCorpus的出现填补了这一空白，它依托海量网络数据构建了一个大型高质量的中文数据集，为中文自然语言处理领域的研究和应用提供了重要的支持。该数据集的构建遵循了严格的质量控制标准，确保其中的内容准确、丰富，并且涵盖了广泛的主题领域。NKCorpus的规模庞大，让各种类型的模型都能从中受益，不论是传统的机器学习模型还是最新的深度学习模型。对于研究者而言，NKCorpus提供了一个极为有价值的资源，可以用来训练各种自然语言处理模型，从而在不同的任务上取得更好的表现。由于数据集的质量高，研究者们可以更加放心地使用这些数据进行实验和验证，提高他们研究成果的可信度。而对于工程师和开发者来说，NKCorpus则是一个宝贵的工具，可以用来构建各种应用程序，从智能对话系统到文本分析工具，都可以在这个数据集的基础上展开研发，快速推出市场。总之，NKCorpus的出现为中文自然语言处理领域注入了新的活力，为研究和应用提供了全新的可能性。它的质量和规模都达到了业界领先水平，将成为众多研究者和开发者在日常工作中不可或缺的资源。相信随着更多人开始使用NKCorpus，它将会不断发挥出更大的作用，推动中文自然语言处理领域的持续发展。

时间

英文

俄文

德文

中文

10 月

45.40%

6.80%

5.68%

4.83%

11/12 月

46.25%

5.99%

5.41%

5.30%

新窗口打开| 下载 CSV

此外,网络数据中可能存在色情、暴力、反动和其他类型的不良文本,对构

建一个良好的、正向的模型有极大的负面影响。再者,内容转载、引用、抄袭

等现象导致网络数据重复率非常高,也会降低最终获取数据集的多样性。网络

中存在的大量不成文或随机输入的文本也会大大降低数据集的质量。针对以上

问题,需要设计出细致完善的方案对不良、重复数据进行删除,以提高数据集的

质量。

3 框架设计

本文设计了一种流水线式的数据处理框架 NKCorpus,该框架可以从海量

的原始网络数据中构建规模较大、内容覆盖较广、质量较高的中文数据集。

NKCorpus 采取了模块化的功能设计,数据处理流程可从任意步骤灵活开始或

结束,以适应不同下游任务训练数据集的构建需求。本章将详细介绍 NKCorpus

的处理流程以及每个步骤的具体解决方案。

3.1 整体流程

图 1 展示了 NKCorpus 的整体处理流程,共包含六个模块：

图 1

剩余26页未读，继续阅读

罗伯特之技术屋

粉丝: 4409
资源: 1万+

"NKCorpus：构建大型高质量中文数据集支持深度学习"

数据量大的设计.docx

海量数据库设计与开发.docx

海量数据的处理及优化.docx

"linkUrl ": [ {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, ] 遍历这个数组

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚复制到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，请注意验证你提供的代码中的方法，麻烦给我源码。

raise PackageNotFoundError( docx.opc.exceptions.PackageNotFoundError: Package not found at 'example.docx'

AttributeError: module 'docx.oxml.text.paragraph' has no attribute 'Paragraph'

.docx文件在vscode打开后。.docx文件发生了错误

海量数据管理课程大作业.docx

最新资源