领域网站本体驱动的自动语料库构建与优化

需积分: 8 58 浏览量更新于2024-08-08 收藏 1012KB PDF 举报

在2014年的《山东农业大学学报(自然科学版)》上，发表了一篇题为"关于领域语料库的研究"的文章，作者何焱和丁玲分别来自遵义医药高等专科学校和哈尔滨工业大学深圳研究生院。论文背景指出，在网络信息爆炸的时代，分类技术的应用越来越广泛，然而这些技术的成功依赖于高质量的标准语料库，而这通常是通过耗时的人工标注过程来获取的，这导致了开发周期长、工作负担重，且分类模型的调整不灵活。该研究旨在解决这一问题，探索如何利用各领域网站的本体结构来自动化地收集和处理语料。本体结构是一种描述领域知识的语言框架，它有助于理解文本的内在逻辑和关系。作者提出了一种方法，即通过分析网站的结构，提取与特定领域相关的文本数据，并将其按照预先定义的分类体系进行组织和清洗，以提高语料的质量和一致性。这种方法有望缩短语料库的开发时间，降低人力成本，并使得分类系统的更新变得更为便捷。关键词包括“语料库”、“本体结构”和“分类体系”，反映出文章的核心关注点是技术如何与领域知识的结构化相结合，以及如何通过这种结合优化信息管理和分类过程。论文的分类号为TP392，表明它属于计算机科学技术中的信息检索与处理类别，文献标识码A则表示文章属于学术期刊的优质研究成果。这篇论文对于提升领域特定文本数据的处理效率和质量具有重要意义，为后续的自然语言处理、信息检索以及机器学习等领域提供了新的思路和技术支持。

山东农业大学学报

(

自然科学版

),2014,45(3):360-365 VOL.45 NO.3 2014

Journal of Shandong Agricultural University (Natural Science Edition) doi:10.3969/j.issn.1000-2324.2014.03.008

关于领域语料库的研究

何焱

丁玲

1.遵义医药高等专科学校, 贵州遵义 563002

2.哈尔滨工业大学深圳研究生院, 广东深圳 518055

摘要: 在网络信息愈加庞杂的背景下，分类技术被广泛的采用，但分类技术一般都需要标准的语料作为训练集，而

这些语料往往是通过人工标注的方法来满足其标准性和准确性。这样开发周期相对较长、工作量大，而且不易改变

分类。本文针对这一问题，研究如何根据各领域网站的本体结构从中获取语料并将这些语料按照给定的分类体系重

新组织净化，最终获得高质量的分类语料库。

关键词: 语料库; 本体结构; 分类体系

中图法分类号

: TP392

文献标识码

: A

文章编号

: 1000-2324(2014)03-0360-06

Research on Corpus in a Field

HE Yan

, DING Ling

1.College of Zunyi Medical and Pharmaceutical, Zunyi 563002, China

2.Harbin Institute of Technology Shenzhen Graduate School, Shenzhen 518055, China

Abstract: Under the more complex background of a network information, classification technology is widely adopted.

Classification techniques generally required standard corpus as a training set, and these data go often through the method of

manual annotation to meet their standards and accuracy. Therefore, it is relatively long to develope, and has a heavy workload,

and it is not easy to change the classification. Aiming at this problem, the study on how to obtain data from the ontology

structure of field websites and then to reorganize and purify according to the given classification system. In the end, to get the

high qualitative classified corpus.

Keywords: Corpus; ontology structure; classification system

1992 年以来，中国大量的研究中文处理的单位分别建立起来语料库

[1]

，中文信息处理的研究中，

语料库是基本的语言资源。中文信息处理离不开语料库的支持，重要性越显突出。中文语料库迅速

发展，包括通用语料库，平行语料库和学习者语料库等

[2]

。比较有代表性的通用语料库是人民日报

语料库。另外清华大学的大型中文语料库收集了多种分类，可用于处理语言信息的各个方面

[3]

。

在自然语言处理研究领域，语料的重要性不言而喻，无论是文本分类、文本聚类、自动文摘、

问答等经典的自然语言处理研究课题，都需要大量的经标注的语料进行实验。然而，经标注的语料

通常难以获得，未标注的语料获取较为容易，因此语料标注就成了各种自然语言处理研究工作不可

缺少的一项工作。许多自然语言领域的专家借助社会标注的力量完成了语料库建设。但是社会标注

应用到语料库建设中具有一定的局限性，如随意性、不一致性、不可控性等。对特定领域来说，此

领域的专业网站所带来的信息更为丰富，这些信息里就含有了领域本体，可以将这些网站里的信息

看作是标注好的语料来加以利用，本文主要研究基于锚文本的领域语料库的研究。

基于锚文本的领域语料库的研究

1.1 网站本体结构分析与提取

1.1.1 网站本体结构分析对于特定领域的网站来说，信息总是会按照该领域的某一分类体系进行划

分并放在不同的页面里。可以说，这个网站的结构中就包含了该领域的本信息

[4]

。直观的看，网站

信息可以被组织成一种层次结构，例如，进入 Yahoo 网站，会沿着目录层次 Home > Science > Biology

> Zoology > Animals, Insects, and Pets 去搜索有关 Animals, Insects, and Pets 的内容，该条路径也明显

地指出了 Animals, Insects, and Pets 在生物学科中所属的分类。该网站的领域本体信息可以从图里抽

象出来形成一棵树，该树所表现的就是这个网站的本体结构。例如健康领域的权威网站 39 健康网

//www.39.net，我们可以从它的主页导航栏如图 1 上看出该网站的明显的信息分类情况。

收稿日期: 2012-12-22 修回日期: 2013-01-18

基金项目: 互联网医学信息自主整合方法研究(黔科合 J 字[2013]2335 号)

作者简介: 何焱(1975-),女,硕士,副教授.研究方向:计算机网络应用、数量处理. E-mail:190792074@qq.com

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38742571

粉丝: 13
资源: 955

领域网站本体驱动的自动语料库构建与优化

人民日报2014语料库 自然语言处理训练集

coae2014测评语料数据

图像-图像搜索，可比语料库构建

基于汉英平行语料库的中国时间关系解析

texrex:Web语料库创建软件（移至GitHub）-开源

基于可比语料库和自然注释资源的藏汉跨语言命名实体提取

一种基于SVM-修正KNN算法的哈萨克语文本分类 (2014年)

COAE2014.zip

COAE2014,2013数据

基于LDA的国内图书馆学研究主题发现及演化研究.docx

最新资源

人民日报2014语料库自然语言处理训练集