汉语信息处理：分词困境与解决策略

需积分: 9 179 浏览量更新于2024-09-07 收藏 233KB PDF 举报

"中文信息处理中的分词问题" 中文信息处理是一项涵盖广泛的技术领域，涉及到从汉字输入到高级语言理解的各个层面。分词是其中的关键环节，它涉及到将连续的汉字序列切分成有意义的词汇单元，这对于后续的文本分析、理解和处理至关重要。然而，中文分词面临的一大挑战是没有统一的标准，这导致人和计算机在处理文本时难以达成一致，进而影响信息资源的共享和有效利用。黄昌宁提到，分词是当前中文信息处理的瓶颈，缺乏公认的分词标准使得词表和标注语料库的共享变得困难，可能导致重复开发和资源浪费。因此，建立一个与分词规范配套的汉语通用词表成为了当务之急。这不仅可以规范分词操作，还能促进不同系统间的兼容性和效率。文章引用李友仁的观点，有人质疑分词的实际意义，因为汉字输入和输出都是字和字串的形式，不涉及分词。然而，这种看法忽视了中文信息处理的深度和广度。中文信息处理不仅限于简单的输入输出，还包括语音识别、自然语言理解、机器翻译等一系列复杂任务，这些都需要精确的分词作为基础。例如，在语音识别中，分词有助于提高识别准确率；在自然语言理解中，正确的词汇划分有助于解析句子结构和提取语义信息。此外，分词对于基于拼音的汉字输入方法尤为重要。由于汉语的同音字现象，拼音输入法往往需要依赖上下文进行词的判断，即“以词定字”或“以句定词”，以避免同音字混淆。因此，即便仅从汉字输入的角度看，分词也有其不可替代的作用。为了改进和统一中文信息处理中的分词标准，研究人员和业界需要共同努力，制定一套被广泛接受的规范，并且构建大规模的共享词表和标注语料库。这将推动中文信息处理技术的发展，降低开发成本，提高系统的准确性和实用性。同时，这也涉及到对汉语特性的深入理解，如歧义解决、新词发现和动态更新等问题。中文信息处理中的分词问题是一个复杂而重要的课题，它关乎到中文信息技术的进步和广泛应用。通过制定标准、共享资源以及持续的技术创新，我们可以期待一个更加高效、准确的中文信息处理环境。

语言文字应用 1997 年第 1 期( 总第 21 期) 创刊五周年纪念号

* 国家自然科学基金重点项目资助。

中文信息处理中的分词问题

黄昌宁

提要在中文信息处理的众多应用领域中, 从最底层的键盘、语音和字符识别等各类

汉字输入方法, 到最高层的各种汉语理解系统, 都不可能完全摆脱汉语文本分词处理的困

扰。分词问题已成为当前中文信息处理的一个瓶颈。没有一种公认的分词标准, 是人和

计算机共同面临的困难。如果在这个问题上不能尽快达成共识, 那么在词表和带标注的

语料库等重要信息资源上就不可能做到共享与复用, 势必造成重复开发的严重浪费。当

务之急是制定一份与分词规范相配合的汉语通用词表。

谈及汉语文本的分词问题, 不由得想起 1990 年 9 月香港5语文建设通讯6第 30 期上李友

仁先生对5信息处理用现代汉语分词规范( 草案) 6所发表的意见。他说: / 在计算机上对现代汉

语作信息处理, 无非是在计算机上输入输出方块汉字。0又说: / 输入现代汉语的汉字文稿是字

和字串与标点符号连续输入的, 不是分词输入的。输出的现代汉语汉字文件也是字和字串与

标点符号连续排版的, 不是分词排版的。,,既然如此, -分词. 还有什么实际意义呢? - 分词

规范. 还有什么实际意义呢? 如果都无实际意义, -切分标准、原则. 就更无实际意义了。0

对李先生的见解, 有必要澄清如下两个概念: 第一, 汉语信息处理决不仅限于在计算机上

输入输出汉字。汉语信息处理又称中文信息处理, 是指/ 用计算机对汉语的音、形、义等信息进

行处理0, 包括/ 对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工0。

[ 1]

解

决计算机的汉字输入输出问题曾经是早期中文信息处理界的一项具有历史意义的重要任务,

这个时期因此得名为/ 字处理阶段0。至 80 年代中, 国家有关部门陆续制定和颁布了信息处理

用汉字编码字符集、汉字点阵字模集, 一批实用的汉字编码( 键盘) 输入系统也先后问世。汉字

进入计算机的梦想得以实现, 标志着中文信息处理已从/ 字处理阶段0迈入/ 词处理阶段0。第

二, 由于汉语中同音字太多, 有的音节的同音字高达 100 多个, 基于拼音的汉字编码方法必须

依靠/ 以词定字0甚至/ 以句定词0的手段来区分同音字和同音词。到 80 年代末期, 不具备词处

理技术的汉字编码输入方法几乎已绝迹。可见, 即使仅仅为了解决计算机的汉字输入问题, 也

不能说汉语文本的分词是没有实际意义的。

一分词问题的重要性

文稿中词与词之间没有明确的分隔标记是汉语和大多数东方语言的一个显著特点。但词

是/ 最小的能独立运用的语言单位0,

[ 1]

要实现中文信息处理的各项任务, 分词问题的重要性

就显得异常突出了。下面让我们从不同角度考察一下分词对中文信息处理的作用。

#72#

语言文字应用

下载后可阅读完整内容，剩余6页未读，立即下载

liuboshiaa

粉丝: 1
资源: 7

汉语信息处理：分词困境与解决策略

中文自动分词 哈工大-中文信息处理实验二 实验报告

中文信息处理 中文分词

中文信息处理中文分词

中文信息处理自动分词

中文信息处理分词软件机械分词

中文信息处理分词程序

baidu.rar_baidu_中文 词库_中文信息处理_分词_词库

fenCi.rar_fenci _fenci.rar_中文信息处理_分词 java_分词算法

中文分词-哈工大软件学院中文信息处理刘秉权

中文分词中文切词分词

最新资源

中文自动分词哈工大-中文信息处理实验二实验报告

中文信息处理中文分词

baidu.rar_baidu_中文词库_中文信息处理_分词_词库