互联网时代的汉语挑战:分词与新词挖掘

0 下载量 78 浏览量 更新于2024-08-28 收藏 245KB PDF 举报
“互联网时代的社会语言学:基于SNS的文本数据挖掘” 在互联网时代,社会语言学的研究方式发生了显著变化,特别是在使用社交媒体网络(SNS)的文本数据挖掘方面。这种研究方法允许学者深入探索汉语的多样性和动态性,揭示语言在虚拟社区中的变迁和创新。本文将聚焦于在自然语言处理(NLP)中遇到的挑战,尤其是针对中文的独特问题。 中文的分词是NLP中的一大难题,由于汉字之间没有明显的分隔符,例如空格,计算机需要借助算法来判断词语边界。分词歧义是其中的一个问题,例如句子“已结婚的和尚未结婚的青年都要实行计划生育”,计算机需要正确识别出“已结婚的”和“和尚未结婚的”两个短语的边界。现代语言模型已经能够较好地解决这个问题,但未登录词(未知词汇)仍然是一个棘手的问题。 未登录词是指现有词库中未包含的新词或特殊词汇,如人名、地名、机构名、品牌名、专业术语、缩略语和网络新词等。由于中文没有像英文那样通过首字母大写来标识专有名词,且专名号的取消使得识别变得更加复杂。解决这个问题的关键在于自动发现新词,即在大量文本中识别出未被词库记录的词汇。 传统的新词挖掘方法通常依赖于预分词,但这种方法存在自相矛盾的情况:词库的不完整性会影响分词的准确性。因此,一种创新的方法是首先不依赖任何现有词库,通过分析词的共性特征,从大规模语料中提取可能的词片段,然后再与词库对比,从而找出新词。 抽词算法在这一过程中起着关键作用。例如,在人人网的用户状态数据中,可以通过设置阈值来筛选出频繁出现的文本片段,但这并不足以确保这些片段都是独立的词。为了进一步确认,我们需要考虑词的内部凝固度,即词内部各部分的紧密程度。例如,“电影院”比“的电影”更可能被视为一个词,因为“电影”和“院”的组合更为固定。 为了量化这种内部凝固度,可以计算相邻词汇共同出现的频率,如果“电影”和“院”经常一起出现,那么它们作为一个整体的概率就更高,表明“电影院”是一个词。这种方法有助于提高新词发现的准确性和效率,进而推动社会语言学研究的深入。 通过这种方法,不仅可以发现和理解网络语言中的新词,还可以进行更广泛的数据挖掘,例如情感分析、话题追踪、社会趋势研究等。结合SNS文本数据,社会语言学家可以更全面地了解语言使用的变化,以及社会文化现象对语言的影响。这种方法的运用为中文NLP提供了新的研究视角,也促进了语言学和社会科学的交叉发展。