互联网时代的汉语挑战:分词与新词挖掘

0 下载量 14 浏览量 更新于2024-08-28 收藏 245KB PDF 举报
"互联网时代的社会语言学:基于SNS的文本数据挖掘" 在互联网时代,社会语言学的研究方式发生了显著变化,特别是在使用社交网络服务(SNS)的文本数据挖掘方面。这种新的研究方法使得学者能够深入探究语言在实际交流中的运用,尤其是在汉语这种独特语言背景下。汉语的复杂性在于它没有明显的词边界,分词是自然语言处理中的一个关键挑战。 分词是将连续的文本序列分割成具有意义的独立单元,即词。对于英语等语言,词与词之间有空格分隔,而汉语则需要通过算法来判断分词歧义。例如,句子“已结婚的和尚未结婚的青年都要实行计划生育”中的“结婚的和尚未结婚的”既可以理解为两个独立的短语,也可以理解为“和尚未结婚的”一词。当前的自然语言处理技术已经能够较好地解决这类问题,但未登录词(即词库中不存在的新词)的存在仍然是一个难题。 未登录词包括人名、地名、机构名、品牌、专业术语、缩写和新兴的网络用语,它们在不断变化的语言环境中频繁出现。传统的新词挖掘方法依赖于先进行分词,然后识别出未匹配的片段,但这种方法的局限在于分词准确性受到词库完整性的制约。因此,一种创新的策略是首先不依赖任何预设词库,而是通过识别文本片段的共性特征来提取可能的词,随后将这些抽取的词与现有词库对比,从而找出新词。 在实际操作中,可以使用频率作为初步筛选的标准,选取出现次数较高的文本片段。但这并不足以确保片段是一个完整的词,还需要考虑词的内部凝固度,即词语组合的紧密程度。例如,“电影院”比“的电影”更倾向于被视为一个整体,因为“电影”和“院”的结合更为紧密。为了评估这种凝固程度,可以计算相邻词在语料中同时出现的概率,如果概率较高,则表明这两个词在实际使用中往往一起出现,形成了固定搭配。 在人人网的用户状态数据中,这样的分析可以帮助我们理解网络语言的实时动态,捕捉到新兴词汇和表达方式。通过对大量网络语料的挖掘,不仅可以发现新词,还可以进行语义分析、情感分析等深度研究,揭示社会语言的变化趋势和用户的语言习惯。这种基于SNS的文本数据挖掘方法不仅丰富了社会语言学的研究手段,也为语言学理论的发展提供了新的视角。