互联网时代的汉语挑战：分词与新词挖掘

78 浏览量更新于2024-08-28 收藏 245KB PDF 举报

“互联网时代的社会语言学：基于SNS的文本数据挖掘” 在互联网时代，社会语言学的研究方式发生了显著变化，特别是在使用社交媒体网络（SNS）的文本数据挖掘方面。这种研究方法允许学者深入探索汉语的多样性和动态性，揭示语言在虚拟社区中的变迁和创新。本文将聚焦于在自然语言处理（NLP）中遇到的挑战，尤其是针对中文的独特问题。中文的分词是NLP中的一大难题，由于汉字之间没有明显的分隔符，例如空格，计算机需要借助算法来判断词语边界。分词歧义是其中的一个问题，例如句子“已结婚的和尚未结婚的青年都要实行计划生育”，计算机需要正确识别出“已结婚的”和“和尚未结婚的”两个短语的边界。现代语言模型已经能够较好地解决这个问题，但未登录词（未知词汇）仍然是一个棘手的问题。未登录词是指现有词库中未包含的新词或特殊词汇，如人名、地名、机构名、品牌名、专业术语、缩略语和网络新词等。由于中文没有像英文那样通过首字母大写来标识专有名词，且专名号的取消使得识别变得更加复杂。解决这个问题的关键在于自动发现新词，即在大量文本中识别出未被词库记录的词汇。传统的新词挖掘方法通常依赖于预分词，但这种方法存在自相矛盾的情况：词库的不完整性会影响分词的准确性。因此，一种创新的方法是首先不依赖任何现有词库，通过分析词的共性特征，从大规模语料中提取可能的词片段，然后再与词库对比，从而找出新词。抽词算法在这一过程中起着关键作用。例如，在人人网的用户状态数据中，可以通过设置阈值来筛选出频繁出现的文本片段，但这并不足以确保这些片段都是独立的词。为了进一步确认，我们需要考虑词的内部凝固度，即词内部各部分的紧密程度。例如，“电影院”比“的电影”更可能被视为一个词，因为“电影”和“院”的组合更为固定。为了量化这种内部凝固度，可以计算相邻词汇共同出现的频率，如果“电影”和“院”经常一起出现，那么它们作为一个整体的概率就更高，表明“电影院”是一个词。这种方法有助于提高新词发现的准确性和效率，进而推动社会语言学研究的深入。通过这种方法，不仅可以发现和理解网络语言中的新词，还可以进行更广泛的数据挖掘，例如情感分析、话题追踪、社会趋势研究等。结合SNS文本数据，社会语言学家可以更全面地了解语言使用的变化，以及社会文化现象对语言的影响。这种方法的运用为中文NLP提供了新的研究视角，也促进了语言学和社会科学的交叉发展。

weixin_38501810

粉丝: 2
资源: 942

互联网时代的汉语挑战：分词与新词挖掘

new words Discovery

限定域文本语料的短语挖掘综述.pdf

Solving environment: failed PackagesNotFoundError: The following packages are not available from current channels: - sns

python数据挖掘可视化案例

文本挖掘实例python

AttributeError: module 'sns.sns' has no attribute 'heatmap'

数据挖掘可视化分析代码

数据挖掘如何用代码实现

最新资源