基于层次特征的变体短文本过滤算法提升文本安全

需积分: 0 0 下载量 33 浏览量 更新于2024-09-07 收藏 414KB PDF 举报
本文主要探讨了"基于层次特征的变体短文本过滤算法",由温园旭和徐蔚然两位学者合作撰写,发表在中国科技论文在线上。研究背景是针对微博、短信等平台中为了逃避常规过滤手段而广泛存在的有害短文本,这些文本常常以不规则的变体形式呈现,这使得传统的过滤方法难以应对。 作者温园旭专注于模式识别和文本检索,而徐蔚然是北京邮电大学模式识别实验室的副教授,主要研究方向为信息检索。他们指出,尽管变体特征多样且难以捉摸,但实质上,这些变体都与核心关键词有着紧密的内在联系。因此,他们提出了一种新颖的过滤策略,即层次特征分析。这个算法分为三个步骤:首先,识别底层的变体字特征,即对文本中的每个字符进行变异形式的识别;其次,通过分析这些变体字构建出高层的变体词特征,即识别出词汇级别的变体模式;最后,利用贝叶斯公式来量化短文本的有害程度,以此判断其是否应该被过滤。 实验结果显示,这个基于层次特征的变体短文本过滤算法显著降低了人工干预的需求,提高了处理效率和精确度。它有效地捕捉到了文本核心信息的同时,能够处理变体形式的文本,为解决实际应用中的短文本过滤问题提供了新的思路和技术支持。关键词包括“关键词的层次特征”、“短文本过滤”、“变体短文本”以及“中文文本”,表明这项研究不仅局限于英文环境,也适用于中文语境下的文本处理。 本文的研究对于社交媒体内容管理、信息安全管理等领域具有重要意义,为后续研究者在应对文本变异和有害信息过滤方面提供了有价值的参考。通过深入理解变体特征的内在规律,有望在未来开发出更为精准和智能的文本过滤系统。