基于层次特征的变体短文本过滤算法提升文本安全

需积分: 0 33 浏览量更新于2024-09-07 收藏 414KB PDF 举报

本文主要探讨了"基于层次特征的变体短文本过滤算法"，由温园旭和徐蔚然两位学者合作撰写，发表在中国科技论文在线上。研究背景是针对微博、短信等平台中为了逃避常规过滤手段而广泛存在的有害短文本，这些文本常常以不规则的变体形式呈现，这使得传统的过滤方法难以应对。作者温园旭专注于模式识别和文本检索，而徐蔚然是北京邮电大学模式识别实验室的副教授，主要研究方向为信息检索。他们指出，尽管变体特征多样且难以捉摸，但实质上，这些变体都与核心关键词有着紧密的内在联系。因此，他们提出了一种新颖的过滤策略，即层次特征分析。这个算法分为三个步骤：首先，识别底层的变体字特征，即对文本中的每个字符进行变异形式的识别；其次，通过分析这些变体字构建出高层的变体词特征，即识别出词汇级别的变体模式；最后，利用贝叶斯公式来量化短文本的有害程度，以此判断其是否应该被过滤。实验结果显示，这个基于层次特征的变体短文本过滤算法显著降低了人工干预的需求，提高了处理效率和精确度。它有效地捕捉到了文本核心信息的同时，能够处理变体形式的文本，为解决实际应用中的短文本过滤问题提供了新的思路和技术支持。关键词包括“关键词的层次特征”、“短文本过滤”、“变体短文本”以及“中文文本”，表明这项研究不仅局限于英文环境，也适用于中文语境下的文本处理。本文的研究对于社交媒体内容管理、信息安全管理等领域具有重要意义，为后续研究者在应对文本变异和有害信息过滤方面提供了有价值的参考。通过深入理解变体特征的内在规律，有望在未来开发出更为精准和智能的文本过滤系统。

weixin_39840588

粉丝: 451
资源: 1万+

基于层次特征的变体短文本过滤算法提升文本安全

热门关键词的、随机词语摆放

论文研究-层次分析法在IP返回跟踪DoS攻击方法中的应用研究.pdf

论文研究-实值化学反应优化算法.pdf

论文研究-时空数据库变体最近邻查询问题探讨.pdf

论文研究-基于免疫遗传算法的移动机器人全局路径规划.pdf

论文研究-成像卫星集成调度的变邻域禁忌搜索算法.pdf

论文研究-基于外观的子空间人脸识别方法研究.pdf

最新资源