基于层次特征的变体短文本过滤算法提升文本安全
需积分: 0 33 浏览量
更新于2024-09-07
收藏 414KB PDF 举报
本文主要探讨了"基于层次特征的变体短文本过滤算法",由温园旭和徐蔚然两位学者合作撰写,发表在中国科技论文在线上。研究背景是针对微博、短信等平台中为了逃避常规过滤手段而广泛存在的有害短文本,这些文本常常以不规则的变体形式呈现,这使得传统的过滤方法难以应对。
作者温园旭专注于模式识别和文本检索,而徐蔚然是北京邮电大学模式识别实验室的副教授,主要研究方向为信息检索。他们指出,尽管变体特征多样且难以捉摸,但实质上,这些变体都与核心关键词有着紧密的内在联系。因此,他们提出了一种新颖的过滤策略,即层次特征分析。这个算法分为三个步骤:首先,识别底层的变体字特征,即对文本中的每个字符进行变异形式的识别;其次,通过分析这些变体字构建出高层的变体词特征,即识别出词汇级别的变体模式;最后,利用贝叶斯公式来量化短文本的有害程度,以此判断其是否应该被过滤。
实验结果显示,这个基于层次特征的变体短文本过滤算法显著降低了人工干预的需求,提高了处理效率和精确度。它有效地捕捉到了文本核心信息的同时,能够处理变体形式的文本,为解决实际应用中的短文本过滤问题提供了新的思路和技术支持。关键词包括“关键词的层次特征”、“短文本过滤”、“变体短文本”以及“中文文本”,表明这项研究不仅局限于英文环境,也适用于中文语境下的文本处理。
本文的研究对于社交媒体内容管理、信息安全管理等领域具有重要意义,为后续研究者在应对文本变异和有害信息过滤方面提供了有价值的参考。通过深入理解变体特征的内在规律,有望在未来开发出更为精准和智能的文本过滤系统。
2019-07-22 上传
2019-09-08 上传
2019-09-11 上传
2019-09-07 上传
2019-09-20 上传
weixin_39840588
- 粉丝: 451
- 资源: 1万+
最新资源
- 正整数数组验证库:确保值符合正整数规则
- 系统移植工具集:镜像、工具链及其他必备软件包
- 掌握JavaScript加密技术:客户端加密核心要点
- AWS环境下Java应用的构建与优化指南
- Grav插件动态调整上传图像大小提高性能
- InversifyJS示例应用:演示OOP与依赖注入
- Laravel与Workerman构建PHP WebSocket即时通讯解决方案
- 前端开发利器:SPRjs快速粘合JavaScript文件脚本
- Windows平台RNNoise演示及编译方法说明
- GitHub Action实现站点自动化部署到网格环境
- Delphi实现磁盘容量检测与柱状图展示
- 亲测可用的简易微信抽奖小程序源码分享
- 如何利用JD抢单助手提升秒杀成功率
- 快速部署WordPress:使用Docker和generator-docker-wordpress
- 探索多功能计算器:日志记录与数据转换能力
- WearableSensing: 使用Java连接Zephyr Bioharness数据到服务器