基于人工智能的垃圾短信大数据识别系统

62 浏览量更新于2024-08-28 收藏 2.29MB PDF 举报

随着信息化时代的快速发展，垃圾短信已成为一个不容忽视的社会问题。近年来，由于技术手段的不断更新和普及，垃圾短信的数量和种类日益增多，给广大用户带来了极大的骚扰和困扰。针对这一现象，本文深入探讨了垃圾短信治理所面临的挑战，包括如何追踪源头、识别模式以及防止恶意软件的植入等。传统的垃圾短信治理手段往往依赖人工筛选，效率低下且易受人为因素影响。然而，借助大数据和人工智能技术，尤其是指纹算法的应用，可以实现对垃圾短信的自动识别和精准拦截。指纹算法，作为一种独特的数据特征匹配方法，能够提取出每条短信的独特标识，就像人的指纹一样，用来区分合法和非法的信息。在本研究中，作者设计了一套基于指纹算法的垃圾短信大数据自动识别系统。系统首先通过数据采集模块收集大量的短信样本，这些样本涵盖了各种类型的垃圾短信，包括广告、诈骗、恶意链接等。接着，通过预处理和清洗，确保数据的质量和准确性。利用机器学习技术，系统训练模型来识别这些短信的特征模式，形成指纹数据库。系统的整体架构包括数据获取、数据预处理、模型训练和实时检测四个主要部分。在工作流程上，新收到的短信会被输入到系统中，经过特征提取和匹配，如果发现与已知的垃圾短信指纹相符，系统将立即标记并拦截，从而有效减少用户接收到的骚扰信息。同时，系统还能持续学习和优化，随着新的垃圾短信样本的加入，识别精度会不断提高。关键技术和创新点包括： 1. 深度学习模型：使用深度神经网络，如卷积神经网络（CNN）或循环神经网络（RNN），对短信内容进行高维度特征提取，增强垃圾短信的识别能力。 2. 增量学习：通过在线学习，系统能够在不断接收新数据的同时，动态更新模型，保持对新型垃圾短信的敏感度。 3. 实时反馈机制：通过实时监控和评估系统的拦截效果，调整模型参数，确保识别准确性和性能的稳定。 4. 隐私保护：在处理用户数据时，遵循严格的隐私政策，确保个人信息的安全性，尊重用户权益。通过这套垃圾短信大数据自动识别系统，可以有效地对抗非法短信的侵袭，提升用户通信环境的纯净度，同时也减轻了通信运营商和相关机构的压力。未来，随着人工智能技术的进一步发展，垃圾短信的治理将更加智能化和精准化，为用户提供更好的通信体验。

115115

专栏：2017 年度大数据应用实践 Top 10

垃圾短信大数据自动识别技术

林华生

１

，钱岭

２

，周莹

１

，杨希

２

，李婧

２

1. 中国移动通信集团公司信息安全管理与运行中心，北京 100031

2. 中移（苏州）软件技术有限公司，江苏苏州 215163

摘要

近年来，垃圾短信问题层出不穷，严重侵害了广大用户的通信权益。详细分析了垃圾短信治理面临的挑

战、存在的问题及解决思路，利用人工智能手段，设计了一套基于指纹算法的垃圾短信大数据自动识别系

统，对新系统的整体架构、工作流程和关键技术进行了详细的阐述。该新系统可以高效治理垃圾短信，全

力对抗非法短信侵袭。

关键词

垃圾短信；大数据；人工智能；指纹算法

中图分类号：ＴＰ３９３　　　　　　　　　　　　　　　　　　　文献标识码：Ａ　　　　　　　　　　　　　　　　

doi: 10.11959/j.issn.2096-0271.2018024

Automatic identification technology for

spam message

Abstract

In recent years, the problem of spam messages is endless, which seriously infringes on the communication rights and

interests of the majority of users. The management challenges facing the spam messages, the exisiting problems and the

respording solutions were analyzed in detail. Based on the use of artificial intelligence methods and big data, an automatic

identification system with fingerprint algorithm of spam messages was designed. The architecture, workflow and key

technoligies of the system were elaborated. And the system can deal with spam messages effectively.

Key words

spam message, big data, artificial intelligence, fingerprint algorithm

LIN Huasheng

, QIAN Ling

, ZHOU Ying

, YANG Xi

, LI Jing

1. China Mobile Information Security Center, Beijing 100031, China

2. China Mobile (Suzhou) Software Technology Co., Ltd., Suzhou 215163, China

评语：该方案通过动态库（解决容量扩展问题）、多指纹库（解决数据噪声影响）、预备库的提前过滤（减少

噪声）以及多算法模型融合方法，真正解决了垃圾短信的识别难问题。

2018024-1

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38531788

粉丝: 4
资源: 913

基于人工智能的垃圾短信大数据识别系统

基于文本内容的垃圾短信识别技术与实践

哈工大cloudComputing团队：垃圾短信文本识别算法竞赛成果

利用贝叶斯机器学习技术过滤短信垃圾信息

研究垃圾短信大数据自动识别的新方法.pdf

垃圾短信大数据识别方案.pdf

CCF大数据竞赛-垃圾短信基于文本内容的识别Python源码+数据

垃圾短信分类.rar_垃圾短信_垃圾短信分类_数据清洗_文本分词 分类_结巴分词

垃圾短信数据集，已分类

大数据应用最佳实践.pdf

2018年度大数据时代的互联网信息安全考试答案.pdf

最新资源

垃圾短信分类.rar_垃圾短信_垃圾短信分类_数据清洗_文本分词分类_结巴分词