哈工大cloudComputing团队：垃圾短信文本识别算法竞赛成果

4星 · 超过85%的资源需积分: 50 91 浏览量更新于2024-07-20 6 收藏 1.08MB PDF 举报

"垃圾短信基于文本内容识别是一个重要的研究课题，特别是在云计算技术的背景下。由云Computing团队，以哈尔滨工业大学深圳研究生院智能计算研究中心HLT研究组的王帅队长带领，该团队成员包括石锋、祝方泽、徐锋和蔡文举，他们在徐睿峰老师的指导下进行工作。他们的研究领域集中在自然语言处理、信息检索和机器学习，利用这些技术来解决实际问题，如通过文本内容自动区分垃圾短信与正常短信。团队在CCF全国青年大数据创新大赛中取得了显著的成绩，F值多次达到接近完美的水平，例如0.99673、0.99688、0.99694和0.99734，这表明他们开发的算法在识别精度上具有高度准确性。他们的研究历程包括了算法的逐步优化，如从词特征和online-LR开始，然后通过加强错误边界学习（TONE策略）、增加迭代次数、引入学习速率衰减和正则化等手段提高模型性能。他们还引入了字节级N元文法特征，并结合信息检索方法中的错误纠正策略，进一步提升了模型的精准度。在任务方面，他们明确了解决的是一个监督学习任务，针对的是短文本分类问题，目标是将短信分为垃圾短信（类别1）和正常短信（类别0）。数据处理上，每个短信被视为一个样本，其类别标签已知，用于训练、验证和测试。特征提取是关键环节，他们通过理解业务需求并结合机器学习原理，确保特征的有效性。在遇到样本特征缺失时，他们会采取适当的方法进行填充或处理。模型选择上，他们可能采用了深度学习模型，如卷积神经网络（CNN）或长短时记忆网络（LSTM），并通过模型调优和多模型融合来提高整体性能。整个项目经历了从数据预处理、特征工程、模型选择到结果评估的全过程，每个阶段都紧密关联，旨在提升垃圾短信识别的准确性和效率。他们的成果不仅展示了在云计算环境下的大数据处理能力，也为文本分类领域的研究提供了有价值的经验和技术支持。" 团队的工作成果对于打击垃圾短信、保护用户隐私以及提升通信行业的服务质量具有实际意义，同时也体现了云计算在人工智能领域的广泛应用潜力。"

碗豆先生

粉丝: 44
资源: 8

哈工大cloudComputing团队：垃圾短信文本识别算法竞赛成果

垃圾短信数据集（中文）.rar

基于贝叶斯算法的手机垃圾短信过滤--代码

中文垃圾短信数据集NLP

中国计算机学会推荐国际学术会议和期刊目录-2019.pdf

基于语音识别和MQTT协议的智能家居系统实现.pdf

隐秩序-适应性造就复杂性.pdf

基于云计算的船联网大规模数据存储研究.pdf

基于大数据、云计算的水利工程质量风险管理研究.pdf

小i机器人中文深度语义平台2017.5.25.pdf

深港澳金融科技师考试.pdf

最新资源