电信诈骗检测:基于蜂窝网络数据的CNNcombine算法
需积分: 50 13 浏览量
更新于2024-08-06
收藏 613KB PDF 举报
本文探讨了在电信诈骗检测模型构建过程中,如何通过特征选择来提升模型性能。特征选择是数据分析的重要步骤,它涉及到如何识别并剔除不重要或冗余的特征,以便提高模型的效率和准确性。文中提出了几种剔除特征的标准,包括基于特征的缺失值占比、类别占比、类别个数占比以及数值型特征的变异系数。
1. **特征重要性较低的判断标准**:
- **缺失值占比**:如果属性的缺失值超过50%,则认为该特征无效,予以剔除。这有助于减少因缺失值导致的数据处理复杂性和不确定性。
- **分类型特征中类别占比**:当某个分类型变量中某一类别的数量占总样本数的比例超过80%,则认为该特征不重要,可能是因为它不能提供足够的信息多样性。
- **分类型特征中类别个数占比**:如果单个类别占比大于90%,表明该特征区分度低,不具备有效区分样本的能力,故剔除。
- **数值型特征的变异系数**:如果数值型特征的变异系数小于15%,意味着其变化范围较小,可能对模型预测影响不大,因此被剔除。
2. **特征与标签的相关性测试**:
- 对于分类问题,无关特征是指与标签变量独立的特征。为了去除这些特征,可以采用统计学方法:
- **卡方检验**:对于分类型指标,通过卡方检验评估两个事件的独立性,P值小于0.05的特征被认为与标签相关,即重要。
- **F检验**:对于数值型指标,分析指标在标签不同取值下的均值差异,P值小于0.05表明特征与标签显著相关。
3. **特征剔除的实例**:
- 文中给出了两份剔除特征的列表,包括证件名称、用户类型、新增用户标签、是否行业应用、是否黑名单、是否4G开卡、终端价格、终端型号等,这些都是基于上述标准判断为不重要或无关的特征。
4. **模型构建与评估**:
- 论文采用了基于蜂窝网络数据的电信诈骗检测模型,该模型由数据预处理、CNNcombine算法和模型评估三部分组成。
- **数据预处理**:涉及特征筛选、编码和抽样,确保数据的质量和可用性。
- **CNNcombine算法**:这是一种创新的分类方法,将一维卷积神经网络(CNN)与多个传统分类算法结合,扩展了CNN在非文本信号分类中的应用。
- **模型评估**:通过与XGBoost等常用机器学习算法比较,证明了CNNcombine算法在检测电信诈骗用户上的优势,具有更高的准确率。
总结来说,本文重点在于特征选择策略及其在电信诈骗检测模型中的应用,通过有效的特征工程和创新的算法设计,提高了模型的预测性能,为电信诈骗的预防提供了有力的工具。
2021-02-21 上传
107 浏览量
2021-01-19 上传
点击了解资源详情
2023-05-04 上传
2023-07-21 上传
2021-08-25 上传
2019-09-03 上传
羊牮
- 粉丝: 41
- 资源: 3859
最新资源
- 深入浅出:自定义 Grunt 任务的实践指南
- 网络物理突变工具的多点路径规划实现与分析
- multifeed: 实现多作者间的超核心共享与同步技术
- C++商品交易系统实习项目详细要求
- macOS系统Python模块whl包安装教程
- 掌握fullstackJS:构建React框架与快速开发应用
- React-Purify: 实现React组件纯净方法的工具介绍
- deck.js:构建现代HTML演示的JavaScript库
- nunn:现代C++17实现的机器学习库开源项目
- Python安装包 Acquisition-4.12-cp35-cp35m-win_amd64.whl.zip 使用说明
- Amaranthus-tuberculatus基因组分析脚本集
- Ubuntu 12.04下Realtek RTL8821AE驱动的向后移植指南
- 掌握Jest环境下的最新jsdom功能
- CAGI Toolkit:开源Asterisk PBX的AGI应用开发
- MyDropDemo: 体验QGraphicsView的拖放功能
- 远程FPGA平台上的Quartus II17.1 LCD色块闪烁现象解析