行为感知系统架构与数据库设计详解

需积分: 0 0 下载量 194 浏览量 更新于2024-08-04 1 收藏 103KB DOCX 举报
本篇文档详细介绍了"程序规则与数据库设计文档1",着重于行为感知系统的架构与设计,包括数据流导向设计、数据库选择以及数据模式设计。首先,系统采用Elasticsearch进行索引管理和数据流存储,支持SQL查询,同时依赖MySQL作为主要的关系型数据库,其中包含了如information库,用于存储基础信息,如员工、部门、设备和组织结构等。 Redis被用于构建非关系型数据库,存储如基础标签表、标签属性表等关键数据。系统中的流水数据库和行为报警数据库记录了实时行为数据,而计量数据库和模型数据库则负责处理分析模型和存储模型文件路径。参数配置表用于管理全局设置,例如国家基础信息和IP网段信息。 数据模式设计部分详细列出了几种协议格式,如nDPI格式、文件格式等,并明确了训练数据的格式要求。用户信息数据库使用关系型数据库,记录用户的基本信息,如用户ID、设备信息等;而用户上网行为流水库则是NoSql数据库,存储用户的行为流数据,包括流量、时间、访问详情等。 URL属性库通过多维度分析,如行业相关性、工作角度和自定义扩展,对网页进行分类。APP应用分类库基于应用属性将应用程序归类,便于理解用户行为。异常访问库用于监控可能的异常行为记录。 技术选型方面,系统采用了nDPI进行数据采集,利用Kafka作为数据暂存队列,Spark进行数据处理,深度学习库选择了TensorFlow,开发语言主要包括Scala、Java和Python,数据存储则兼顾了关系型的MySQL和分布式存储的HBase。 在URL多维度标签划分中,系统通过计算URL与岗位的相关性,确定其正性、负性和中性,这涉及到置信度评估和员工群体的关联分析。具体而言,对于给定的URL,会寻找它与所有岗位中最相关的岗位,同时确保负性判断是基于最小共现率的。 总结来说,本文档提供了全面的数据库设计框架,涵盖了从数据采集到存储、处理以及分析模型的各个环节,确保了行为感知系统的高效运作和数据的准确分析。