沙特国王大学学报：数据库入侵检测中的光学器件和集成学习的应用

21 浏览量更新于2024-01-17 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报OPTICS和集成学习在数据库入侵检测中的应用Sharmila Subudhia，Suvasini Panigrahib，aDepartment of CS IT，Institute of Technical Education and Research，b印度奥里萨邦Veer Surendra Sai技术大学CSE系，邮编768018阿提奇莱因福奥文章历史记录：收到2018年2019年4月8日修订2019年5月1日接受在线发售2019年关键词：入侵检测数据库光学器件离群因子Enhancement分类器A B S T R A C T在本文中，我们提出了一种新的方法来检测数据库中的入侵活动，通过集成学习的聚类和信息融合。我们已经应用OPTICS聚类的事务属性建立用户的行为配置文件。事务最初通过聚类模块，用于计算其聚类度和表示其离群程度的离群因子。根据异常值因子值，交易被分类为真实交易或异常交易。通过将每个异常值事务传递到应用三种不同聚合方法（bagging，boosting和stacking）的Encourse Learner上，进一步分析每个异常值事务。我们已经进行了实验，使用随机模型来证明所提出的系统的有效性。三个不同的合奏的性能进行评估和比较的基础上各种指标。此外，我们的系统被发现表现出更好的性能相比，从文献中采取的©2019作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍数据库安全是所有人都关心的一个主要问题，即使在几个信息相关领域采取了安全措施之后。根据注册欺诈审查师协会（ACFE）在2016年进行的一项研究，一个典型的组织通常会因欺诈活动而损失约5%的年收入（全球欺诈调查，2017年）。统计数据显示了信息系统中攻击的严重性，描绘了全球组织面临的重大财务损失。此外，侵入性活动可能会导致客户对组织失去传统的数据库安全服务提供的安全功能，以保护信息系统免受入侵攻击。*通讯作者。电子邮件地址：spanigrahi_cse@vssut.ac.in（新加坡）Panigrahi）。沙特国王大学负责同行审查尽管有这些安全措施，但组织内的授权内部人员可能会通过滥用其授权或通过利用授权身份获得访问权限的外部人员来损害数据。因此，数据库中的入侵攻击可以分为外部攻击和内部攻击。外部攻击可以被称为由来自组织外部的未授权用户执行的恶意事务，这些用户可以通过滥用系统漏洞来访问数据库（Panigrahi等人，2013年）的报告。然而，一个内部人员，谁是完全知道的安全设置的组织，并可能有一些访问权限的数据和系统资源（Furnell，2004），可以执行未经授权的数据库事务，这可以保持很长一段时间未被发现，从而造成严重损害的数据库系统。因此，内部威胁问题在安全研究界中获得了很大的重视。此外，还发现内部人员是数据库系统安全的主要威胁（Murray，2005）.由于现有的安全措施不足以防止这种新的攻击，有必要开发一个有效的数据库入侵检测系统（DIDS），以保护信息免受恶意攻击。本文提出了一种基于密度的聚类方法，OPTICS（Ordering Points To Identify the Clustering Structure）（OPTICS（排序点以识别聚类结构））（Ankerst等人， 1999）应用于事务属性，https://doi.org/10.1016/j.jksuci.2019.05.0011319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comS. Subudhi，S.Panigrahi/ Journal of King Saud University973.ðÞ¼为系统建模，建立用于准确表示正常用户行为的配置文件。然而，数据库用户的工作职能的转变可能导致数据库活动的偏差，这些偏差表现为异常值，但不一定是恶意的。这是我们采用集成分类器进一步加强聚类模块的初步发现并学习行为变化的主要原因，从而最大限度地减少数据库所有者遭受的损失。在目前的工作中，我们应用了 bagging，boosting和stacking集成学习方法。据我们所知，这是有史以来第一次尝试应用集成的分类器和比较分析这些classi- fiers数据库入侵检测。本文的结构安排如下。第2节介绍了数据库入侵检测的相关工作在我们目前的工作中实现的各种技术的背景在第3节中介绍。我们描述了我们的入侵检测系统的方法以及第4节中的算法。第5节涉及从实验分析中获得的结果。最后，第6节总结了本文的贡献和研究成果。2. 相关工作Brahma和Panigrahi（2015）中引用的DIDS采用Arti神经模糊推理系统（ANFIS）来捕获用户行为配置文件。作者采用Sugeno模糊推理方法和人工神经网络（ANN）产生一些如果-那么规则。不符合这些模糊规则的传入事务被标记为恶意的。辛格（Singh）例如， 2016）描述了关联规则和聚类分析在从数据库使用模式中发现非法活动方面的重要性。首先，通过部署聚类算法，根据用户的角色生成正常配置文件一旦新交易不符合现有规则，它就会被标记为欺诈。Ronao和Cho（Ronao和Cho，2016）开发了一种基于异常的DIDS，用于检测提交给基于角色的关系数据库的恶意SQL查询首先，对用户执行的交易使用主成分分析（PCA）方法来构造用户的历史简档。随后，将具有加权投票的随机森林（WRF）分类器应用于这些配置文件以检测侵入活动。速度。然而，一个主要问题仍然存在，即在保护数据库免受恶意交易的同时，也需要降低误报率。Axelsson（2000）已经指出了这一事实，即由于基本速率谬误效应，IDS的性能更多地受到其减少虚警生成的能力的影响，而不是提高检测率。应对这一挑战是我们开展当前调查的主要动力之一。3. 背景研究为了理解我们提出的DIDS的训练和入侵检测过程，我们简要总结了所使用的技术的基本概念，即OPTICS和Enhancement学习器。3.1. 使用OPTICS进行集群在这项工作中，我们应用了OPTICS（排序点以识别聚类结构），这是一种基于密度的方法，可以通过将高密度区域与稀疏区域分离来识别噪声（离群值）（Ankerst等人，1999年）。该方法需要两个参数作为输入-表示半径的e和表示构建聚类所必需的点数的MinPts（Breunig等人，1999），并产生一个有序的点序列，描述聚类结构作为输出。假设C= {c1，c2，·· ·，Cn}是用于表示与n个用户相对应的n个行为模式的聚类，并且A= {a1，a2，·· ·，aj}是用于定义聚类的j个OPTICS算法的基本思想是，对于聚类Ci中的每个实例k，在Ne（k）中至少存在最小数目的实例MinPts对于MinPts的恒定值，基于较小e值的聚类比基于较高e值的聚类表现出完全密度连通集的性质。如果在由Ne（k）表示的实例k的e邻域内找到至少MinPts个实例，则称实例k 对于每个实例，OPTICS仅计算两个值，即芯距（cd）和可达性距离（rd）。对象k的核心距离（cd）（cde;Minpts（k））是实例k与其e邻域Ne（k）中的对象之间的最小距离，其表示为：Bu和Cho（2017）提出了另一种混合DIDS，它采用了卷积神经网络（CNN）和学习分类器系统（LCS）。LCS设计了新的transac-分钟kundefinedifjNekjMinPts<分钟距离k否则ð1ÞCNN是一种用于从数据库审计日志中识别任何异常事件的常规规则，而CNN用于分类目的。Wei等人（2018）提出的数据库安全模型已经部署基于量子不经意密钥传输的私有查询（QOKT-k相对于另一核心对象q的可达性距离（rd）（rde;Minpts（k，q））被定义为使得k从q直接密度可达的最小距离。PQ）协议以及低移位加法（LSA）技术来检查大型数据库系统的事务查询。另一个数据库安全系统是由三分之一undefinedifjNekjMinPtsmaxcdq;distq;k否则<ð2ÞYesin et al.（2018）通过建立普遍的与数据库模式的关系的基础彼等已考虑本地可达距离（lrdMinPts（k））的一个对象k是下面的模式对象，如过程、触发器、表和包，用于构造关于对对象的访问控制和数据库的其它方面的各种规则，例如，数据完整性，与MinPts的平均可达性距离的倒数-k的最近邻。、 Xr d1;MinPt sk;o抽象性和可恢复性。Jayaprakash和Kandasamy（2018）提出了一种基于异常的DIDS，该DIDS采用朴素贝叶斯监督分类器来找出入侵的SQLlrdMinPts 联系我们o2NMinPtsjNMinPtsð3Þ向数据库提交的查询从上述研究中可以发现，所有现有的系统都旨在检测数据库中的入侵活动，其中，o是k的邻居。通过离群值因子（OFMinPts（k））将对象k检测为离群值，该离群值因子被定义为MinPts的最近邻和k的lrds的比率的平均值。据观察.974S. Subudhi，S.Panigrahi/ Journal of King Saud UniversityÞ ¼jN ðkÞjMinPts位于集群内的实例的OF值接近1（Kim等人， 2013年）的报告。transaction_id：标识每个数据库事务query_type：表示用户调用的查询类型，Po NklrdMinPtso●OFMinPtsPunk2MinPtslrdMinPtsk3.2. 集成学习ð4Þ执行交易。table_list：数据库模式中的每个表都被分配了一个唯一的ID。该属性表示在事务期间访问的表ID的列表。● att_ list：指定在集成表示多个分类器的组合或聚合，以产生比单个学习器更好和更鲁棒的性能（Oza和Tumer，2008）。集成分类的数据点，并预测其标签的投票或平均的结果，每个单一的分类器。它通过选择不同分类器的良好组合来降低假阳性结果增加的风险存在各种类型的集成技术（Oza和Tumer，2008），但是最普遍采用的方法包括：装袋（Breiman，1996）、提升（Schapire等人， 2003）和堆叠（Wolpert，1992）。4. 该方法该系统首先对原始数据集进行数据预处理，将所有事务属性映射为数字，因为入侵检测所需的计算是基于整数值的。其次，对所有数值属性值应用规范化程序，以便在[0，1]范围内转换它们。这对于减少大值数据字段的偏差效应至关重要。然后使用OPTICS聚类从历史记录中构建用户的正常配置文件。如果一项交易符合任何既定的概况，则该交易被认为是真实的。另一方面，不符合的事务被传递到集成学习器，用于通过组合来自当前事务的信息以及相应数据库用户的过去行为来检测入侵的可能性。为了满足上述功能，建议的系统设计有以下三个组成部分：1. 活动生成器（AB）2. 用户活动数据库（UAD）3. 英语学习者（EL）4.1. 活动生成器（AB）活动生成器通过考虑用户过去的事务数据来处理数据库用户的配置文件构建我们表示由以下8个元组组成的每个事务：hu id;transaction id;query type;table list;att list;time slot;loc;time gapi其中，● u_ id：用于标识每个用户具体交易。time_slot：一天中执行事务的时间段。我们将一天的24小时分成48个时段，每个时段从00：00开始持续30分钟。loc：执行交易的位置。我们已经考虑了1个用于从办公室位置进行的交易，2个用于家庭，3个用于其他位置。time_gap：同一用户连续访问数据库之间的时间间隔，以分钟为单位。让我们考虑事务（Tr1）的示例，事务（Tr1）由两个查询Q1和Q2组成，事务（Tr1）已经由具有u_id= 10的用户提交到数据库以执行特定任务。Q1：从表T1中选择x，y，其中z = 1Q2：从T2中导出，其中w = 1，其中x、y和z是表T1的属性，w是表T2的属性。查询Q1访问的属性是z，x，y>，而查询Q2访问的属性是w>。在事务中，query_type是SELECT，n>，att_list是z，x，y，w>，table_list是T1，T2>。假设Tr1的transaction_id为1。在将分类值映射为整数之后，假设 query_typeSELECT ， n>= 1 ， 4> ，att_listz，x，y，w>= 40，23，12，6 >和table_listT1，T2> = 3，6 >。假设用户在下午6点到下午6点30分之间（time_slot= 37）从办公室（loc= 1）执行了交易，距离他/她的最后一次交易有21分钟的时间间隔因此，用户10的简档可以被描绘如下：10，1，{1，4}，{3，6}，{40，23，12，6}，37，1，21>.给出了两个用户的数据库记录示例用于示出如何将属性用于用户简档。在开始训练和入侵检测过程之前，我们对与事务性原始数据相关的所有特征进行数据预处理。数据预处理结束后，活动构建器通过应用OPTICS算法构建用户配置文件，该算法将处理后的属性以及e和Minpts值作为输入。对于数据集中存在的每个实例，核心距离（cd）和可达性距离（rd）值根据等式（1）计算。（1）Eq.（2）分别。观察到具有接近rd值的点形成一组（Ankerst等人， 1999年）。4.2. 用户活动数据库（UAD）UAD处理我们建议的DIDS中的事务存储仓库，该仓库提供关于真实Fig. 1. 示例数据库记录。●●●●●S. Subudhi，S.Panigrahi/ Journal of King Saud University975和数据库用户的侵入模式训练和建立模型需要大量的正常和侵入性交易的历史记录这样做是为了避免对合法用户造成不便，这些用户偶尔会偏离其正常活动。因此，我们维持了两个表，即用于存储每个用户的真实交易活动的真实历史表（GHT）和由各种类型的过去检测到的侵入性数据库交易组成的通用恶意历史表（MHT）只要在通过集群模块之后发现事务是真实的，我们就更新活动数据库中的GHT。另一方面，当交易在被授权学习者做出决策后被识别为真实/侵入性时，我们相应地更新GHT/MHT。UAD的这种更新为了更好地理解，我们在图2中给出了GHT和MHT的一些样本记录。从图中可以很清楚地看出，GHT通过将transaction id视为主键，仅存储每个用户的真实数据，而MHT存储通用恶意数据，而不管任何用户。4.3. 英语学习者（EL）在所提出的工作中，集成学习器是建立在装袋，提升和堆叠集成方法。所有这些集成都将来自活动构建器的异常事务和相应用户虽然有几种机器学习分类器可用，但在这项工作中，我们使用了以下五种机器学习算法-朴素贝叶斯分类器（Naive Bayes Classifier）非常简单，它保持了关于数据集中存在的特征的独立性的假设，并且可以在较少的训练数据上执行分类（Rish，2001）。DT算法简单，易于解释，可以处理偏斜和非线性数据（Quinlan，1986）。使用RI方法（Cohen，1995），以便通过利用一些规则来有效地挖掘数据集中存在的规则模式。这些推断规则（规则集）可以使用IF-THEN子句来表示，以便于理解，并用于新实例的分类。k-NN对噪声训练数据具有鲁棒性，并且本质上是直观的，因为它假定将新数据点分配给与特征映射空间中最接近它们的训练类相同的类（Cover和Hart，1967）。RBFN对离群值具有容忍性，并且可以在三层神经网络架构的帮助下有效地对未见过的样本进行分类（Schwenker等人，2001年）。bagging和boosting集成构造它们各自的学习模型，同时单独考虑上述分类器。每当来自活动构建器的不一致事务被馈送到装袋集合时，它会区分通过投票将相应交易视为真实交易或干扰性交易输出每个基本分类器的结果。在提升集成中，仅考虑由先前基本分类器标记的异常事务用于最终决策。同样地，堆叠集成在两个层中使用分类器的不同组合，即，层0（基础学习器）和层1（Meta学习器）。基学习器的结果被提供给Meta学习器，以实现提高的准确性和更低的虚警。一旦一个事务被标记为真实的或侵入性的，GHT或MHT将分别更新。所提出的系统的组件以及事件流如图3所示，而所提出的DIDS的算法步骤如算法1所示。图二、样本记录保存在UAD中。976S. Subudhi，S.Panigrahi/ Journal of King Saud University算法1提出了一种基于包围盒的数据库入侵检测算法5. 仿真及结果在2.40 GHz i5- 4210 U CPU系统上进行了实验，并在MATLAB 14a中实现了DIDS5.1. 数据生成为了显示我们提出的模型的有效性，我们已经在一个由41，390个交易记录组成的大规模合成数据集上对其进行了测试，因为现实生活数据或该领域的任何基准数据集都不可用。此外，即使在对现有的数据库入侵检测系统进行详细的文献调查后，也没有发现任何真实数据集的可访问性。在这项工作中，我们使用了（Panigrahi等人，2013），用于生成代表真实用户以及入侵者的行为的合成交易。他们在MS-SQLServer2000中开发了一个事务模拟器，该模拟器遵循标准事务Web基准TPC-W（事务处理委员会-Web）商业）。事务生成在模拟器中以表属性（att_list、table_list）以及事务属性（query_type、time_slot、time_gap、loc）的粒度级别进行控制。该模拟器由两个不同的模块组成，即真实事务生成模块（GTGM）和恶意事务生成模块（MTGM），以生成真实和恶意事务，另一个第三模块，马尔可夫调制泊松过程模型（MMPPM）定义和控制来自真实用户和入侵者的事务请求的到达率。MMPPM是一个双层马尔可夫调制泊松过程（MMPP），它由真实状态（SG）和恶意状态（SM）组成，它们的到达率分别为kSG 和kSM。MMPPM也是真正的和恶意通过这两个状态SG和SM以及它们对应的转移概率bSGSM和bSMSG来计算事务的概率值，而bSGSM表示从状态SG转移到SM的概率值，并且bSMSG表示从状态SM转移到SG的似然值。S. Subudhi，S.Panigrahi/ Journal of King Saud University977图三. 数据库入侵检测系统中的事件流。此外，由GTGM在模拟器中完成的真实交易的生成（Panigrahi等人，2013）已经由五个有限马尔可夫链规范-真正的选择马尔可夫链（GSMC），真正的插入马尔可夫链（GIMC），真正的删除马尔可夫链（GDMC），真正的更新马尔可夫链（GUMC）和真正的交易马尔可夫链（GTMC）。GSMC、GIMC、GDMC和GUMC分别根据基本的四个SQL命令（选择、插入、删除和更新）生成查询马尔可夫链GSMC、GIMC、GDMC和GUMC中所需的状态的数量由它们各自的查询类型的数量定义，即，如果选择查询的数量是R，则GSMC中的状态的数量也将是R。GTMC通过累积来自GSMC、GIMC、GUMC和GDMC的多个查询来产生不同类型的事务。GTMC的状态是四个，因为我们只考虑了四种不同的查询类型。类似地，由MTGM在模拟器中完成的恶意事务的生成（Panigrahi等人， 2013年，他也被...恶意选择马尔可夫链（Malicious Select Markov Chain，MSMC）、恶意插入马尔可夫链（Malicious Insert Markov Chain，MIMC）、恶意删除马尔可夫链（Malicious Delete Markov Chain，MDMC）、恶意更新马尔可夫链（Malicious Update Markov Chain，MUMC）和恶意交易马尔可夫链（Malicious Transaction Markov Chain，MTMC）。MTGM的所有功能与GTGM相似。此外，不同的高斯分布函数与用户定义的均值，（l）和标准偏差（r）用于生成var-用于模拟不同类别的真实用户以及入侵者的各种事务属性高斯过程的平均值和标准偏差在事务生成期间变化在实验过程中，我们设置了转移概率b SGSM ¼ 0和b SMSG 1/40压缩一代的真正和恶意交易内分别是MMPPM的状态SG和SM。为了衡量所提出的模型的效率，通过修改某些参数，如978S. Subudhi，S.Panigrahi/ Journal of King Saud University¼¼¼¼kSG;kSM;bSGSM;bSMSG;l和r。表1中列出了8种不同的模拟设置（S1至S8），用于显示模拟参数的变化。5.2. 性能分析为了分析所提出的系统的性能，使用以下性能指标（Powers，2011）：准确度、精度、F1_分数、真阳性率（TPR）和假阳性率（FPR）。准确性定义为正确分类的交易的百分比。精密度可以描述为正确的阳性检测百分比。TPR表示分类器正确识别的真阳性样本的比率。FPR测量被错误拒绝的真实样品的比例。F1_Score定义为精密度和TPR的调和平均值。所提出的DIDS的测试以10倍交叉验证（Refaeilzadeh等人，2009）技术，用于将数据集隔离到训练集和测试集，同时评估我们系统的性能。我们的DIDS的聚类模块的有效性取决于两个参数e和MinPts。因此，为了获得参数值的最佳选择，我们已经实验了如表2所示的Minpts和e的各种组合。从表中可以清楚地看到，准确度、TPR、F1_Score和FPR值随着Minpts的增加而增加，而精度值则减少。据观察，在参数值Minpts10和e0时，OPTICS算法产生最高精度= 69.90%和最低FPR=34.73%。最佳参数值（Minpts 10;e0）以粗体显示，以便更好地可视化。表3表示在不同性能度量上从使用装袋、提升和每个单独的单个分类器的集成分类器获得的结果的比较。从表中可以清楚地看出，与单独的分类器和其他集成相比，使用k-NN的集成通过以更高的准确度和最小的误报警检测入侵者而在装袋以及提升方面产生了有希望的结果。在表4中，我们示出了堆叠集成分类器的性能，该堆叠集成分类器包括以下五个分类器-通过在基学习器和Meta中使用不同的分类器组合，对堆叠集成进行了实验表1用于数据生成的模拟器设置。模拟器设置kSGkSMbSGS MbSMS GLRS114510.500.50S214410.150.50S314420.150.70S414320.100.80S512330.100.80S631240.100.90S741150.050.96S881150.050.99表2具有不同参数值的光学器件的性能表3单一分级机、袋式分级机和增压分级机在建议系统中的性能比较。S. Subudhi，S.Panigrahi/ Journal of King Saud University979学习器，用于实现最大分类精度以及最小误分类率。从表中可以明显看出，通过使用RBFN作为Meta分类器并使用其他分类器作为基本分类器，所提出的模型在所有指标上都给出了最佳性能= 3.5%。因此，我们选择了这种分类器组合（以粗体显示）用于堆叠集成。在分析表3和表4中所示的结果之后，很明显，与装袋和增压相比，堆叠的集合产生最好的结果。所提出的DIDS的计算复杂度取决于输入数据集的维度，即，元组的数量和每个元组中考虑的属性的数量以及训练集和测试集的大小。假设，m=训练样本的数量，n=特征的数量。所提出的系统的时间复杂度为O.5.3. 与其他工作的在本节中，我们将我们提出的系统与文献中发现的其他两个现有DIDS（Brahma和Panigrahi，2015; Ronao和Cho，2016）Brahma和Panigrahi（2015）的作者开发了一种DIDS（ANFIS-DIDS），它通过从数据库日志文件中收集数据来构建用户配置文件。然后使用基于Sugeno的ANFIS（人工神经模糊推理系统）分类器来分析当前交易并检查其正常配置文件的偏差。他们考虑了以下属性在执行事务时的事务、时隙和用户的位置，用于表示用户的行为模式。我们已经在合成数据集上用ANFIS进行了实验（Panigrahi等人，2013）通过设置所需的参数：节点数= 161，线性参数数= 448，非线性参数数= 36，参数总数= 484，训练数据对的数量= 18，模糊规则的数量= 64（Brahma和Panigrahi，2015）。同样，在Ronao和Cho（2016）中，作者提出了一种基于异常的DIDS，称为PCA-WRF（主成分分析为了实现他们的目标，他们最初使用PCA技术来提取必要的和不相关的属性，并从提交给数据库的查询中构建用户配置文件。在建立配置文件后，WRF分类器用于分析传入的交易以及用户配置文件，并对恶意交易进行分类。我们使用Panigrahi et al.（2013）中给出的数据集，按照Ronao和Cho（2016）中描述的方法，对他们的方法与我们的系统进行了比较评估。我们已经计算了所有DIDS以及集成的准确度、TPR和FPR，并在表5中列出了结果。在bagging和boosting集成中，我们选择显示基于决策树（DT）的集成，因为它与Ronao和Cho（2016）中描述的随机森林分类器密切相关。从表中可以发现，堆叠的系综（以RBFN作为表4使用堆叠式Enhanced分类器的拟议系统的性能。980S. Subudhi，S.Panigrahi/ Journal of King Saud University表5建议的Enhanced DIDS与其他系统的比较分析。Meta分类器）能够更有效地检测入侵行为，同时将FPR保持在最低。此外，据观察，Brahma和Panigrahi（2015）以及Ronao和Cho（2016）的计算复杂度高于所提出的DIDS。这是因为我们通过使用OPTICS聚类方法过滤大多数常规数据库事务，从而最大限度地降低了复杂性。只有可疑的交易（被发现偏离相应用户的正常配置文件的交易）才通过Encourage Learning组件进行最终分类。因此，在我们的例子中，DIDS处理的事务数量与传入事务的数量相比要少得多。6. 结论保护数据库免受入侵者的攻击在任何组织中都非常重要。在这项研究中，一个入侵检测系统已被提出，它涉及的应用OPTICS聚类和集成学习识别数据库中的入侵活动。入侵检测方法包括训练和测试两个阶段。在训练阶段，对输入数据集的特征进行预处理。然后，将OPTICS聚类应用于预处理的属性，以构建行为配置文件。在测试阶段，事务最初被传递到集群模块，用于测试其与任何简档的兼容性。如果发现事务偏离正常简档，则由集成学习器进一步处理该事务以确认不一致性。我们应用了三种不同的集成方法，即装袋，提升和堆叠，由五个不同的分类器-在大规模的合成数据上进行了实验，以分析我们所提出的系统的效率。通过与其他分类器、Boosting分类器和单个分类器的性能比较，发现k-NN此外，从堆叠获得的结果清楚地表明，使用RBFN作为Meta分类器和其他四个作为基本分类器优于所有其他集成。此外，我们的系统的优越性进行了验证，通过比较它与文献中提出的其他两种方法。资金这项研究没有从公共、商业或非营利部门的资助机构获得任何具体的资助。竞争利益一个也没有。确认作者非常感谢印度萨姆巴尔布尔拉的Veer Surendra Sai技术大学（原大学工程学院）计算机科学与工程系提供所需的便利设施和支持，使这项调查取得成功。引用Ankerst，M.，Breunig，M.M.，Kriegel，H. P.，Sander，J.，1999. OPTICS：排序点以识别聚类结构。ACM Sigmod记录，第28卷。ACM，pp. 49比60Axelsson，S.，两千基率谬误与入侵检测的困难ACM Trans. Inform.系统安全（TISSEC）3（3），186-205。梵天，A.，Panigrahi，S.，2015.一种基于人工神经模糊推理系统的数据库入侵检测新方法。Int. J. Reasoning-basedIntelligent System. 7（3 -4），254-260.布莱曼湖，一九九六年。装袋预测器。马赫学习. 24（2），123-140。Breunig，M.，Kriegel，H.P.，Ng，R.，Sander，J.，1999. OPTICS-OF：识别局部离群值。在：Aytkow，J.，Rauch，J. （编），数据挖掘与知识发现原理，讲义。科学，第1704卷。施普林格，柏林海德堡，pp. 262-270。Bu，S.- J.，Cho，S.- B、2017.深度学习和学习分类器系统的混合系统用于数据库入侵检测。在：混合人工智能系统国际会议。施普林格，pp. 615- 625科恩，W. W.，1995.快速有效的规则归纳。在：第十二届机器学习国际会议论文集，pp。 115- 123掩护THart，P.，一九六七年最近邻模式分类。IEEE Trans.告知。Theory 13（1），21Furnell，S.，2004.内部的敌人：内部攻击的问题。Comput.欺诈安全2004（7），6-11。网址：http://www.sciencedirect.com/science/article/pii/S1361372304000879。2017年全球欺诈调查。2016年向各国提交关于职业欺诈和滥用的报告。版权所有2016由认证欺诈审查员协会，公司。http://www.acfe.com/rttn2016.aspx，访问时间：2018年1月30日。Jayaprakash，S.，Kandasamy，K.，2018.基于八元组和机器学习的数据库入侵检测系统。2018年第二届创新通信和计算技术国际会议（ICICCT）IEEE，pp. 1413-1416..Kim，S.，Cho，N.，李，Y.，康，S.-H、Kim，T.，Hwang，H.，Mun，D.，2013年。基于密度的离群点检测在数据库活动监控中的应用。告知。系统前面15（1），55-65。默里，AC，2005年8月。来自网络计算内部的威胁。http：//www.example.comwww.networkcomputing.com/careers-and-certifications/the-threat-from-within/d/d-id/1213620，访问日期：2015年2月19日。北卡罗来纳州奥扎，Tumer，K.，2008.分类器集成：选择真实世界的应用程序。告知。Fusion 9（1），4-20.关于应用包围法的特刊。Panigrahi，S.，Sural，S.，Majumdar，A.，2013年。结合多证据和信念更新的两阶段数据库入侵检测。告知。系统前面 15（1）、35鲍尔斯，D. M.，2011.评估：从精确度，召回率和F-测量到ROC，信息性，标记性和相关性。昆兰，J.R.，一九八六年决策树的归纳 Machine Learning 1（1），81-106.Refaeilzadeh，P.，唐湖，加-地刘洪，2009.交叉验证。数据库系统百科全书。施普林格，pp.532- 538里什岛，2001.朴素贝氏分类器之实证研究。IJCAI 2001人工智能经验方法研讨会，第3卷。IBM，New York，pp. 41比46 Ronao，CA，Cho，S.-B、2016年。rbac中的异常查询访问检测使用随机森林和PCA管理数据库。信息科学369，238-250。Schapire，R.，2003.机器学习的提升方法：概述。在：Denison，D.，汉森，M.，霍姆斯角，澳-地Mallick，B.，于湾，澳-地（编），非线性估计与分类，统计学讲义，卷。171. 施普林格，纽约，pp. 149-171。Schwenker，F.，Kestler，H.A.，Palm，G.，2001.径向基函数网络的三个学习阶段。神经网络 14（4），439-458。S. Subudhi，S.Panigrahi/ Journal of King Saud University981辛格岛，巴西-地Darbari，V.，凯杰里瓦尔湖阿加瓦尔，A.，2016.用于数据库入侵检测和预防的基于条件遵守的事务分类。 2016 年计算、通信和信息学进展国际会议（ICACCI）。IEEE，pp.42比49韦角，澳-地是的，Cai，X.-问：刘，B.，王德铭是的，高，F，2018.一种具有理想数据库安全性和零故障的基于量子不经意密钥传输的私有查询的通用构造。 IEEETrans.Comput. 67（1），2-8。Wolpert，D. H.，一九九二年叠加泛化。神经网络 5（2），241-259。Yesin，V.I.，Yesina，MV，Rassomakhin，S.G.，Karpinski，M.，2018.以关系的普遍性为基础确保数据库安全。IFIP计算机信息系统与工业管理国际会议。施普林格，pp.510- 522

下载后可阅读完整内容，剩余1页未读，立即下载