Siamese神经网络用于同源语法攻击检测

26 浏览量更新于2024-01-09 收藏 585KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

⃝可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 6（2020）16www.elsevier.com/locate/icte基于Siamese神经网络的同源语法攻击检测维纳亚库马尔河Soman K.P.计算工程和网络中心（CEN），Amrita工程学院，Coimbatore，Amrita Vishwa Vidyapeetham，印度接收日期2019年1月1日;接受日期2019年在线预订2019年摘要攻击者使用同源或欺骗攻击方法来混淆域名、文件名或进程名。这种方法有助于创建在视觉上看起来与合法域名、文件名或进程名相同的域名、文件名或进程名。本文介绍了Siamese神经网络架构，该架构使用Keras字符级嵌入的递归结构的应用，通过考虑原始字符串形式的输入来学习最佳特征。为了进行比较研究，使用了各种经常性结构。通过递归结构获得的性能几乎接近。然而，与现有的方法（如编辑距离，视觉编辑距离和暹罗卷积神经网络）相比，c2020年韩国通信与信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：同源词;欺骗;深度学习;连体神经网络;递归结构1. 介绍网络攻击者使用新型攻击方法渗透信息和通信技术（ICT）系统。最近几天，针对信通技术系统的攻击数量和攻击复杂性继续呈指数级增长。其中一种著名的攻击是同源或欺骗，以混淆域名，文件名或进程名，并动机恶意活动[1]。大多数情况下，网络攻击者使用简单的字符替换方法，例如1替换1，0替换O等。字符替换还可以包括与大多数常见ASCII字符相似的Unicode字符。另一种方法是在字符串的末尾追加看起来与有效字符串相似的字符。总的来说，主要目的是使域名或进程名不被安全组织和网络管理员检测到。识别欺骗攻击最常用的方法之一是使用 Damerau-Levenshtein [ 2 ]估计编辑距离这意味着使用编辑距离估计一般来说，∗通讯作者。电子邮件地址：vinayakumarr77@gmail.com（Vinayakumar R.）。同行审议由韩国通信研究所负责教育与信息科学（KICS）。https://doi.org/10.1016/j.icte.2019.05.002该度量基于编辑的数量，例如插入、删除、替换或调换。基于距离度量的阈值，将字符串标记为可能的欺骗。这种方法在实时环境下的性能很差。另一种方法是基于自定义的编辑距离，它重视替换的视觉相似性。这为视觉上相似的字符提供了更小的编辑距离，并且比标准编辑距离功能[3，4]执行得更好。但是，与标准的编辑距离函数相比，通过此方法获得的性能相对适中。此外，基于视觉编辑距离和编辑距离的方法都是基于手动特征工程的。这被认为是一项艰巨的任务，因为它需要广泛的领域知识。此外，这些国家在敌对环境中更容易受到伤害。基于深度学习的方法在与自然语言处理（NLP），语音识别和计算机视觉应用相关的几个应用中优于现有方法[5]。在本文中，深度学习的应用转化为域名和进程名称欺骗的同源检测[6]。该方法优于现有的基于编辑距离和视觉编辑距离的方法。为了提取相似性，使用了连体卷积神经网络（Siamese-CNN）的应用。域和进程的名称被转换为2405-9595/2020韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。联系我们W联系我们我W 定义欧氏距离我ii= 1--}22− ++{−维纳亚库马尔河和Soman K.P. /ICT Express 6（2020）16-1917通过获取字符的ASCII值来创建图像。这些值被传递到Siamese-CNN中，以获得最能区分相似和不相似域名和进程名称的特征向量。在本文中，这项工作利用Keras字符级嵌入的应用将字符转换为数字形式，并使用Siamese递归结构网络（SRSN），并与SCNN和其他基于编辑距离和视觉编辑距离的经典方法进行比较。论文的其余部分组织如下：第2节提供了一个简短的回顾欺骗检测的相关工作。第3节包括建议的架构。第4节讨论了实验分析、观察和结果。第五部分是结论。2. 相关作品存在用于有效字符串匹配的各种方法。很少有作品重视字符串匹配的计算时间[7，8]。在[9]中提出了字符串匹配算法，该算法增强了最近邻搜索的性质。为了增强基于编辑距离的系统，使用了与字符视觉相似性相关的特征。因此，视觉相似性增强欺骗检测率相比，正常的编辑距离为基础的方法。然而，这些基于编辑距离的方法[3，4]并不完全适用于实时环境中的域名或在[10]中，作者讨论了对视觉上出现的字符串的特征的详细研究。在[11]中，作者讨论了n-gram文本表示与机器学习算法（如SVM和随机森林）在域级别上进行打字错误检测的应用。为了避免人工特征工程，[6]提出了Siamese-CNN用于域名或进程名称相似性检测。通过将每个字符转换为ASCII值表示，将字符串转换为图像表示。3. 建议的体系结构所提出的用于域名和进程名的同源或欺骗攻击检测的架构如图1所示。它使用Siamese神经网络架构[12]的应用程序来提取一组域名或进程名称之间存在的相似性，目的是检测假冒或欺骗攻击。在训练期间，架构采用一组域或进程名称以及与所建议的架构的相似性得分。这可以在数学上表示为（DP， DP′，S）n，其中DP是域Fig. 1. 建议的架构：训练暹罗神经网络的概述。网络接受域名或进程名称的欺骗对，并且循环结构正在训练，使得它们各自特征之间的欧几里得距离为0.0。Nw表示由w参数化的函数。所提出的架构旨在学习w，使得DW（DP1，DP2）对于相似字符串为0，对于不相似字符串为1。为了最小化w，[8]考虑了相似输入的小距离和不相似输入的大距离。在这项工作中，为了实现这一点，使用了[11]定义的对比损失函数。对比度损失在数学上定义为（i S）1（Dw）2（S）1max（0，m D）2，其中DD w（DP1）和D w（DP2），S0，1 0表示相似，1表示不同的是，max是最大值函数，m是裕度值。裕度值大多大于0，使得相似集合为0，不相似集合至少为m。所提出的架构的每个相同的神经网络包含嵌入层，随后是连体递归结构网络（SRSN），例如递归神经网络（RNN）、身份递归神经网络（IRNN）、长短期记忆（LSTM）和门控递归单元（GRU）。Keras字符级嵌入需要3个参数。对于域名，字典大小为200，域名最大长度为100，嵌入向量长度为128;对于域名，字典大小为250，域名最大长度为85，嵌入向量长度为128进程名称。在循环结构中，设置为128，RMS Prop优化器对16个字符串样本进行批量处理。4. 实验分析、观察和结果所有深度学习架构都是使用Ten- sorFlow，1Scikit-learn2和Keras3库实现的。实验在GPU支持的计算机上运行。为了评估性能-或进程名称，DP′是域或进程名称的欺骗S0、 1、0表示相似，1表示不相似。所提出的架构包含两个相同的神经网络。每个神经网络通过考虑由简单的比较能量函数合并的神经网络的共享权重和输出来获取不同的输入。采用欧氏距离作为比较能量函数，并对其进行了数学定义作为Dw（DP1，DP2）=E（Nw（DP1），Nw（DP2））=<$Nw（DP1）−Nw（DP2）<$2，其中（DP1，DP2）是一对字符串，在Siamese Recurrent Structures Network（SRSN）中，使用域和过程名称数据集的子集[6]。进程名称的合法样本包含小于或等于3的编辑距离（Damerau-Levenshtein）。这个距离非常小，有助于区分视觉相似性1 我的朋友们：//我的朋友们：/我的朋友们：/ 我是说，我的意思是，或g/。2 https：//scikit-learn. 或g/stable/。3 https：//keras. 我同意。18Vinayakumar河和Soman K.P./ICT Express 6（2020）16表1模型的性能-编辑距离百分比：按域或进程名称长度标准化的编辑距离。图二、域名欺骗的ROC曲线。编辑字符串样本的距离相似性。这种类型的数据集有助于识别基于距离函数的简单算法。进程名称至少由4个字符组成。这些名称是文件名和作为.dll名称，从国家软件参考库（NSRL）中选择[13]。欺骗对是通过以下字符替换生成的，其中包括ASCII和Unicode。域名也采用相同的方法，只是在距离值上包含约束。这主要是由于合法域名样本可能包含小于或等于4的距离值。这两个数据集都包含20，000个用于训练，15，000个用于验证，15，000个用于测试。数据集的每个样本都包含一对域名或进程名，其值为0（相似）或1（不相似）。所有递归结构运行到10个epoch。为了控制训练精度，使用验证数据集。这有助于避免过度拟合。在训练之后，在测试数据集上评估SRSN的训练模型的域和进程名称欺骗。使用受试者工作特征曲线，根据受试者工作特征（ROC）曲线下面积（AUC）评价各种模型获得的性能，并报告在表1中。域名和进程名称的ROC曲线如图1A和1B所示。分别为2和3X轴为假阳性率，Y轴为真阳性率，阈值为0.5，绘制ROC曲线。TPR是真阳性（TP）值与总真阳性和假阴性（FN）值之间的比值。FPR是假阳性（FP）值与总假阳性和真阴性（TN）值之间的比值。TP、TN、FP和FN定义如下：TP定义了被正确分类为相似的域或进程名称中的相似字符串样本的数量，TN定义了被正确分类为不相似的域或进程名称中的不相似字符串样本的数量，FP定义了不相似字符串样本的数量，无论是域还是进程名称，都被错误地分类为相似，FN定义了域或进程名称中相似字符串样本的数量。或过程名称不正确地分类为不相似。所提出的基于LSTM和GRU递归结构的方法比现有的方法，如编辑距离，视觉编辑距离和Siamese卷积神经网络Siamese-CNN表现得更好。图3.第三章。进程名称欺骗的ROC曲线。递归结构如RNN和IRNN的性能与域欺骗中的所有现有方法如编辑距离，视觉编辑距离和Siamese-CNN相比要低得多。在进程欺骗实验中，RNN和IRNN模型的性能优于现有的经典方法，如编辑距离和视觉编辑距离，但小于Siamese-CNN。主要原因可能是由于这两个模型都没有保持存储器来保存重要信息的事实。然而，RNN和IRNN的性能可以通过以下超参数选择方法来选择最佳参数来提高超参数在获得更好的性能方面发挥着重要作用[5]。此外，在数据集的子集上测试模型性能[6]。在整个完整数据集上测试性能仍然是未来工作的重要方向。这可以进一步增强各种SRSN在检测域名和进程名欺骗方面的性能。方法ROC-AUC域名欺骗Siamese-CNN [5]0.93Siamese-RNN（建议方法）0.84Siamese-IRNN（拟定方法）0.73Siamese-LSTM（建议的方法）0.97Siamese-GRU（建议方法）0.98视觉编辑距离[6]0.89编辑距离[6]0.81编辑距离百分比[6]0.86进程名欺骗Siamese-CNN [5]0.77Siamese-RNN（建议方法）0.79Siamese-IRNN（拟定方法）0.58Siamese-LSTM（建议的方法）0.95Siamese-GRU（建议方法）0.95视觉编辑距离[6]0.43编辑距离[5]0.51编辑距离百分比[6]0.44表2维纳亚库马尔河和Soman K.P. /ICT Express 6（2020）16-1919距离和暹罗卷积神经网络。详细的参数细节暹罗模型。方法域名称欺骗总参数过程名称欺骗总参数然而，相同的实验分析可以在完整的数据集上进行测试。此外，对抗方法的概念可以映射到进程或域名。这些仍然是今后工作的重要方向。Siamese-CNN [6] 148，832Siamese-RNN（建议）58，496 58，496Siamese-IRNN（建议）58，496 58，496Siamese-LSTM（建议）157，184 157，184Siamese-GRU（建议）124，288 124，288所有SRSN的参数详情见表2。详细的配置参数详情可在.4与Siamese-CNN相比，所提出的模型在计算上是便宜的[6]。如表1所示，Siamese-LSTM和Siamese-GRU获得的性能相同，并且在域名欺骗方面 Siamese-GRU 优于Siamese-LSTM。然而，与Siamese-GRU相比，在域名和进程名称中基于Siamese-LSTM的欺骗检测在计算上是昂贵的，并且Siamese-LSTM包含与Siamese-GRU相同的更多数量的参数。5. 结论和今后的工作本文介绍了一种用于域名或进程名同源或欺骗攻击检测的连体递归结构网络（SRSN）。在字典的基础上，将域名或进程名的字符转换为索引、数字表示，并传递给SRSN。SRSN使用Keras字符级嵌入，遵循各种递归结构进行特征提取。SRSN模型在训练过程中使用欧氏距离函数来估计递归结构提取的字符串特征向量的相似性。欧几里德距离有助于以这样的方式提取最佳特征，即对于包含相似字符串的特征向量，距离较小，而对于不相似字符串，距离较大。通过所提出的方法获得的结果表现优于编辑距离，Vi-竞合利益作者声明，本文中不存在利益冲突。引用[1] S.P. Singh，A.R. Maini，Spoofing attacks of domain name systeminternet，in：Proceedings published in International，2011。[2] F.J. Damerau，一种计算机检测和纠正拼写错误的技术，Commun。ACM 7（3）（1964）171[3] A. Linari，F. Mitchell，D. Duce，S.莫里斯，Typo-squaring：Thecurseof popularity。[4] P. Black，Compute Visual Similarity of Top-Level Domains，2008.[5] Y. 莱昆湾，巴西-地本焦湾Hinton ，Deep learning，Nature 521（7553）（2015）436.[6] J. Woodbridge，H.S.安德森，A. Ahuja，D. Grant，Detecting homo-attacks with a siamese neural network，arXiv preprint arXiv：1805.09738.[7] D. Deng，G. Li，J. Feng，A pivotal prefix based filtering algorithmforstring similarity search ， in ： Proceedings of the 2014 ACMSIGMODInternational Conference on Management of Data，ACM，2014，pp. 673 -684。[8] D. Deng，G. Li，J. Feng，W.- S. Li，Top-k string similarity searchwithedit-distance constraints，in：Data Engineering（ICDE），2013IEEE29thInternational Conference on，IEEE，2013，pp. 925-936[9] J. Wang ， G. Li ， J. Fe ， Fast-join ： An efficient method forfuzzytoken matching basedstring similarity join ， in ： DataEngineering （ ICDE ）， 2011 IEEE 27th International Conferenceon，IEEE，2011，pp. 458-469.[10] T.R. Trabasso，J.P. Sabatini，D.W.马萨罗河从教育学到教育学：纪念理查德·L·卡尔菲的论文集。Venezky，PsychologyPress，2014.[11] R. Hadsell，S. Chopra，Y. LeCun，通过学习不变映射来减少模糊性，在：IEEE，2006，pp. 1735-1742年。[12] J. 布罗姆利岛Guyon，Y.LeCun，E.萨金杰河Shah，使用连体时间延迟神经网络的信号验证，在：神经信息处理系统的进展，1994，pp. 七三七七四四[13] T.A. 国家软件参考图书馆（National Software Reference Library）。4https：//github. com/vinayakumarr/homoglyph-Siamemese.

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

Siamese神经网络用于同源语法攻击检测

一种基于Siamese卷积神经网络的变化检测技术.pdf

融合LeNet-5和Siamese神经网络模型的人脸认证算法研究.pdf

介绍一下Slamese神经网络

孪生神经网络和三元组神经网络

基于卷积神经网络的视频目标检测 csdn

siamese-pytorch-master

飞桨实现域名比对的算法

孪生卷积神经网络matlab

孪生网络与传统的神经网络有何不同之处？

孪生神经网络 验证码

孪生神经网络可以用来分类回归吗》？

卷积神经网络算法概述

python siamese函数

最好的神经网络匹配算法

介绍一下siamese network

孪生神经网络处理过程

Siamese R-CNN

Siamese是对比学习方法吗

请写出STSNet神经网络的卷积过程

基于深度学习的短文本相似度分析

最新资源

孪生神经网络验证码