数字证据分析中的增强型多类支持向量机模型及其文件系统应用

99 浏览量更新于2024-01-16 收藏 914KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种改进的多类支持向量机模型及其在受数字犯罪影响的文件系统分类中的应用拉米·穆斯塔法Mohammad计算机信息系统系，计算机科学和信息技术学院，伊玛目阿卜杜勒拉赫曼本费萨尔大学，邮政。Box 1982，达曼，沙特阿拉伯阿提奇莱因福奥文章历史记录：收到2019年2019年10月5日修订2019年10月26日接受在线预订2019年关键词：数字取证文件系统支持向量机日志文件数字证据A B S T R A C T我们今天所目睹的数字革命与网络犯罪革命齐头并进。这一无可辩驳的事实是使数字取证（DF）成为一个紧迫而及时的调查主题的主要原因。由于文件系统是一个丰富的数字证据来源，可以证明或否认数字犯罪。然而，尽管有许多工具可用于从文件系统中提取可能具有决定性的证据，但仍然需要开发有效的技术来评估提取的证据并将其直接与数字犯罪联系起来。机器学习可以被视为一种可能的解决方案。本文提出了一种增强型多类支持向量机（ESVM）模型，旨在提高分类性能。EMSVM为在建立SVM模型时选择最有效的参数集提供了一种新的技术。此外，由于DF被认为是一个多类分类问题，由于文件系统可能被一个以上的应用程序accec- ced的事实，EMSVM通过支持多类分类增强了类分配机制。然后，通过检查文件系统的历史活动来了解恶意程序是否操纵了它们，从而研究了所提出的模型在分析定罪数字证据中与几种机器学习算法相比，从该模型中获得的结果是有希望的。©2019作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 导言和动机计算机、网络和互联网已经成为我们日常金融和社会活动的基本组成部分。个人用户不是这些技术的唯一受益者，组织也从中受益，以实现其最终目标并增加其价值。例如，提供在线和基于云的服务的组织有更大的机会通过为世界各地的客户提供服务来确保竞争优势（Mohammad和AbuMansour，2017）。不可否认的是，互联网方便了接触和服务世界各地的客户，没有任何市场限制，并与电子商务的可行使用。如今，进行网上交易的消费者数量大幅增加，沙特国王大学负责同行审查制作和主办：Elsevier电子邮件地址：rmmohammad@iau.edu.sa并且作为技术改进的必然结果，其数量仍在增加。数以亿计的美元不断通过电子方式进行交换。如此巨额的现金诱使诈骗犯发起他们的不诚实活动。因此，计算机和互联网客户可能容易受到几类风险的影响，这些风险可能导致品牌声誉受损、私人信息丢失、身份盗窃、财务损失，最重要的是，客户对电子商务和基于网络的服务失去信心，或者在最坏的情况下，对所有新技术失去信心，而这些新技术首先是为了方便我们的日常生活而发明的因此，计算机和互联网对商业和个人流程的有效性变得值得怀疑（ Mohammad 和 AbuMansour ，2017）。总的来说，尽管新技术可能具有惊人的个人或组织收益潜力，但它也可能被用作进行几次网络犯罪攻击的有效方法。2018 年，约有 7 亿人成为至少一种网络犯罪攻击的受害者（Bera，2019）。然而，只有10%的事件实际上报告给主管当局（鲍威尔，2019）。因为受试者可能会感到害羞、羞愧，或者仅仅是因为他们认为对这些罪犯没有任何威慑行动另夕hhttps://doi.org/10.1016/j.jksuci.2019.10.0101319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com180R.M.A. Mohammad/ Journal of King Saud University尽管一些政府采取了坚定的主动行动，但政府机构为减轻计算机滥用犯罪所需的合格和有经验的人员的可得性仍然存在争议2006年，美国前总统W.布什十年前，澳大利亚当局与微软签署了一项合作协议，后者将培训执法官员如何以最有效的方式处理不同类型的网络犯罪（Mohammad例如，2015年）。英国反过来加强了其法律武器库，以防止欺诈和网络犯罪事件判处10年监禁过去十年中，针对网络犯罪的高发生率，出现了各种研究领域。数字取证（DF）就是其中之一。通常，DF调查被定义为利用科学标准和可靠工具来识别、收集、维护、记录、验证和分析存储在电子设备的主存储器和辅助存储介质上的与可疑事件直接相关的信息的精确程序，目的是实现由该事件造成的损害、事件的顺序、触发事件的动作，以及是谁实施了这一事件。这些可疑事件对个人和金融机构都产生了巨大的影响。在个人层面，这些可疑事件的结果可能是私人信息和金融ID被盗。在机构层面，机构的财政状况可能会因商业秘密外泄而恶化，这肯定会损害机构的形象和声誉DF程序通常响应于几种类型的电子犯罪而启动，其中我们称之为电子恐怖主义、知识产权盗窃、洗钱、数据滥用、未经授权访问私人信息、非法访问计算机系统等（Nelson等人，2016年）。一般来说，DF调查旨在通过识别、收集、分析和重建犯罪相关事件来确定数字犯罪的犯罪者，以使用可靠和可复制的证据来确认或否认犯罪者与犯罪的关系，然后以可接受的形式将其提交给法院。所有类型的数字存储介质，即USB记忆棒、硬盘驱动器、磁条、ZIP磁盘，无论它们是否存在于移动设备、数码相机、网络设备或个人计算机中，都要在取证分析期间接受检查。作为一个不可避免的结果，在调查电子犯罪现场时可以收集的数据量将急剧增加。然而，所收集的数据的真正价值可以通过其产生有助于决策的准确信息的能力来验证。通常，DF调查涉及传统的手动活动，熟练的调查人员利用他们的经验使用一些工具生成描述数据洞察的报告，并将其提交给法院。然而，对于DF研究人员来说，理解原始收集形式的数据可能是一项艰巨的任务。因此，可能会丢失一些有用的信息。因此，通常使用LastActivityView（ NirSoft ）、 Sleuth Kit （ Sleuth Kit ）和 SANS SFIT （ SANSDFIR）等工具将收集的数据转换为更易于理解的形式。一旦完成数据转换，就可以使用一些统计工具来提取和导出感兴趣的数据。然而，如果收集的数据的大小和维度急剧膨胀，手动分析过程可能会恶化，并且可能产生不准确的、有时不切实际的结果。调查成本是人工分析可能不是正确的分析方法。在此必须指出，调查成本包括财务成本和时间成本。更重要的是，如今调查人员可能面临非常复杂的事件，需要在收集的数据中寻找连锁线索以获得一些全面的证据，这也是不依赖人工分析的另一个原因数字取证调查员可能面临的主要问题之一是所谓的范围蠕变（Nelson等人， 2016年），这是研究人员需要研究的大量数据的直接结果。因此，当数据分析超出传统人工分析的能力时，调查人员可以诉诸更可靠和有效的方法来挖掘收集到的数据，以获得结论性和全面的证据围绕数据挖掘（DM）和机器学习（ML）的解决方案是有前途的解决方案。 DM和ML已经证明了它们在许多领域作为为决策者提供准确信息的有效方法的能力（Mohammad etal. ， 2013 b; Khemphila 和 Boonjing ， 2011; Lee 和 Xiang ，2001）。DM和ML可以定义为（“从多个角度探索数据并将其转换为有意义的形式的过程”）（Kaufmann等人， 2011年）。有几个来源的歧视性证据可以收集，例如临时文件，cookie，Web浏览器历史文件和日志文件。然而，系统文件仍然是关键数字证据的最宝贵来源。然而，文件系统可以容易地修改，无论最初是为了隐藏某些证据，还是通过常规计算机系统操作无意地修改。识别受可疑事件影响的系统文件是确认或否认被告与事件关系的重要步骤这实际上将有助于识别事件重建中应该使用的系统文件集即使是报告也非常有助于了解事件实际上是如何发生的，因此了解系统中的任何弱点，然后通过解决这些弱点来做出响应，以避免未来发生类似的攻击。系统文件附带的元数据也是数字犯罪调查人员的有用信息来源问题在于多个应用程序可能在不同的时间段操作相同的系统文件因此，了解影响系统文件的事件的确切顺序是非常重要的，这样调查人员就可以确定特定活动是否对应于可靠的或恶意的应用程序。目前的研究利用支持向量机（SVM）的概念来创建一个新的模型，该模型可以用于分析系统文件活动，以实现它们是否被特定的软件应用程序访问所提出的模型注意充分搜索最佳参数，以达到最佳的分类结果。此外，该模型的目的是确定系统文件，这确实有助于重建数字犯罪事件。推荐模型的性能将与其他几个DM和ML进行对比技术.支持向量机由于其在有限的训练数据集或巨大的训练数据集上的泛化能力，一直是并将继续成为许多研究者关注的焦点换句话说，通常SVM模型不会遭受维度困境，这被认为是大多数DM和ML方法遇到的常见问题。SVM具有统计学习理论的基本理论参考，还有其他几个原因促使我们采用支持向量机，其中最重要的是，这种算法被证明是有效的，在许多领域R.M.A. Mohammad/ Journal of King Saud University181并且在不同的比较标准方面优于许多其他DM和ML算法（Qiu等人，2020年; Wu等人，2020;Dongil等人， 2020年）。在这项研究中，使用MATLAB环境（MathWorks，2019）创建并测试了增强型SVM（EMSVM）模型。这种算法遵循一种系统的方法来搜索将产生更好的分类精度的参数值。实验结果表明，本文提出的算法优于本文所考虑的所有DM和ML算法。这些结果并不是偶然实现的，而是由于所提出的算法构建的有效方式。总体而言，该算法给SVM算法的机会，添加文件系统取证到其长列表域，它可以成功地实现极好的分类结果。本研究的其余部分的顺序如下：第2节提供了一个背景讨论，将早期的工作与本文中介绍的工作联系起来。所提出的模型在第3节中进行了说明。同一节阐述了选择所建议模式参数的程序。此外，本节还展示了推荐的模型如何处理多类分类域，因为本研究中计算的域是多类分类的一个很好的例子。当然，进行了许多实验来评估EMSVM的适用性。这些实验在第4节中描述。所得结果详见第5节。最后，在第6中给出了结论。2. 背景与文献综述一般来说，有许多迹象表明，通常表明一台电脑是否是网络犯罪的受害者。如果出现这种迹象，就会促使对DF进行调查。与网络犯罪事件相关的迹象可能包括：PC启动非常慢PC需要合理的关机时间数据丢失或损坏在任务管理器中运行奇怪的进程存储空间突然不足警报不必要的弹出警告，可能会传播恶意的Web链接暴力警报笔记本电脑电池迅速耗尽无线连接在短时间内多次显示“通常，DF调查旨在回答以下五个主要问题：1- 有没有什么可疑的活动需要展开调查？2- 事件背后的动机是什么？3- 哪些文件和文件夹受到攻击的影响？4-袭击是什么时候开始的5-如何犯罪（犯罪武器）？该领域现有的研究集中在收集和检查从各种来源获得的证据，这些证据可能能够对这些问题提出明确的答案。虽然，系统文件受到了极大的关注，与其他可能的证据来源相比，它们可能提供的可靠细节（Cho和Rogers，2011）。1995年，Pollitt创立了检查不同可能的计算机证据的基本原则（Pollitt，1995）。Pollitt建议了一个4阶段的程序来精确定位数字证据。这些阶段是从向法院提交文件证据的程序中产生的，它们涉及“获取、鉴定、评估和承认”。2001年建议了数字取证分析的路线图（Palmer，2001）。该路线图被认为是迄今为止实施的大多数建议模型的基础，它包括ClintCarr和Gunsch在2002年提出了一个主要受Palmer，2001年影响的模型，称为该模型在（Palmer，2001）建议的阶段基础上增加了两个阶段，即“准备和接近战略”。这些阶段将在前两个阶段之间的某个地方完成。第一个增加的阶段旨在设置通常被认为在解决和分析网络犯罪方面有用的设备和工具另一方面，第二个增加的阶段旨在根据对观众和参与技术的公认影响制定分析方法。然而，正如模型创建者所声称的那样，该模型的关键弱点是它非常通用，最重要的是没有精确的评估策略。纵观（Palmer，2001）和（Pollitt，1995）中推荐的阶段的全貌，这些阶段被认为是几乎所有后续研究的支柱，我们可以清楚地认识到，进行DF分析的阶段与创建/开发DM和ML模型的阶段是一致的然而，大多数此类研究都同意这样一个事实，即事件重建程序绝对是每一个成功的DF调查的重要任务这反过来又要求决定最具决定性的证据组。研究人员在（亨利等人，2007年）声称，事件重建程序开始于整理决定性的证据，这些证据通常用于形成对事件的初步假设。然后，通过创建关于事件的假设来开始实际的DF分析这些假设将在之后进行评估和分析。最后，得出结论。研究人员在（Chabot等人，2014），建议将系统行为演示为“有限状态机”。因此，动作重构通常被看作是寻找与证据所施加的约束相匹配的变化序列的过程。Rynearson在2002年提出了一种创新的行为重建方法，该方法主要依赖于识别定罪数据对象及其之间的关联。数据对象包括与若干事件的关系、功能和时间关联。基于本体的技术有效地应用于动作重构。作为一个例子，研究人员在（Schatz等人，2004）建议收集和保留事件，然后通过应用本体技术，它们将能够重建先前的事件。在这种方法中，对象随时间的任何修改都被描述为实体。然而，这种技术的主要挑战是如何表示时间模型，因为研究人员使用瞬间而不是间隔。在（Zhuet al.，2009年），建议使用驻留在Windows注册表中的“Shellbag信息”。Shellbag拥有用户的个人偏好，包括窗口位置，窗口规格，文件夹位置等，此外，他们提供有关文件夹和文件的详细信息，即使在他们发生更新，删除或移动。另一种利用计算机注册的方法是在（Carvey，2005）中提供的。研究人员建议使用保存在“NTUSER.DAT”中●●●●●●●●●●●182R.M.A. Mohammad/ Journal of King Saud University所有用户的配置都保存在计算机注册表中。目前，已经开发了许多免费和商业实用程序来帮助整理操作并将其保存在存储库中，因为如果以原始格式提供，则很难评估收集的证据。通常，攻击者可能会通过改变几个重要文件的类型来隐藏它们，从而努力保护自己的足迹。例如，将文件类型从文本转换为图像。在2003年，一种创新的技术被构建，使用SVM通过分析文件内容内部的结构来识别文件类型（DeVel，2003）。SVM还正确地用于区分Windows注册表中的异常操作（Carrier和Spafford，2005）。然而，研究表明，“概率异常检测算法”的结果显然，文本文档和电子邮件在进行取证调查时被视为有价值的证据全球有近30亿个电子邮件帐户。然而，基于企业的电子邮件帐户占25%以上。对于每一个企业电子邮件超过100电子邮件消息通常是每天发送和交付。这些数字无疑表明，电子邮件实际上是一种重要的通信方式，因此被视为一种通常不能忽略的可能证据来源。在处理电子邮件时，一项基本活动可能是作者身份验证和属性。许多研究通过调查电子邮件文档结构（即“电子邮件标题”，“段落数”和“行数”等）来解决这个问题。以及语言模式（即，“词汇丰富度”、“标点符号的出现”、“字符计数”等）。在（Vel等人， 2001）SVM再次显示了它的能力，在包含156封电子邮件的数据集上，它获得了84%到100%的准确率。总的来说，导致开始制造的研究路线图-使用DM和刺激我们进行这种再刺激可以在表1中栓化。3. 增强型多类支持向量机模型本节全面描述了ESVM。图1显示了构建所提出的EMSVM的关键阶段，并在接下来的小节中详细解释了这些步骤。3.1. EMSVM分类器SVM被认为是一种基于几何的ML方法，具有建模变量之间复杂关系的独特能力。支持向量机能够很好地结合泛化能力和处理维数灾难一般来说，诅咒表1路线图的研究导致使用DM技术的DF。参考文献贡献（Pollitt，1995）研究不同可能性计算机证据（Palmer，2001）数字取证分析图1.一、建立EMSVM的主要阶段维数的增加对DM和ML算法的性能产生了负面影响（Mohammad和Alqahtani，2019）。然而，支持向量机已经脱颖而出，成为一种天才的技术，即使很少的例子被用于训练算法，它也能够支持向量机是例外的核函数，有效地映射到更高的维度，使他们可以很容易地分离非线性可分离的问题。内核映射为大多数常用模型提供了一个统一的框架。通过将训练数据集的初始维度空间转换为更高维度空间，可以将非线性可分离样本（“输入空间“）映射事实上，支持向量机最初是为分类领域而发展起来的，但它在回归领域也证明了自己的能力和效率本研究中的案例然而，众所周知，分类模型越能够最大化分离类别的边缘，模型将越一般化（Witten等人，2011年）。在SVM中，通常通过创建一组向量来实现泛化，所述向量可以是稀疏的，但同时在将一个类与另一个类分离时是决定性的（Gonsalves等人，2019年）。位于向量边界上的示例封装了分离类所需的信息，因此可以稍后用于对未见过的示例进行分类。图图2示出了裕度如何能够使用SVM分离2组数据之间的类值。（ClintCarr和Gunsch，2002年）在（Palmer，2001）中建议的阶段基础上增加2个阶段（亨利等人， 2007）事件重建过程开始于整理决定性证据（Chabot等人， 2014）将系统行为演示为“有限的国家机器（Schatz等人，2004）使用基于本体的技术（Zhu等人， 2009）使用驻留在Windows中的“Sh el lb a g in fo ”登记处（Carvey，2005年）利用“NTUSER.DAT”中保存的信息（Carrier &Spafford，2005）使用SVM识别文件类型图二. 在SVM中创建保证金。R.M.A. Mohammad/ Journal of King Saud University183.- 是的Kx：x 1/4tanhcxxxr7J J.X/.XnX1/-iX.Kx：x 1/4x1/5mmJJ.- 是的Kx：x¼exp-cx-x6iJIR我 J我J一般来说，在任何分类问题中，最重要的目标是识别特定训练数据集T ={X，Y}的输入变量和类变量之间的关系。其中，XsRs表示n个输入要素的n × m矩阵，被称为自变量或预测器，并且m个示例也被称为训练实例。实际上值得注意的是，在分类问题中Y是R，而在回归问题中X是R。为了进一步说明，让我们假设存在分类问题其具有训练数据集T={xi j，xi +1 j +1 ，.， x nm ，c1 ，c2，. 其中i = 1，2，.. . ，n表示输入特征，j = 1，2，. . ，m表示示例，并且c表示训练数据集中的类值，该训练数据集具有n个输入特征、m个示例和t个类值，其中t大于1。训练数据集用于创建分类模型（“在我们的研究中使用增强的SVM模型“），将输入变量XsRs映射到高维特征空间H，并创建一个“最佳分离超平面（OSH）“，该超平面最每个类H“的最近数据点另一个与神经网络相关的核函数称为sigmoid内核。该核函数在1995年首次使用（Cortes和Vapnik，1995），并使用下面的等式（7）不我其中c和r是核因子。3.2. EMSVM中的参数设置当构建任何分类模型时，为了实现有效的训练并且在对所产生的分类模型进行合理测试之后，需要研究并找到最重要的参数的理想值。鉴于SVM模型具有至关重要的参数，这些参数对模型的整体性能以及其针对当前分类问题的分类能力具有不可辩驳的影响目前采用的是确定性参数勘探策略nSGN1/1yi/i·K。xi：xj快！ð1Þ研究以确保实际选择了理想的参数值。一般来说，当构建任何SVM模型时，应该仔细选择的最重要的参数是C，其中x j = 1，2，.. . ，Z是所谓的系数-系数i以及偏差b是使用“拉格朗日对偶方程“获得的（2）也称为“拉格朗日乘子上的界“，k，”QP中的条件参数“，K，”核“。另一个应该考虑的参数是e（“Epperity“），它定义了不对错误进行惩罚的公差范围。通常，这些参数是Maxn1/1n2升1Xj1/4/i/j·yiyj·K. xi：xj！ð2Þ使用反复试验的方法进行选择，这是一个艰苦和压倒性的过程（Tzu-Liang等人， 2015; Jin等人， 2014; Lai等人，2008年）。在这项研究中，所有上述参数需要建立一个强大的支持向量机模型调整，其中：n/iyi¼031/1这里，xj仅当06/i6C时才被称为支持向量。其中C是控制误分类误差和裕度之间的权衡的正则化因子。换句话说，C调节在最小化模型的复杂性和最小化训练过程的错误率之间的权衡成本。这里应该提到的是，如果C太大，则SVM可能产生过拟合模型，因为SVM对于不可分离的点具有高惩罚。然而，较小的C值可能会产生拟合不足的模型。然而，K是负责将数据集转换为超平面的核函数有几种类型的核函数可以用于支持向量机。最常用的是d次的多项式函数按照方程计算。（四）：K. x：x±1/4。xT·x1d4a该方法的工作原理如下：对于所产生的训练集和测试集的每次运行，为参数C、k和e保存所获得的在给定范围内的参数的所有可用值内挖掘可以确定理想的性能测量以及用于固定特征集的参数的相关值对于手头上的每个SVM内核，每次都使用渐进的参数步骤来重做此过程因此，确定了与最佳总体性能测量相关联总的来说，下文解释所提出的参数搜索方法的步骤：步骤1：从可能的内核列表中选择初始内核即多项式、RBF、线性、高斯和Sigmoid。步骤2：使用即准确性。这里，网格搜索算法（Bergstra和Bengio，2012）。用于识别理想核使用log2中的总体准确度空间第一，双重交叉值得一提的是，多项式函数恢复为线性函数，如果d = 1，在这种情况下，则忽略该等式。因此，线性核函数可以根据等式（1）计算。（五）：不我另一方面，RBF（也称为高斯核）被计算，如等式（1）所示。（六）：DJ其中c控制高斯宽度。换句话说，它在Polynomial kernel中扮演着与d相同的角色，因为它控制着生成的分类器的灵活性。这里，c/212，r是一个自由参数。验证用于参数选择。然后，在空间中的理想点被认为是一个中心点和10折交叉验证应用与辅助参数。如果获得更好的参数值，则它们将作为新的中心，并再次应用10折交叉验证。这个步骤应该一遍又一遍地重复，直到没有得到更好的参数，或者直到参数位于网格的边界。第3步：如果还有其他可用的内核，请添加它并转到第2步。否则，请转到步骤4。步骤4：找到最佳的性能度量及其相应的内核和参数设置。第5步：通过使用第4步中的内核和参数设置来训练最终模型。第6步：使用第5步中创建的SVM对未见过的数据集示例进行分类。184R.M.A. Mohammad/ Journal of King Saud UniversityntS联系我们kts'ts中文（简体）t3.3. EMSVM中的类分配DS qXsvz1/2y K qq b9将数据集示例分类为三个或更多个中的一个的情况其中nt表示第t个最佳超平面中的SV数量，kts可能的类。然而，将示例分类为两个类别之一被称为二元分类。多类分类不能与多标签分类混淆，在多标签分类中，可以对每个示例进行多标签预测。例如，在DF分类中，文件系统活动之间可能会有重叠。例如，许多文件系统碰巧在多个应用程序之间共享。因此，某些系统文件可能与多个应用程序相关联。虽然一些分类方法通常可以使用两个以上的类，但其他方法恰好是自然的二进制方法。SVM被认为是这样的方法之一（Nazari和Kang，2015;Ma和Chen，2015）。然而，支持向量机可以转换成多类分类器，通过使用一些技术。可能最广泛使用的技术是该方法包括为每个类训练一个分类器，将该类样本视为正样本，将所有其他类型的样本视为负样本。这种策略需要基分类器生成其决策的实值置信率，而不是简单地产生单个类别标签。然而，标准的one-vs-rest多类分类SVM模型可能会导致所谓的拒绝区域困境，从而导致整体性能的准确性。为解决此问题，本研究提出一种以核心度量为基础的技术.考虑图中所示的情况。3.第三章。如果仅仅是一个单一决策函数（DS）当然是可以接受的，样本可能落在A区，因此应进行常规分类。在没有DS或多个DS是可接受的情况下，对于至少一个DS，示例将落入拒绝区域B或C内。此外，在多个DS是可接受的情况下，对于至少一个DS，示例将落在拒绝区域B内。在所有DS都不可接受的情况下，示例将落在拒绝区域C. 无论何时，只要这些例子落入任何拒绝区域，标准的一对余技术就可能不起作用。为了处理这种情况，计算的空间距离之间的例子和相关的DS用于分类这样的例子。例如，如果示例q*落在拒绝区域B之下，则必须确定q* 与第t个最佳可接受超平面之间的距离s（q*）该距离根据Eq.（八）、表示第t个最佳超p通道中的第s个SV的是本征向量，是第t个最佳超平面中第s个SV的类值。然而，K<$qts：qω<$表示qω和qts之间的核函数的值。此外，bt是第t个超平面的偏差。总的来说，例子越接近决策面，错误率就越高将进行分类。因此，应使用等式将示例划分为具有较高距离的类（十）、qωsargmaxtst10另一方面，如果示例落在拒绝区域C下，则应计算示例与所有超平面之间的距离。样本越靠近决策面，样本拟合到决策面另一侧的相关类的可能性越高。因此，必须使用等式将示例分类到具有拒绝区域的最小距离的类（十一）、qωsargmintst114. 实验评价方法下面的一组测试将评估推荐的EMSVM模型的能力，该模型用于通过检查任何应用程序在打开、改变、更改或删除特定文件系统时创建的特征（指纹）来对哪些文件可能被特定软件应用程序更改进行分类。识别受事件影响的文件组可能有助于重建早期的事件。然而，事件重建过程被认为是一个潜在的研究领域。这里应该提到的是，该模型是在MATLAB 2019a（MathWorks，2019）环境中使用编写的程序实现的。实验已经完全在具有奔腾Intel® CoreTM i5、2.40 GHz处理器和4GB内存的计算机中进行。安装的操作系统是64位Windows 7。接下来的章节（即第4.1至4.8小节）描述了评价EMSVM所遵循的方法。4.1. 识别输入要素stq ωjDt<$qω<$jXtð8Þ这个阶段的好处是减少了开发DM和ML模型所需的时间，并减少了存储空间。其中Xt表示第t个最佳超平面的法向量的模。最后，第t个最佳超平面的DS被计算，如等式（1）所示。（九）、图三.多类分类的例子。要求。此外，这种技术保证了开发的模型的紧凑性和简单性。此外，它旨在挑选一组输入属性，这些属性可能是预测类变量（也称为“输出特征”）值的最重要属性当数据集维数降低时，这确实会节省训练DM和ML模型所需的内存和时间。通常从“文件系统“、”审计日志条目“以及”注册表信息“中获取多个属性在2005年出版的一本名为“File SystemForensic Analysis“的书中，对可以在基于文件系统的DF调查中使用的完整的可行输入属性集进行了深入的审查应用所有这些属性会导致高维困境，也被称为因此，该集团的属性，这是从过去的研究证明（Carvey，2005）作为重要的属性，在我们的研究中使用。此外，IG被认为是一种流行的方法来评估如何好的功能SV在DM和ML中，多项或多类分类是R.M.A. Mohammad/ Journal of King Saud University185是在预测类值，因此它被应用于许多分类领域（ Khemphila 和Boonjing，2011年; Mohammad，2016年; Basnet等人，2012; Lee和Xiang，2001）。本研究中考虑的输入特征集如表2所示。在下一节中，将使用几种场景来形成训练数据集。4.2. 收集数据集示例训练数据集包括与文件系统事件（“文件系统Meta数据“）、PC注册表以及已收集的系统事件日志相关联的多个指纹这三个来源被视为确定网络犯罪相关证据的主要来源（Atif和Ruighaver，2002年）。合并来自这3个来源的属性的潜在好处是，如果一个属性在任何来源中被破坏或丢失，它可能存在于另一个来源中。通过本研究回顾的案例研究被认为是一个监督分类问题，要求类值的存在，这是我们的案例研究中的“软件应用程序的名称”。不同的软件应用程序在不同的时间段启动。然后，收集与已被此类程序更改的文件系统相关的属性集。这些属性将被表示为一个数组。利用中的（“FileSystemWatcher“）库开发了一个工具(‘‘ dot net framework 4.6.2这样的工具监视和跟踪文件系统修改操作，包括文件被创建、更改或访问的时间。然后使用结构化存储库来存储收集的属性。为了收集训练数据集示例，准备了几个场景。每个场景都试图以各种方法访问文件系统。在当前的研究中，虚拟机“VMware”（Greene等人，1998）用于收集训练数据集示例。采用“VMware”的一个主要目的是提供新状态的操作系统（OS），从而减少不需要的应用程序的影响。用于收集数据集的操作系统是选择这个操作系统是因为它的广泛使用。此外，它是最常见的目标操作系统（Zhu等人， 2009年）。为了这项研究的目的，为了收集火车-以数据集为例，考虑了十二种不同的软件应用程序首先选择这些软件应用程序在这项研究中提名和使用的软件应用程序是：这种软件应用程序在四种不同的情况下运行表2示例在收集的数据集中的分布。软件应用程序总数示例PowerPoint 10，887Excel 10，93310，230字12，570Photoshop 11，014阅读器10，423铬13，977日蚀9803Windows MovieMaker 8112Weka 7927OneDrive 10，646Dropbox 10，309共计126 831人场景I：此场景是其中最简单的场景。所考虑的软件应用程序一个接一个地单独运行。一旦每个特定的软件应用程序被完全执行，它将被关闭，而不做任何额外的操作，即创建新文件，打开保存的文件，启动视频，浏览等。场景II：同样，软件应用程序一个接一个地运行。然而，在这种情况下，一旦软件应用程序启动，将仅执行一个任务。例如，打开保存的文件、浏览单个网页、观看保存的视频等。然而，如在EASP-I中，软件应用程序将被单独执行，即，一个接一个地执行，并且不能同时执行两个软件应用程序。在加载特定应用程序并执行预期任务的那一刻，它将被关闭并启动下一个任务。设想方案三：软件应用程序也将与UNO-I和UNO-II一样单独执行。然而，而不是运行-宁仅仅是一个单一的任务，如在ECONO-II，几个任务是执行，cuted每个软件应用程序。例如，创建一个新文件，保存新创建的文件，打开一个已经保存的文件，以不同的名称保存一个已经保存的文件，浏览几个网页，打开几个标签，访问一个安全的网页（“支持https协议的网站”）。访问公共或未加密的网页再次强调，没有2个软件应用程序同时运行。场景四：这是最复杂的场景还有其他人在此，情景三再次出现。然而，在这种情况下，同时执行多个软件应用程序。应用了几种组合。换句话说，不同组的应用程序在不同的时间戳中执行，并且每次执行不同的操作，如在ECONO-III中所描述的。在不同的时间间隔内重复上述场景10次。最后，数据集包含126，831个示例，如表2所示。在训练数据集中考虑的输入属性如表3所示。采用这些特征是因为它们已经被证实在DF分析中是有效的（Cho和Rogers，2011; Carrier，2005; Nelson等人， 2016年）。4.3. 将数据集分为训练和测试数据集大多数DM和ML模型实际上很容易受到过拟合的影响。这意味着，随着训练阶段的错误率降低，模型在应用于一些看不见的示例时会产生不准确的结果。为了应对这一挑战，“坚持“（Witten等人，2011）验证策略，通过将收集的数据集分成训练和测试子集。位于每个数据集中的实例集是任意选择的。根据以前的一些研究（Mohammad等人，2013b; Mohammad等人，2013 c）收集的数据分为70%用于训练模型和30%用于评估“测试”模型。前者用于训练模型，而后者将保持隐藏状态，最终将在训练阶段结束时用于评估生成的模型。通过这种方式，从186R.M.A. Mohammad/ Journal of King Saud University-表3输入要素集。没有数据类型1活动日期日期2活动时间时间3用户文本4计算机名称文本5事件ID数字6键入文本7C Time -文件创建时间8A时间-文件更改时间9M时间-MFT更改时间10R Time -文件读取时间11DOS文件删除（只读、隐藏、系统、存档、文本临时、压缩、脱机、加密）12所有者ID数字13文件的分配大小数值14文件的实际大小数值15标志（目录、压缩、隐藏）文本16Film长度（字符）17Film namespace（POSIX Win32，DOS，Win32 DOS）文本18对象ID（分配给文件的唯一ID）数值19出生体积ID（已创建体积ivhere文件）数值20出生对象ID（文件的原始对象ID）数值21域ID（创建对象所在的域）数值22访问控制类型（允许访问、拒绝访问、系统文本审计）测试数据集提供了公平的评估模型4.4. 数据集离散化数据离散化是一种将值放入类别中的技术，以便能够减少属性所持有的可用状态的数量。形成的类别将被视为单独的值。关于离散化主题的附加信息可在（Witten等人，2011年）。在本研究中，几个属性需要被离散化之前，他们提供给建议的SVM模型。其中，我们可以提到在预处理关注点中，有几个属性包含文本短语。然而，通常DM和ML方法可能仅处理数值。为了应对这一挑战，已经通过使用这种工具具有“连续词袋和跳跃语法结构“的实际应用，因此，这种表示可以在各种DM和ML算法中使用。为了进一步说明，它为属性中包含的每个单词指定一个索引。之后，这些索引将按照第节中的描述进行规范化。尽管如此，即使某些属性包含文本，可能的文本数量也是有限的。例如，因此，每个可能的值都可以被赋予一个以1开头的数值。例如，“Flag“属性的可用值4.5. 数据集清理数据集清理阶段旨在管理缺失值和离群值。这个阶段的结果通常是一个更可靠的数据集，因此质量更好的模型。可以采用两种技术来管理缺失值，它们是：永久消除包含缺失值的实例。替换缺失值。换句话说，不需要消除包含缺失值的实例;它们可以由替代值替代。感谢MATLAB（MathWorks，2019），它有助于应用上述两种可能的选项。例如，可以使用在这项研究中，研究人员使用了第二种解决方案。然而，训练数据集中的离群值可能会改变并因此误导DM和ML技术的训练过程，导致更长的训练时间，不准确的模型和不可避免的不可靠结果。在这项研究中，MATLAB嵌入式函数用于处理离群值，称为使用此函数，我们倾向于确保最具指示性的实例集将被维护以供进一步处理。相反，可能削弱生成模型性能的实例将从数据集中提取，因此，在创建结果模型时完全没有得到任何部分。4.6. 数据集规范化如果属性的范围变化很大，这意味着一个属性可能优先于其他属性。因此，可以采用适当的归一化技术来最小化包含较宽范围的超过属性。例如，如果将包含时间和日期值的属性描述为数值，则这些属性的范围会更广。在许多经常应用的策略中，在预定范围内缩放属性例如[1.. . 1]或[0.. . 1]。目前的研究采用了内置函数最好提请读者注意这样一个事实，即时间和日期相关

下载后可阅读完整内容，剩余1页未读，立即下载