数字取证中的JPEG文件碎片恢复的新方法-RX_myKarve

36 浏览量更新于2024-01-14 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报RX_myKarve用于重组JPEG图像Rabei Raad AliMohammed，Kamaruddin Malik Mohamad马来西亚敦胡先翁大学计算机科学与信息技术学院，马来西亚柔佛州阿提奇莱因福奥文章历史记录：收到2018年2018年12月17日修订2018年12月27日接受在线提供2019年保留字：数字取证JPEG图像雕刻缩略图极限学习机遗传算法2006年和2007年A B S T R A C T数字取证的目的是通过查看文件内容来为犯罪决策提供帮助，这些文件内容通常包括GIF、BMP、JPEG等图像文件JPEG是一种非常流行的图像文件格式。它具有比其他图像更少的结构化内容，这使得它在没有一些文件系统元数据的情况下可以恢复。然而，其中一个基本问题是碎片JPEG文件与非JPEG文件交织在一起和/或在扫描区域中出现Bifragmented。本文提出了RX_myKarve作为一个新的文件雕刻框架，以解决一些取证恢复问题，包括碎片。RX_myKarve的基本设计包括基于结构和基于内容的雕刻方法。它采用机器学习和进化算法在其主要组成部分的识别，验证和重组。识别和验证技术包括用于识别和过滤扫描区域中的图像数据的极限学习机（ELM）。重组技术包括一种遗传算法，用于将碎片数据重建为完整的图像。本文的主要贡献在于在扫描区域的碎片图像文件簇的重组。RX_myKarve是通过使用数字取证研究研讨会（DFRWS）2006年和2007年取证挑战数据集进行测试和评估的结果表明，RX_myKarve能够雕刻并完全恢复DFRWS-2006数据集的所有给定案例，即19幅图像，以及DFRWS-2007数据集的所有相关案例，即18幅图像。这种档案雕刻的改进主要归功于新的识别和重组技术。©2019作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍研究表明，从2000年到2017年，使用智能手机和电脑等数字设备的人数增加了49.6%。这种巨大的增长源于高互联网速度和大存储容量的技术进步（Kenney和Gortmaker，2017）。随后，这项工作的动机是数字的多媒体文件是保留数字设备的重要信息或备忘录的当前趋势（Pahade等人， 2015年）。在某些情况下，文件暴露变形或损坏，由于许多原因*通讯作者。电子邮件地址： rabei. gmail.com （ R.R. 阿里）， malik@uthm.edu.my（K.M.Mohamad）。沙特国王大学负责同行审查制作和主办：Elsevier包括设备故障、故意破坏或人为错误。此外，数字取证调查会遇到故意删除的犯罪行为数据，如恐怖主义，被盗物品，儿童色情和盗窃（DeBock和De Smet，2016）。碎片数据文件（损坏或删除）的恢复对于相关用户来说是一个非常重要的问题（Pahade等人，2015年）。恢复过程需要分析每个文件簇的结构和内容的方法，这些文件簇构成了本研究的主要目标。传统的数据恢复方法使用文件系统信息（元数据）来恢复这样的文件。在在缺少文件系统元数据或文件系统本身损坏的情况下，传统的数据恢复方法不能恢复这些文件（Mohamad等人，2011年）。作为替代方案，很少有雕刻技术被提出（De Bock和De Smet，2016年，Abdullah，2016年，Qiu等人，2014; Tang等人，2016）处理的情况下，没有文件系统或损坏的文件系统元数据。档案的雕刻方法有三种：基于特征的、基于结构的和基于内容的。每个类别都有一些限制，优点和缺点。因此，没有一个类别是完美的，可以提供全面的https://doi.org/10.1016/j.jksuci.2018.12.0071319-1578/©2019作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com22R.R. Ali，K.M.Mohamad/ Journal of King Saud University解决方案（Qiu等人，2014年）。基于签名的雕刻是一种直接的方法，适用于图像文件的页眉-页脚数据（Nadeem Ashraf，2013）。它已被成功地证明雕刻不同的基本情况。在某些其他情况下，由于存储损坏，签名群集/块损坏或断开连接或系统碎片化过程（Uzun和Sencar，2015）。一种基于结构的雕刻方法已被用于雕刻碎片文件，通过识别和删除扫描区域中文件的碎片部分（Metz和Mora，2006年）。这种方法不包括具有一些非连续和/或非线性顺序情况的碎片数据文件（Kloet，2007）。最近，一种基于内容的分割方法试图处理一些碎片数据文件的情况。这种方法通过分析扫描区域的内容来恢复文件。雕刻过程包括识别、验证和重新组装文件的碎片部分。基于内容的文件雕刻方法仍处于初级阶段，尚未得到充分探索（Ali等人，2018年）。只有有限数量的雕刻方法基于图像的扫描区域的内容来重建文件（Li等人，2011年）。例如，De Bock和De Smet（2016）以及Abdullah（2016）指出了关注扫描区域碎片化问题的重要性，碎片化点位于扫描开始（SOS）标记之后。因为SOS之后的任何未知图像簇都可能导致图像失真或损坏。本文的主要贡献在于提出了RX_myKarve框架，其中包括一种新的重组算法，用于在扫描区域内交织的BifragmentedJPEG图像文件。RX_myKarve还应用极限学习机（ELM）对JPEG图像的文件簇进行分类（根据JPEG和非JPEG类别）。这种分类提高了雕刻精度和重组阶段的时间。RX_myKarve可以高精度地雕刻不同情况下的JPEG碎片图像。该部分介绍了本文的研究范围，提出了研究问题，并介绍了本文的工作贡献。本文的其余部分分为以下四个部分。第二节介绍了相关的工作. 第3节描述了方法和材料。第4节介绍RX_myKarve框架。第5节讨论了RX_myKarve框架的实现、结果和评估。最后，第6节报告了结论并建议今后的工作。2. 相关工作本节介绍了相关工作，重点介绍了目前最先进的文件雕刻方法。理查德的工作奠定了文件雕刻的基础（理查德和Roussev，2005）。他们引入了Scalpel作为Foremost 0.69的改进Scalpel的目标是提高恢复性能并减少内存使用。Scalpel和Foremost都没有解决碎片文件的问题，而Carver只处理连续或非碎片文件。Richard等人（2007）提出了他们所谓的文献中很少有其他文件雕刻方法最近的方法（从2006年到2016年）将在下一节中进行分析和讨论Metz和Mora（2006年）提出了一种智能雕刻和深度雕刻技术的开源实现，作为他们对数字取证研究研讨会（DFRWS）挑战的一部分这些技术允许雕刻者在应用主要雕刻技术之前更深入地研究嵌入式文件，概率因素，文件类型和特征，如熵，关键字和指纹。它旨在减少误报的数量，从而减少浪费的时间和所需的存储。它根据页眉页脚，内容，部分和集群。RevIt07包括一个验证功能，用于检查群集的大小它使用（DFRWS，2006年，2007年）数据集进行测试。然而，RevIt07没有解决部分图像和交织的碎片文件的重建问题。Karresand和Shahmehri（2008）提出了重新启动标记（RSTm）作为JPEG图像的雕刻方法。该方法具有使用非差分霍夫曼熵编码解码器的片段的重组技术。它使用JPEG文件格式的开始标记和结束标记以及RSTm来识别和验证图像的结构和内容开始和结束标记分配在JPEG文件的开始和结束处，而RSTm顺序地出现在JPEG文件的扫描区域RST索引扫描区域数据模式，以特定间隔停止扫描这些数据被称为最小编码单元（MCU）。此外，它通过离散余弦变换（DCT）的JPEG图像所有重新启动间隔的亮度DC值确定最佳匹配的距离，以便正确连接Bifragment的垂直定向线然而，该方法仅处理具有RSTm的JPEG图像它不处理RSTm序列的缺失RSTm。此外，该技术严重依赖于图像内容，这需要详尽的识别和验证过程Qiu等人（2014）提出了一种新的多媒体文件雕刻（MFC）方法，使用并行唯一路径（PUP）重组技术。MFC方法的目的是以高恢复精度处理高熵文件片段。雕刻过程包括三个主要步骤：（i）识别文件的头，（ii）对文件片段类型进行分类，以及（iii）重新组装文件。第一步基于熵、BFD和RoC数据进行分类;第二步利用SVM对熵、BFD和RoC特征进行分类并重组文件片段。熵、BFD和RoC是符号和统计特征。MFC方法旨在处理复杂和无序（非线性）片段。然而，在处理常规追讨个案时，发现该系统并不准确，而且效率不高。此外，它不处理另一个文件的碎片集群，因此它不恢复图像，包括帧间图像，如缩略图。Abdullah（2016）提出了一种X_myKarve方法来雕刻碎片JPEG图像的一些情况。 X_myKarve 基于（ Mohamad 等人，2011 年）。myKarve使用定义霍夫曼表（DHT）识别碎片JPEG图像的文件结构。它通过检查标题和选择图像的标记来验证交织图像的内容。重组操作是在发现图像具有有效内容时简单地重建图像。myKarve和X_myKarve都处理连续的碎片和线性JPEG图像及其缩略图。此外，这两种方法都可以处理碎片文件、Bifragmented和交织的碎片情况，但它们在处理这些情况时执行重组过程的技术不同。myKarve只删除碎片或不相关的集群，而X_myKarve使用二分搜索进行碎片点检测，然后重建图像文件的可能选项。然而，这两种方法都不适用于需要对图像文件的扫描区域进行处理的情况。因此，他们不考虑识别和验证与扫描区域相关的其他有用信息，这些信息可能会提高雕刻精度。3. 方法和材料本文试图开发一个RX_myKarve作为一个新的文件雕刻框架，以解决JPEG文件扫描区域中复杂的碎片问题。以前的工作不考虑重新组装JPEG文件交织与非JPEG文件和/或R.R. Ali，K.M.Mohamad/ Journal of King Saud University23X1/4 f···g扫描区域中的Bifragmented文件（交织的Bifragmented JPEG文件）大多数在扫描区域进行的病例缺乏对内容的深入分析和对可能的重建的全面看法。此外，处理多碎片案件是一个极其复杂的问题，尚待方便地解决。对相关工作的分析还表明，将人工智能和机器学习技术应用于文件雕刻的一些尝试。RX_myKarve中使用的雕刻方法是基于结构的方法和基于内容的方法。以下各小节说明了构成JPEG图像雕刻研究范围的方法和材料。3.1. 基于结构的雕刻方法JPEG图像文件由数千个十六进制代码组成，这些十六进制代码被布置在三个主要部分内，这三个主要部分是头部、框架和脚部（Qiu等人， 2014年）。十六进制字符串，如“0xFFD8”和“0xFFD9”通常用于识别任何JPEG文件。图像开始（SOI）或头部由“0xFFD8”字符串表示，并且图像结束（ EOI ）或页脚由 “0xFFD9” 字符串表示（Mohamad等人，2011; Abdullah，2016）。基于结构的方法的预处理步骤研究图像的基本构造例如，图像的SOI另一方面，缩略图SOI可以存在于图像帧的任何部分（Abdullah，2016）。因此，在该方法中使用十六进制图案但是，使用此字符串存在限制。仅仅依赖于该模式将导致检测到许多错误的JPEG报头，这因此导致高误报（Mohamad等人，2011年）图1显示了JPEG图像的可能的有效标题。随后，需要更复杂的算法来将正确的页眉与其页脚配对，因为在正确的页眉可以与其页脚配对之前，需要更多的规则来消除错误的页眉和页脚。3.2. 基于内容的雕刻方法基于内容的分割方法是为了恢复在基于结构的分割方法中未恢复或未完全恢复的图像文件。然而，这例如， McDaniel （ 2001 ）和McDaniel and Heydari（2003）提出了一种恢复某些文件类型的方法。在Li等人（2005）中，使用多质心技术，以改善麦克丹尼尔和Fig. 1. JPEG图像已验证标头。03 The Dog（2003）该技术用于截断的样本文件从他们的开始，而不是使用所有的文件内容。基于内容的雕刻方法中的三个主要阶段是：识别、验证和重组，详细描述如下：文件类型识别是知道组成文件的连续块/簇的过程。文件类型识别的先进方法探索和分析文件的扫描区域或内容（Zhang et al.，2016年）。识别尝试收集和识别图像文件中可能在图像雕刻中有用的所有可能的数据簇。包括扫描区域清洗、特征提取和聚类分类方法。非JPEG数据簇可能存在于图像文件的扫描区域中。使用JPEG标准标记执行此类非JPEG图像簇的清除在这一阶段的一个有用的标记是重新启动标记（RSTm），它出现在扫描区域中，在检测未知簇中起重要作用位置.基于内容的特征提取方法主要有三种：熵、字节频率分布（BFD）和变化率（RoC）。这些特征提供了用于在扫描区域处的图像内容的频散和熵的基于熵的功能被发现能够识别JPEG文件与碎片在扫描区域使用适当的分类技术。熵方法取决于计算机字节值，该值在0和255之间（Qiu等人，2014年）。它生成一个值在0和1之间的特征，如下所示。令Bbji表示字节值B出现的概率，O bj i是出现次数，L是文件片段的大小。则公式（1）发现，B_i定义为：B= L 1熵由（2）求出：熵的1/4-B_i = logB_i;0B_i≤1 × 2 × 2>> >>：>>的;联系我们<3.6. 数据集说明JPEG图像数据集的选取是JPEG图像分析、研究和恢复数字取证研究研讨会（DFRWS）的挑战是为了提供一个环境，在数据恢复的各个领域进行测试，验证和激励工作。它鼓励设计和开发文件雕刻框架和算法。在DFRWS挑战中，有DFRWS（2006）和DFRWS（2007）数据集。它们是各种作品中的标准和常用数据集，用于恢复非碎片和碎片JPEG图像。使用这些数据集的一些研究例子是Birminghamet al. （2017），Tang et al.（2016）和De Bock和De Smet（2016）。DFRWS-2006数据集是一个48 MB的原始文件，其中填充了随机数据。它包括14个JPEG文件和18个非JPEG文件类型。这些文件用于创建22个场景，以评估和测试在实际文件系统中可能发生的特定位置。这些方案被归类，gorized成4类文件类型的基础上有14个JPEG图像和JPEG文件的12个场景。另一方面，DFRWS-2007数据集是一个充满随机数据的330 MB原始文件。DFRWS-2007中有67个完整的非JPEG文件和18个完整的JPEG文件，用于创建13种不同的JPEG图像场景。JPEG图像场景根据难度分为四个级别，以测试特定的场景。标题，以便用于区分JPEG图像/缩略图的图案，如表2所示。在基于结构的雕刻方法期间，读取数据集，然后通过与如表2所示的十六进制模式匹配来搜索所选择的JPEG标记。在RX_my- Karve中，具有APPx和EOI的SOI足以雕刻JPEG图像，而附加标记（如DHT和DQT）添加到与其缩略图不同的父JPEG图像。换句话说，当在扫描磁盘图像期间发现SOI-EOI对时，可以雕刻JPEG图像，因此，它有助于减少在扫描区域中重新扫描碎片图像的时间，这有望加快恢复过程。基于结构的雕刻方法中的第二个组件是VJM列表。它包含JPEG图像和缩略图标记，根据亚行索引与索引一起恢复。这两个组件将在第三个组件中使用并发挥重要作用，以生成AWQ中的作业指导书。VJM列表和ADB之间的主要区别在于VJH列表仅用于启动AWQ中的流程。填充VJM列表和ADB的过程是处理目标磁盘的关键设D是磁盘映像，读取D以搜索H，其中Hi是位置i处的任何十六进制字符串，并且Hi是 D。让我是一个选定的标记，其中M是 D，在实际文件系统中可能发生的事件第一级对于非碎片文件，第二级用于按顺序排列的碎片，第三级用于按非顺序排列的碎片，最后水平为文件与失踪片段具体来说，M1; M2; M3···： Mng其中n是现有标记的数量ð11Þ研究的重点是将第一层划分为方案2，将第二层划分为方案15。4. RX_myKarve框架本节讨论了一个建议的RX_myKarve作为一个新的文件切割框架。RX-myKarve框架是从X_myKarve框架（Abdullah，2016）中采用它包括基于结构和基于内容的雕刻方法，如图所示。3.第三章。基于结构的方法由地址数据库（ADB）、验证JPEG标记（VJM）和自动工作队列（AWQ）三个主要部分组成。另一方面，基于内容的雕刻方法包括三个主要组成部分，识别、框架验证和重新组装。M0xFFD 8; 0xFFE 0; 0xFFE 1; 0xFFE 2; 0xFFEE;120xFFD; 0xFFDB; 0xFFC 4; 0xFFD 9和MjHiHi113但是，需要两个附加标记假设AA是一个额外的标记，它是一致的。A = {A1，A2}，其中A1 =V是一个经过验证的标头，它是一个特殊的标头，用于确定搜索文件是JFIF图像、Exif图像、Adobe JPEG图像、缩略图还是嵌入式JPEG图像。V由M或/和A的组合组成：因此V定义为：4.1. 基于结构的雕刻基于结构的雕刻方法中的第一个组件是ADB。它是一个数据库，用于存储已验证的M1<$ M2;如果JFIF图像M1=M3;如果Exif图像VM 1 M 5;如果Adobe JPEGM1显示 M4或M6或M7或M8显示;如果是Exif缩略图9>=ð14ÞM1 M2 A2;如果JFIFM1 A1;如果嵌入JPEG文件如果找到匹配，则将当前头偏移的位置存储到ADB中。如果匹配的字符串满足原始JPEG文件的模式，则将其标记为图三. RX_myKarve框架的流程图。表2选定的JPEG标记和已验证的标头。JPEG marks Hexadecimal Hexa PatternDescriptionSOI 0×FFD8 0×FFD8 SOIDHT 0×FFC4 0×FFD8FF SOI+0×FFDQT 0×FFDB 0×FFD8FFE0 SOI +APP0APP0 0×FFE0 0×FFD8FFE1 SOI +APP1APP1 0×FFE1 0×FFD8FFE2 SOI +APP2APP2 0×FFE2 0×FFD8FFC4 SOI +DHTAPPE 0×FFEE 0×FFD8FFDB SOI +DQTAPPD 0×FFED0×FFD8FFEE* SOI +APPEEOI 0×FFD9 0×FFD9 EOI26R.R. Ali，K.M.Mohamad/ Journal of King Saud University× × ×VJM列表中的标记名称及其在ADB中的地址将用于通过将列表与AWQ指令中的模板进行匹配来启动生成过程，这将在下一节中进行解释。基于结构的雕刻方法中的第三个组件是AWQ。它的工作原理是一种基于结构的自动雕刻方法，完全依赖于在AWQ中读取具有预定义模式的JPEG图像帧的十六进制值。此外，它可以自动雕刻JPEG图像与/没有拇指指甲，如图4所示。因此，AWQ将减少检查扫描区域中的碎片图像的重建以及确定扫描区域中的碎片点是否属于第一或第二文件所需的时间。AWQ的工作原理是从ADB索引中的索引存储中读取经验证的报头地址，然后累积来自VJM列表中的索引存储的制造商因此，当找到成功匹配时，将生成AWQ 如图 4、当发现“FFD8”后接“FFD9”模式验证JPEG图像时，识别出完整的JPEG图像。在（Abdullah，2016）中，创建了几种图像模式来演示JPEG图像结构的几种场景，如图4所示。例如，模式1用于匹配没有任何缩略图的图像，而模式4用于匹配交织在一起的两个JPEG图像。然而，JPEG图像可以具有1个缩略图或2个缩略图，其可以如模式2和3中那样被识别，其中传统上，一旦知道图像“FFD8”的开始因此，正确的RX_myKarve框架的下一步是图像重建过程开始，当AWQ过程结束时，AWQ中所有累积的标记都被解码成图像文件，以确定图像是否完全恢复。然而，缩略图（S）也可以包括在图像解码的情况下，完整或不完整的图像恢复。最后，在基于内容的雕刻方法中进一步处理碎片化图像，以解决RX_myKarve框架中的最后一步碎片化问题。4.2. 基于内容的雕刻4.2.1. 识别如前所述，基于内容的雕刻方法有三个组成部分，即识别，验证和重组。识别用于查找与扫描区域中的JPEG图像簇相关的信息。识别中应用了两种技术。第一种识别技术是报头信息图四、AWQ模式（Abdullah，2016）。以识别JPEG图像中是否存在RSTm。如果图像具有RSTm，则使用RSTm模式作为指导来重新组装图像内容，如第3.2节所述。如果图像没有RSTm，则该技术移除包含RSTm的聚类。算法1解释了识别步骤。第二种识别技术应用ELM二进制分类来区分JPEG簇和非JPEG簇。ELM通过查看从扫描区域提取的一组相关特征或属性（如前所述），为文件类型识别准确性提供了可行的措施。ELM分类技术是基于熵、BFD和RoC三个特征进行的。识别数据以及从基于结构的方法提取的数据用于支持验证和重组过程。4.2.2. 帧确认Validation组件组合并检查从不同资源收集的关于图像的证据。这个过程消除了数据中的冲突，并组织数据，为重组过程做好准备。例如，后面跟着自己字节的标记以标记头开始，然后是两个字节，确定标记段中的字节数。因此，预期在前一标记段结束时找到新的标记段。但是，如果没有标记，则可以立即得出结论，图像文件中存在奇怪的簇。该组件的主要任务是检查图像文件，以保证文件包含所有必要的标记和表，以完成稍后的解码过程。验证的核心过程之一是检查MCU的真实数量和MCU的实际数量之间的绝对差异（AbsDiff）。根据图像标题中的可用数据，计算图像中的MCU的真实数量（或如果启用重启标记，则计算两个重启标记之间的MCU的真实数量）。解码器开始解码图像，直到以下三种情况之一发生：1. 解码过程中出现错误，解码的MCU数量小于真实数量。解码过程停止，并且成本函数返回建议的解决方案不是可行的解决方案。2. There3. There 在这种情况下，优化过程将停止并返回相应的解决方案从前面的讨论中可以清楚地看出，AbsDiff的值越低，解决方案对真实图像文件的质量越好。AbsDiff计算如下：AbsDiff<$j编号：真实MCU-编号：实际MCUj2015年每个MCU由多个数据单元组成例如，假设存在由三个分量组成的图像，并且操作模式是包括顺序、基于DCT和交织的基线，则MCU由三个如果数据单元有一个8 8系数，那么MCU是一个8 8 3 coeffi- cient。当一个完整的MCU被解码时，元素的数量是192.对于最后一个MCU，当发现可用簇有效时，将满足此数量。因此，最后一个MCU中的未解码元素的数量是nonDecElems，并且当图像文件被验证为完整和正确时取最低值0。R.R. Ali，K.M.Mohamad/ Journal of King Saud University27×× ×24.2.3. 重新组装重组组件包括一个基于三个条件的雕刻过程。它们是相互交织而又支离破碎的簇。1. 集群清洗条件第一个条件需要清除扫描区域中的一些数据。该条件从扫描区域中移除不包含相关解码图像像素数据和缩略图的未知簇。这种数据通常在预处理步骤中识别，基于结构的方法。识别和帧验证组件在移除该数据以用于重组之后准备图像。这种情况可能会导致完全恢复图像或减少扫描区域从未知的集群的未完成恢复的图像在以下条件。基本上，JPEG图像结构的模式可以是该技术根据如下三种场景操作1. 由于存在与霍夫曼表不匹配的代码而导致解码错误。2. 由于未知簇，解码MCU的数量超过实际3. 解码MCU的数量小于MCU的实际数量。第一种和第二种情况需要调用以下片段化聚类条件，以便检测未知聚类。第三种情况通常发生在图像聚类与另一图像聚类交织时，这导致出现意外的EOI标记或未知聚类碰巧具有EOI标记。在这种情况下，具有EOI标记的一个或多个聚类被移除。算法2给出了第二种清除簇条件的方法.带/不带可能出现在扫描区图5示出了包含在扫描区域中具有/out RSTm的片段化或未知簇的JPEG图像。有两种不同的技术来解决清洁问题。第一种技术分析RSTm的可能发生。它假定“0 ×FF”字节的出现必须后接“0”00”的情况下，也适用于有/无RSTm的情况。在在RSTm的情况下，则该技术假定每当Dn”（n{0，1，2，.. . ，7}）。否则，该群集将被视为需要删除的未知群集。算法1提出了第一种技术的清洁集群条件。号算法1：基于内容的雕刻第一05直到FFD906删除EOI集群;07合并集群;08末端09结束条件10结束条件11其他12算法3;06直到FFD907合并集群;08末端09结束条件10其他11删除当前集群;12end-else13int count +1;14如果（！EoF validCluster）15重复03;16其他17算法2;18end-else19结束;第二种技术计算图像规格的实际MCU，然后解码图像。它还用于检查扫描区域中是否存在要删除的未知簇2. 的交织集群条件第二个条件是交织的JPEG图像的存在当满足该条件时，则重组算法应用欧几里得距离相干（CED）矩阵。CED矩阵检测聚类的碎片点。这些点的标识标识了要移除的碎片化聚类。碎片被认为属于交织的JPEG或不属于图像的另一种文件格式。此过程可能导致恢复因碎片群集而变形的交织图像。图6显示了一个JPEG图像，其中包含被另一个JPEG图像分割的情况，该JPEG图像在扫描区域中聚类，并且需要检测到分割点（标记为红线）。CED是一种相似性度量，用于提高检测相邻聚类的准确性。它基于RGB像素值之间的相似性来区分图像的平滑区域和尖锐区域。尖锐的区域可能会导致-图五. 第一个条件的例子。见图6。第二个条件的例子。号算法2：基于内容的雕刻第二00开始;02解码图像;03if（decodeError or MCU =！imageSize）04if（MCU imageSize）00开始;13end-else01设置初始图像参数;14结束;02读集群;03if（字节1 = FF&字节2 =！00 validRSTm）04删除当前集群;05if（validListm1;2;···;7）28R.R. Ali，K.M.Mohamad/ Journal of King Saud UniversityX..ED¼nXi-Yi确定缠绕或变形区域的存在。式16和17定义了CED（Tang等人，2016年）：MCED¼CEDi1/ 1ð19ÞCED¼ED边界-ED附近16000哪里1vutXn21/1其中M是簇的数目减一（即，图像文件中连续簇之间的边界的数目）。算法3给出了第二个条件.号算法3：基于内容的雕刻第三00开始;其中，Xi是边界上像素的RGB值，Yi是边界上像素的RGB值。值，n是计算中涉及的像素对的数量。根据图像规格和两个连续聚类的位置，聚类的垂直边界、水平边界或垂直和水平边界之间可能存在碎片，对于上述三种情况，CED计算如下：情况1：仅在垂直边界CEDv上计算情况2：仅在水平边界CEDh上计算情况3：在水平边界CEDh上计算，垂直边界CEDv.在此之后，使用（18）计算总CED：01if（MCU imageSize）02找到CED;03结束条件04其他05算法4;06结束;3. 破碎的集群条件第三个条件是存在非JPEG簇或碎片，CEDi<$qCEDv2CEDh2ð18Þ分割的集群。前面已经提到，ELM算法将聚类分类为JPEG文件聚类和非JPEG文件聚类。CED值越小，两个连续的集群。因此，图像中奇怪簇的存在有助于使CED的值更大，并因此朝向具有较小CED值的簇移动。这导致获得原始图像文件并排除未知的聚类。图像文件的总CED计算为每两个连续聚类之间的所有CEDi值的总和。基于熵，BFD和RoC的基于内容的特征的JPEG文件聚类。图 8示出了在扫描区域中JPEG图像簇与非JPEG图像簇交错的示例。该分类识别在进行重组操作之前要移除的不相关的簇。此外，分类器的精度结果形成成本函数的输入的最优值是表示图像的完整性和正确性的成本cost¼ CEDt100%-ACC100% AbsDiffnonDecElems 200%其中CED是检测相邻簇的相似性度量，AbsDiff是MCU的真实数量之间的差，nonDecElems是最后一个MCU中未解码元素的数量。重组算法试图根据先前条件的性质重新排列过滤后的聚类，以雕刻和恢复图像。然而，前面的条件并不总是能够去除扫描区域中的所有未知簇但前面的条件是用来帮助建议的雕刻减少未知的集群和验证扫描区域中的剩余集群为了解释重组操作，让我们假设扫描区域的搜索空间S在S^fl1;l2g，其中l1l2，使得l1表示较低的

下载后可阅读完整内容，剩余1页未读，立即下载