没有合适的资源?快使用搜索试试~ 我知道了~
Sumav:自动化恶意软件标签分配
可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 8(2022)530www.elsevier.com/locate/icteSumav:完全自动化的恶意软件标签Sangwon Kima,Wookhyun Junga,KyungMin Leea,HyungGeun Ohb,Eui TakKima,a大韩民国首尔ESTsecurity数据情报实验室b大韩民国大田国家安全研究所接收日期:2021年7月26日;接收日期:2021年12月27日;接受日期:2022年2月14日2022年2月22日在线提供摘要多个AV引擎用于确保更有效的系统保护免受恶意文件的攻击。这些AV引擎能够区分良性和恶意文件之间,但即使感兴趣的文件被证明是恶意的,仍然需要参考每个防病毒引擎提供的防病毒标签列表,用于确定恶意文件属于哪个家族名称。然而,通常,这样的AV标签缺乏一致的命名方案,并且甚至姓氏从一个AV引擎到另一个也不同本研究提出了Sumav,一个完全自动化的标签工具,每个文件分配一个家庭的名称的基础上AV标签。根据以前的研究,这样的任务需要先验知识或已经标记的恶意文件数据集。相比之下,Sumav可以只使用AV标签分配姓氏。该系统也不需要维护,即使在AV标签系统发生突然变化的情况下,也© 2022作者由爱思唯尔公司出版代表韩国通信和信息科学研究所这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:恶意软件;标签; AV标签;聚类;分类1. 介绍当确定任何感兴趣的文件或URL是否是恶意的时,可以采用AV引擎。然而,在这方面,随着恶意文件隐藏自身的能力不断增强,完整的系统保护现在需要的不仅仅是一个AV引擎。例如,当恶意文件被输入到系统中时,系统的AV引擎将不能检测到该文件,除非该引擎包含允许其这样做的任何签名。这将不可避免地导致感染该系统克服这种限制的一种方法是允许多个AV引擎检查输入到系统中的任何文件,这将显著降低系统无法检测恶意文件的可能性。一些在线服务来执行这样的任务已经可用[1,2]。一般来说,大多数恶意文件在恶意行为特征和攻击方式方面与其他恶意文件有一些共同之处,然后根据这些共同特征将这些恶意文件分组,并分配特定的家族*通讯作者。电子邮件地址:bestksw@gmail.com(S.W. Kim),pplan5872@gmail.com(W.H.Jung),sunbi0113@hotmail.com(K.M.Lee),hgoh@nsr.re.kr(H.G.Oh),kingket9@hanmail.net(E.T.Kim)。同行审议由韩国通信研究所负责教育与信息科学(KICS)。https://doi.org/10.1016/j.icte.2022.02.007名字通过允许多个反病毒引擎检查可疑的恶意文件,系统管理员将获得与每个测试文件对应的反病毒之后,从这些AV标签中提取姓氏。但很难以一致的方式提取族名,因为AV标签的分配方式和使用的族名从一个AV引擎到另一个不同。Caro [3]和MACE[4] 他试图使这个系统标准化,但失败了。 因此,按照目前的情况,如果事先不知道AV标签,人们可能会发现很 难 发 现 姓 氏 。 例 如 , 假 设 BitDefender 有 一 个 名 为“Backdoor”的AV标签。Remcos.AWin32。Remcos.neg”。如果没有事先的知识,很难确定哪一个是后门,Remcos和Win32之间的姓氏。为了解决这个问题,在AVClass [5]和AVClass 2 [6]论文中,使用预先标记的数据集来形成别名表,试图匹配不同的姓氏。一旦别名表被制作,就从感兴趣的AV标签中提取令牌,然后根据该表进行转换。之后,AV标签共享的令牌用作姓氏。然而,如果该别名表长时间不更新,或者AV标签不共享任何令牌,则甚至不会标记家族名称,从而导致显著的性能下降。2405-9595/© 2022作者。 由Elsevier B.V.代表韩国通信和信息科学研究所出版。这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。S.W. 金,W. H.Jung,K.M.Lee等人ICT Express 8(2022)530531本研究提出了一个全自动的标注系统,该系统使用多个AV引擎提供的AV标签作为输入数据来生成表示令牌之间的关系的图,并进一步基于相应的关系图来找到匹配的姓氏。这种方法使操作员能够在没有任何先验知识(例如别名表)的情况下提取族名称。该标记关系图是基于标记出现的频率生成的。 通常,包含在多个恶意文件中的令牌节点被放置在关系图的上部,而包含在特定恶意文件中的令牌节点存在于图的下部。姓氏大多位于图表的中部和下部。例如,win32令牌是一个总是出现的令牌,因此它被放置在上节点位置,而特定于某个文件的令牌,如哈希,最终位于下节点位置。更具体地说,本研究的目的是开发一个全自动的标签系统,可以优先选择更广泛和更频繁使用的姓氏,即使不同的AV标签提供从每个AV引擎,即使没有任何现有的信息或知识。为此,在图生成阶段从感兴趣的AV标签中提取标记,然后根据标记出现的频率计算这些标记之间的关系的条件概率,以进一步生成子集和等价关系图。稍后在图搜索阶段,测量每个标记的使用和出现频率,以准确地标记具有匹配的家族名称的输入恶意文件。这样,可以实现以下目标:本研究的目的是准确地确定令牌之间的关系,以便可以选择和分配更好地代表每个恶意文件的姓氏,而不是通用或特定的单词本研究旨在通过测量每个标记在AV引擎中的使用本研究旨在实现完全自动化的标签,而不使用别名表或数据集,包含先验知识。因此,该系统可用于一种可持续的方式,无需恶意软件专家进行维护。本研究中采用的概念可以适用于 数据标记,机器学习用于恶意文件检测的第一步。如果打算通过机器学习将恶意文件分类到特定的组中,则需要逐个手动标记它们。然而,在本研究中开发的方法,使整个标记过程自动执行。即使每天都有带有新AV标签的新恶意文件出现,也可以通过更新相应的令牌图来自动分配新标签。此外,可以将从多个AV引擎获得的AV标签汇总为单个单词(令牌或姓氏),并将其提供给用户或在报告中提供。虽然现有系统显示Fig. 1. Sumav概况 运营在从AV引擎获得的所有AV标签的列表中,本解决方案将它们概括为单个解决方案以使信息更容易访问。该系统还可以链接到门户网站,以便根据在这些门户网站上搜索到的恶意文件的其他相关报告和文章起草结果报告,从而提高报告质量。2. SUMAV:汇总AV标签Sumav是一个用来提取姓氏的工具,关键标签,来自从AV引擎获得的AV标签,而没有任何先前的数据集。鉴于没有任何先前的信息可用时,有必要从关于AV标签的统计数据中提取关于AV标签令牌之间的关系的知识。Sumav的操作涉及以下两个后续过程,如图所示。 1:(1)生成标记关系图(2)搜索标记关系图。在标记关系图生成阶段,基于统计数据生成表示标记之间的关系的图。在标记关系图搜索阶段中,在前一阶段中生成的关系图中搜索AV标签,从而提取代表性标签。2.1. Sumav图生成阶段令牌关系图生成阶段如下进行:1.从AV标签中提取令牌,2.测量每个标记出现的频率,以及3.定义了每个令牌之间的关系为了准确测量每个标记的频率,需要超过一百万这个阶段类似于训练机器学习模型。2.1.1. 从AV标签一般来说,AV标签由多个单词组成。如果仅仅通过根据标点符号划分标签来提取标记,则会生成大量唯一标记。如果标记数量过多,则生成标记关系图以及在图中搜索新输入的标签将花费很长时间。为了减少令牌的数量,应用了以下四种经验方法。···S.W. 金,W. H.Jung,K.M.Lee等人ICT Express 8(2022)530532- −+一表1保存AV标签的数据集示例表3令牌边缘-从表1数据集获得的累积结果文件sha256AV引擎A AV引擎B56ce。. .PUP/Win32.DownloadGuide.R245289Application.Bundler下载指南.KEb7f5。. .Trojan/Win32/Patched. AP表2令牌节点-从表1数据集中获得的累积结果。令牌节点令牌数文件win32 2 2下载指南2 1应用1 11 1 1trojan 1 12011年1月1日通用1 1servstart 1 1. . .. . .. . .(1) 代币中包含的所有大写字母都改为小写。例如,如果发现Trojan和Trojan都是令牌,则Trojan将更改为Trojan。(2) 任何长度小于4的字符串都被排除在外,因为它们在大多数情况下都是无意义的。许多代币被发现以随机的方式包含字母。可以肯定的是,可能有一些长度为3或更少的标记是有意义的,但是排除它们带来的性能增益大于损失。(3) 也排除了代表每个样本特定信息的标记,如数字或哈希模式。正则表达式“[0 9a f] “$”是 采用(4) 任何以三位或三位以上数字结尾的标记也被认为是每个样本的特定信息,因此被排除在外。正则表达式z]+[0− 9]{ 0, 2} [a− z]$表1给出了具有AV标签的数据集的示例。根据以下过程从这些AV标签中提取令牌。在提取标记之前,根据上述方法(1)将AV标签中包含的所有大写字母改变为小写根据方法(2)任何长度小于4的令牌,即,pup、ke和a被排除在外。根据方法(3),任何数字或散列模式,即,第3768章被淘汰了根据方法(4),任何以三位或更多位数字结尾的令牌,即,r205727,已删除。结果,最终获得了一些令牌节点,如表2所示。2.1.2. 令牌频率测量标记频率测量模块被设计为检查每个文件的所有AV标签,并以累积的方式对每个标记在其中的出现进行计数,以确定每个标记的频率。在这里,出现频率涉及以下三个指标:令牌的数量文件的数量和文件的交集数量。令牌的数量被定义为每个令牌在不删除重复项的情况下的累积数量。文件数是指删除重复项后每个令牌的累积数量简单地说,前者是在不删除重复项的情况下计算的每个令牌的净数量,后者是相应令牌出现的文件数量。例如,在表1的数据集中,在AV引擎A的第一文件和第二文件中均发现win32。因此,对于win32 , 令 牌 数 为 2 , 文 件 数 为 2 。 相 比 之 下 ,downloadguide出现在第一个文件中,但不在第二个文件中;但是,在AV引擎A和AV引擎B中都可以找到它。因此,在这里,令牌的数量是2,而对于downloadguide,文件的数量是1。表2显示从表1中的示例数据集测量的令牌和文件的累积数量。文件的交叉数是指在一个文件AV标签中出现两个不同令牌的情况的累积数量。例如,如果downloadguide和win32都出现在一个文件中,那么系统会生成一个对应于该情况的token edge,文件的交集数会被测量为1。如果相应的令牌边缘在系统中已经可用,则文件的交集数将简单地增加1。稍后需要此值来推断令牌节点之间的关系。表3示出了从表1中的示例数据集测量的文件的计算交集数。2.1.3. token之间关系的定义令牌之间的关系可以通过计算它们在单个文件的AV标签中共存的频率来定义为此,条件概率计算如下: 当量(一). 表4示出了使用等式2计算的令牌共存的条件概率。(一).P(B)|A)=AB( 1)鉴于每个AV引擎具有不同的检测模式和策略,令牌构成完美子集关系或相同关系的可能性较小。考虑到这一点,在本研究中,采用了交叉错误率。根据3.3和3.4中的检验,在不同的交互错误率下,没有发现F1得分的显著性能差异,但认为10%的水平是最合适的。如果想要获得更具体地描述关系的图,则交叉误差率可以简单地调整为10%或更小。令牌节点关系之前后下载指南Win321应用Win321nitol伺服起动1. . .. . .. . .S.W. 金,W. H.Jung,K.M.Lee等人ICT Express 8(2022)530533⊂⊂||表4令牌边缘-从大约2亿个文件中获得的结果,包括示例数据集。令牌节点P(后|先验)关系先验后验win32下载指南0.998234 win32下载指南下载指南win32 0.00430668Bitcoinminer矿机0. 990701 bitcoinminer=矿工miner bitcoinminer 0. 946054. . .. . .. . .. . .表5令牌节点之间的关系-相交错误率为10%。条件关系定义P(B)|A)> 0.9且P(A)|B)> 0.9A = BA和B相同(未使用)P(B |A)<0.1和P(A)|B)<0.1A = B无关系(未使用)P(B |A)<0.9和P(A)|B)>0.9A BB是A的子集P(B)|A)> 0.9且P(A)|B)<0.9A BA是B的子集其他$弱关系(未使用)对于关系的粗略表示,相交误差率被设置为高于10%。基于测量的条件概率结合相交错误率,可以确定子(子集)关系。在表5中,AB关系意味着A是B的孩子。基于这些亲子关系,可以适当地标记不常见的姓氏。例如,当A为win32,B为download-guide时,如果P(BA)为0.998234,P(AB)为0.00430668,则A和B之间的关系对应于表5中的AB。因此,downloadguide可以定义为win32的子集或子项。2.2.2. 代表性代币在2.2.1中提取的标记使用等式(二)、这里,Tp(i)是指第i个令牌的优先级分数。在令牌中,选择具有最高优先级分数的令牌作为代表性姓氏。Tp(i)=W( i)+I( i)−G( i)(2)W( i )是 第 i 个 令 牌 的 权 重 , 可 以 表 示 为如 Eq 。(三)、Tn(i)是从输入文件中提取的标记数。这里,应用对数来确保权重不会被过度高估,特别是当令牌数量非常大时。权重参数b(对数底)可以由用户指定。对数底越小简单地说,在选择代表性令牌时,当参数b较小时,从文件中提取的标记的数量对结果具有较大的影响中的测试结果3.3表明当b = 1.8时实现最高性能。W(i)=logbTn(i)(3)I( i )是第i个令牌的重要性,并且可以表示为等式(1)。(四)、Tc(i)是第i个标记的图形生成中的标记数,而Tf(i)是图形生成中包含第i个标记的文件数。这些参数只是代表了相应的令牌在AV引擎公司中的使用频率和范围在这里,被广泛使用意味着对应的令牌在AV引擎中被普遍使用和接受,因此具有重要意义。同样,如果A = B,则A等价于B。在这种情况下,较少的令牌被合并成较大数量的令牌。的I(i)=Tc(i)/Tf(i)(4)如果A = B,并且B标记的数量很大,则A合并为B标记,这称为别名。别名可以在Sumav中使用,但没有使用,因为性能指标没有显著改善。主要原因是令牌组大小不变,只是令牌组中的令牌名称发生了变化。2.2. Sumav图搜索阶段Sumav图搜索阶段如下进行:1.从AV标签中提取令牌,2.代表性令牌的识别。这个阶段类似于服务机器学习模型。2.2.1. 从AV标签在Sumav图搜索阶段,根据与2.1.1中相同的过程从AV标签中提取令牌。不同之处在于,之前在2.1.1中,令牌是从几个样本的AV标签中提取的,然后保存在DB中;然而,这里令牌是从单个输入文件的AV标签中提取的,用于Sumav图搜索,然后丢弃。G(i)表示第i个令牌的通用程度,并且可以表示为等式(1)。(五)、 Ts(i)是该函数的子集的数目,第i令牌。N是令牌的总数。作为一种惩罚,将更高的值分配给与其子令牌一起出现更频繁的父令牌。该校准方案使得这样的父令牌不太可能被选择为代表性姓氏。类属参数c越高,类属标记被选择为族名的可能性越小。同样,泛型参数c越小,越有可能选择通用标记作为姓氏。3.4中的测试结果表明,当c值在196和225之间G(i)=Ts(i)/Nc(5)2.3. Sumav工艺总结Sumav从大量的AV标签中生成Sumav图,然后当一个AV标签进入时输出代表性令牌。Sumav过程有两个阶段,如图2所示,每个阶段都类似于机器学习中的学习和服务。首先,Sumav图生成步骤主要分为(1)标记提取,(2)计数,以及(3)通过条件概率计算生成图。(1)在S.W. 金,W. H.Jung,K.M.Lee等人ICT Express 8(2022)530534图二、S u m a v 的 工艺总结。在标记提取步骤中,标记化的AV标签不直接使用,而是需要进一步的微调方法。这些方法只是减小了Sumav图的规模,并不是只适用于当前AV标签系统的启发式方法。(2)在计数过程中,它只是按令牌、文件和令牌对进行计数。该数字不仅用于计算条件概率,而且还用于通过等式(1)计算令牌重要性。(四)、(3)Sumav图生成步骤是通过条件概率计算来推断每个标记的关系,并生成图以获得关于每个节点处有多少子集的信息。子集信息用于通过等式((五)、Sumav图搜索阶段被划分为标记提取和标记评分阶段。与接收许多恶意文件的Sumav图形生成步骤不同,此步骤仅接收一个恶意文件。但是,令牌提取方法是相同的。根据Eqs. (2)、(3)、(4)和(5)中,使用先前生成的Sumav图信息对令牌进行评分,然后Sumav输出具有最高优先级分数的令牌。3. 实验程序使用服务器计算机(CPU E5-2697 A v4@2.60 GHz,256 GB RAM,RAID5 SSD*6)。使用与AVclass2 [6]相同的方法测量性能指标。这种测量方法测量组聚类的准确性,而不是标记的准确性。3.1. 数据集集合分别收集两个不同的数据集用于Sumav图从2021年1月1日至3月31日期间输入到VirusTotal [7]的所有文件中,共收集了至少一个AV引擎检测到的60,396,439个AV标签。然后使用这些AV标签构建Sumav图生成的数据集。在这些AV标签中,排除了由以下AV引擎检测到的那些。(The Sumav使用的AV发动机列表见附录。)提供AI相关AV标签的AV引擎仅提供启发式AV标签的AV引擎仅用于移动应用的AV引擎除已在VirusTotal注册两年以上使用其他AV引擎的软件开发工具包(SDK)构建的AV引擎具有3131个AV标签的Malheur数据集[8]用于与先前研究进行标签性能比较。据我们所知,Malheur是唯一向公众提供的数据集,以及相应的哈希和标签。在本研究中,Malheur数据集在使用前进行了手动校正,以使其更加精确。在Malheur数据集中发现了两例错误标签。首先,一个姓氏为“维京”的群体被发现分为维京DLL和维京DZ。DLL和DZ的划分是因为Malheur数据集是通过动态分析生成的。为了解决这个问题,VIKING DLL和VIKING DZ被合 并 为 VIKING 。 第 二 , 两 个 不 同 的 标 签 共 存 ,MAGICCASINO和CASINO,即使它们实际上是相同的。为了解决这个问题,MAGICCASINO被改为CASINO进行合并。3.2. Sumav图生成对于Sumav图生成,需要将AV标签转换为令牌。处理VirusTotal文件馈送服务每分钟提供的三个月的tar.bz2数据并将其保存为RDB需要大约三天的时间。在使用上面生成的标记生成Sumav图时,一旦给出相交错误率,就创建标记节点和边。对于60,396,439个AV标签,当相交错误率e为0.95.当相交误差率为0.90和0.85时,生成时间分别为44,674和47,257 s。代时随e的增加而略有增加。生成Sumav图需要相当长的时间,因为并行处理是不可能的。3.3. 相交误差率和权重参数b图3示出了Malheur数据集相对于相交误差率e和权重参数b的性能度量。在每张图中,标记了最大F1评分·····S.W. 金,W. H.Jung,K.M.Lee等人ICT Express 8(2022)530535图3.第三章。F 1 -相对于权重参数b的得分。一个文本气球。当b在4和5之间时,F1评分值很大程度上被发现是最高的。每条虚线(看起来像-)表示当等式(1)(3)不适用。这意味着Eq。(3)在一定程度上有助于提高F1值。3.4. 相交误差率和通用参数c图4示出了Malheur数据集相对于相交误差率e和通用参数c的性能度量。在每个图中,最大F1分数用文本气球标记。当c为0时,Eq. (5)然后变得不活跃,导致最小F1分数。这意味着Eq。(5)有助于在选择代表性标记时增加F1得分值。发现F1评分值是图四、F 1 -关于通用参数c的分数。当c在196和255之间时最高,并且交叉错误率的影响不显著。因此,对于以下测试,c被设置为225。3.5. Malheur数据集在Sumav图中,当E=0.9、b=4.1和c=225时,获得最高F1评分。基于该结果,将Sumav的性能与先前研究中报告的其他溶液的性能进行了比较,如表6所示。Sumav的处理时间相对较短,同时在其他指标上也提供了卓越的性能。与其他研究不同,本研究没有使用任何先验知识或标记数据集,而是仅参考AV标签来实现上述目标S.W. 金,W. H.Jung,K.M.Lee等人ICT Express 8(2022)530536表6Malheur数据集的性能指标T(s)标签精度召回F1得分谐音40.0百分百90.06%83.86%86.85%AV类22.3百分之九十五点五90.81%88.45%89.61%苏马夫6.5百分百89.70%百分之九十八点六百分之九十三点九四性能这意味着即使对当前的AV标签系统进行更改,Sumav也能够保持与以前相同的性能。此外,不需要准备预标记的数据集或执行维护活动,例如先验知识更新。3.6. 生成的数据集的性能指标比较最初,我们希望利用上传到VirusTotal [7]的最新示例或来自AlienVault [9]的最新源。然而,95%的样品超过2年,99%的样品超过1年,因此不适合检查现有AV标签系统对突然变化的鲁棒性。因此,我们决定根据以下规则生成一个新的数据集:有3个按顺序编号的通用令牌。一个通用令牌之后是20个家庭令牌编号顺序。一个家族令牌后面跟着随机编号的100个散列令牌。它看起来像这样:gen#.fam#.hash##是字符串形式的数值。表7显示了生成的数据集的示例。在野外,存在噪声AV标签,因此AV引擎C在由AV引擎A和B生成的现有令牌内随机生成AV标签表8显示了生成的数据集的性能指标的比较。Euphony没有结果,因为未能解析AV标签。在开始步骤中,Euphony尝试提取标记,但在启发式规则中没有匹配的标记(断言失败:非空标签)。在AVclass [5]的情况下,有通用令牌检测和令牌检测模块,在AVclass 2 [6]的情况下,有更新模块。因此,我们通过执行模块将生成的数据集应用于AVclass的知识,并将更新后的AVclass标记为AVclass+。AV class(+)和AV class 2(+)在AV标签系统的突然变化中均显示出较低的性能指标。然而,Sumav+在 AV标签系统的突然变化中获得了81.19%的f1分数,尽管有嘈杂的AV标签,但由于在未更新的Sumav图中缺乏令牌知识,Sumav无法标记任何东西。4. 限制通用令牌标记。Sumav是一种基于分数的标记方法。因此,如果没有家族令牌,只有通用令牌存在,Sumav将选择一个不太通用的令牌。尽管如此,您可以使用基于分数的阈值过滤来防止Sumav选择通用令牌,但它可能会错过正确的令牌或不返回任何内容。不在Sumav图中的AV标签性能较差。 如第3.6节中的实验所示,如果Sumav图中没有标记信息,则标记失败。换句话说,您可以仅标记Sumav图中的标记。当一个全新的令牌出现时,它不能被标记。但是,您可以通过创建新的Sumav图来获得高性能。这个弱点可以通过定期生成新的Sumav图来解决。在不匹配的AV标签上性能不佳。如果每个AV引擎输出不同的令牌,Sumav根据先前生成的Sumav图输出更频繁和广泛使用的令牌。在这种情况下,Sumav在大多数情况下可以被正确地标记,但是如果生成的Sumav图太旧,则可能被错误地标记。因此,为了防止Sumav错误标记,应经常更新Sumav图。表7生成的数据集用于测量AV标签系统突然变化的性能指标Num.AV发动机AAV发动机BAV发动机C(噪音)地面实况1genone.famone.hashtengenone.famone.hasheightyonegentwo.fameighteen.hashsixtysix法莫内2genone.famone.hashthirtyonegenone.famone.hashtwelvegenthree.famfour.hashsixty法莫内. . .. . .. . .. . .. . .100genone.famone.hashfortysevengenone.famone.hasheightgenone.famtwentyfive.hashthirtyfive法莫内101genone.famtwo.hashninegenone.famtwo.hashthirtythreegentwo.famtwentyone.hashfiftyseven法姆图瓦. . .. . .. . .. . .. . .2000genone.famtwenty.hasheightythreegenone.famtwenty.hashonegentwo.famnine.hashninetyeightfamtwenty2001gentwo.famtwentyone.hashthirtysixgentwo.famtwentyone.hashsixtygentwo.famfive.hashsevenfamtwentyone. . .. . .. . .. . .. . .4000gentwo.famforty.hashseventygentwo.famforty.hashtwentyninegenthree.famfive.hashfour法姆福尔4001genthree.famfortyone.hashtengenthree.famfortyone.hashseventyeightgenone.famtwentyone.hashthirtysevenfamfortyone. . .. . .. . .. . .. . .6000genthree.famsixty.hasheightyfivegenthree.famsixty.hashninetythreegenthree.fameight.hashninetytwo法姆六十···S.W. 金,W. H.Jung,K.M.Lee等人ICT Express 8(2022)530537AVclass2[6](◆◆(中文)表8生成的数据集的性能指标- Superscript +表示其知识随生成的数据集更新T(s)标签精度召回F1得分谐音–-––-AV类AV类+0.73秒百分之九十九点五百分之二十四点三50.68%百分之九十九56.36%23.32%53.37%37.35%AV类2AV类2+1.66秒百分之九十九点四三百分之九十九点八7.50%4.90%百分之九十四点二六百分之八十三点八五百分之十三点九百分之九点二五Sumav+5.94秒0%的百分比百分百0%的百分比68.33%0%的百分比百分百0%的百分比81.19%表9对大多数情况下的代表性工作是标记(◆=真,=假,(=部分true)。Malheur数据集,f1评分没有变化。主要原因是所有具有相同名称的令牌都被重命名。将来,我们将修改此功能以改进性能指标。(4)AVclass2 [6]能够获取分类为行为、类、文件、属性和族的属性标签,但Sumav不能。将来,我们将通过利用表5中表示的令牌节点之间的关系来添加此功能。机器学习一些研究人员[11AV标签可靠性。其他研究人员[14代表作无需事先了解(1)知识更新(2)(3)属性标签(4)引擎到另一个。他们揭示了仅使用AV标签Kantchelian等人[18]估计最初的AV标签需要多长时间才能稳定下来AVclass[5](◆[第10话]Sumav(我们的)◆5. 相关工作Malwa r elabelling g. Sebasti a'n等人的研究关于Vclass[5] 是第一篇尝试根据AV标签为所有恶意文件标记家族名称的论文。在他们的研究是通过标记提取和别名检测来进行标记的,类似于本研究。然而,他们的研究不同之处在于,在这个过程中使用了标记的数据集。在本研究中,没有使用先验知识或预先标记的数据集。 Sebasti a'n等人提出的Vclass2。[6] 还能够提取恶意文件的属性标签(恶意行为、文件类型等)。然而,所提出的方法仍然需要初始的先验知识的标记规则,扩展规则,分类法等。Hurier等人提出的Euphony [10]旨在通过将目标文件的范围缩小到Android恶意文件来实现标记,即使没有先验知识。然而,本研究中提出的解决方案适用于所有类型的恶意文件,包括Android文件。表9显示了每项工作的能力。(1)其他工作需要先验知识(Euphony [10]在没有标记数据集的情况下提取姓氏,但仍然需要分类规则和初始数据库来提取标签。但苏马夫没有(2)AVclass [5]和AVclass2 [6]可以更新知识,但AV标签的动态变化会降低标签性能。AVclass仅查找/删除通用令牌并查找/替换别名令牌,而不了解令牌之间的关系。AVclass2只是通过使用同现统计来更新类似的标签。另一方面,Sumav能够保持高标记性能,因为Sumav完全从AV标签中重新生成知识(例如Sumav图),而无需先验知识。(3)所有工作都支持别名,别名通过使用条件概率来合并相关令牌,但Sumav没有应用别名,因为度量没有性能提升。当别名在Sumav中应用时,还引入了一系列机器学习技术来检测恶意文件。6. 结论本研究Sumav是第一篇尝试在没有任何先验知识或预标记数据集的情况下标记AV标签的论文。测试结果表明,与先前研究中报告的其他解决方案相比,Sumav具有相对较短的处理时间,同时提供更好的性能。最大的优点之一是,该解决方案不需要任何先验知识来生成标记的令牌图。考虑到不使用现有的先验知识,即使对现有的AV标签系统进行突然改变,所提出的解决方案也能够以一致的方式保持其标记性能。简单地说,可持续标签可以在不需要维护的情况下实施。在接下来的研究中,我们计划细分标记之间的关系,以便属性标记也可以输出。此外,我们将修改Sumav的别名功能,以提高性能指标。CRediT作者贡献声明金 相 元 : 概 念 化 , 方 法 论 , 软 件 , 写 作 JungWookhyun : 调 查 , 资 源 。 KyungMin Lee : 验 证 。HyungGeun Oh:项目管理。金义德:监督。竞合利益作者声明,他们没有已知的可能影响本文所报告工作致谢这 项工 作得 到 了韩 国 能源 技术 评 估和 规 划研 究所(KETEP)和大韩民国贸易、工业能源部(MOTIE)的支持(第2009/2009号)。20212020800120)。S.W. 金,W. H.Jung,K.M.Lee等人ICT Express 8(2022)530538附录Sumav使用的AV引擎列表如下:AegisLab,AhnLab-V3 , Alibaba , Avast , Avira , Baidu , Bit- Defender ,Bkav , CAT-QuickHeal , CMC , ClamAV , Comodo ,Cyren , DrWeb , ESET-NOD32 , F-Secure , FireEye ,Fortinet,Ikarus,Jiangmin,Kaspersky,Malwarebytes,McAfee , Microsoft , NANO-Antivirus , Panda , Qihoo-360 , SUPERAN-tiSparkle , Sophos , Symantec ,TACHYON , Tencent , TotalDe- fense , TrendMicro ,VBA32,VIPRE,ViRobot,Webroot,Yan- dex,Zillya,Zonedalarm和Zoner。引用[1] VirusTotal-文件上传[在线],可用:h t t p s:/ / w w w. 我很高兴。com/gui/home/upload.[2] Malwares.com [Online],Available:https://www. 我也是。com/.[3] Caro -一个新的病毒命名约定[在线],可用:http://www. caro。或g/articles/naming. HTML.[4] 恶意软件属性枚举和特征化[在线],可用:http://maecproject.github. 我同意。[5] Martián Marcos,Richard Rivera,Platon Kotzias,Juan Caballero,Avclass : Atoolformassivemalwarelabeling , in :InternationalSymphonResearchinAttacks , Intrusions , andDefenses,Springer,Cham,2016,pp. 230-253。[6] Antián Silvia,Juan Caballero,AVclass2:从AV标签中提取大量恶意软件标签,载于:年度计算机安全应用会议,2020年,pp. 42-53号。[7] VirusTotal-文件源[在线],可用:h t t p s:/ / d e v e l o p e r s.virustotal. com/reference#file-feed。[8] Rieck Konrad,Philipp Trinius,Carsten Willems,Thorsten Holz,使用机器学习自动分析恶意软件行为,J。Comput. 安全性19(4)(2011)639[9] AlienVault -alienvault用户的脉冲[联机],可用:h t t p s:/ / o t x.我 的 意 思 是 , 我 的 意 思 是 , 我 的 意 思 是 ,com/user/AlienVault/pulses.[10] Médéric Hurier,Guillermo Suarez-Tangil,Santanu Kumar Dash,Tegawendé F. Bissyandé , Yves Le Traon , Jacques Klein ,LorenzoCavallaro,Euphony:Harmonious unification of cacophonousantivirusvendor labels for android malware,in:2017 IEEE/ACM第14届国际采矿软件库会议,MSR,IEEE,2017,pp. 425-435[11] N.放大图片作者:Ethan M. Rudd,Tad M. Heppner,Alex Long,Konstantin Berlin,通过属性标记和相似性嵌入的自动恶意软件描述,2019,arXiv预印本arXiv:1905。06262.[12] Y. Zhang, Y. Sui,S.潘,智-地郑湾,澳-地宁岛Tsang,W.Zhou,Familial clustering for weakly-labeled android malware usinghybridrepresentation learning , IEEE Trans. Inf. Forensics Secur. 15(
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功