多时间序列样本特征提取方法在软件检测中的应用研究

版权申诉
0 下载量 146 浏览量 更新于2024-07-10 收藏 28KB DOCX 举报
"多时间序列的样本特征提取方法以应用其的软件检测方法与流程" 本技术涉及模式识别领域,特殊是涉及多时光序列的样本特征提取办法以应用其的软件检测办法。背景技术:在模式识别领域,对机器的行为举行记录分析并按照分析结果将其分类是一种频繁的需求,所谓机器行为通常指计算机软件运行后产生的一系列对操作系统命令的调用。 模式识别领域中,基于神经网络的机器行为特征提取方法是当前主流的做法。其中,循环神经网络和卷积神经网络是两种最常用的神经网络结构。循环神经网络适合处理和时光维度无关的样本,卷积神经网络更适合处理和时光维度相关的样本。 在对机器行为特征的提取中,基于时光维度的采样提取其特征是重要的一个环节。早期通常认为机器产生的行为都是挨次执行的,即同一个机器产生的多个行为之间有严格的时光现后挨次,即使软件支持多线程执行也被认为不存在真正的并行而被当成单线程处理。但随着多cpu以及多核cpu的流行,机器产生的行为已经存在真正的并发及并行,也就是同一台机器会浮现真正的多个行为同时运作的状况。 处理训练具有时光相关性的样本最合适的是卷积神经网络,但卷積神经网络在设计之初并没有考虑处理存在多个时光线的样本,即用卷积神经网络训练的样本假如存在多条时光线,那训练后模型预测的精确性必定会下降。 而现在大多数机器产生的行为都是并发或并行的,例如一个软件运行后可以有数个线程同时运行,每个线程产生数十次或数百次不同的命令调用,同一线程上执行的命令有严格的时光现后挨次,但不同线程间的命令并没有时光现后挨次,意味着对于同一个软件每次执行后各个线程间的命令集执行挨次是随机的,这种状况下单纯采纳卷积神经网络训练模型是不合适的。 通常处理这种状况的办法是,按照一定的规章将多条时光序列的命令串行拼接后再传入卷积神经网络,例如按每条时光序列上命令的数量倒序罗列,这样就将多条时光序列拼接成了 一条序列,可以适用于卷积神经网络处理。 还有一种做法是,将每条时光序列均分配一条卷积神经网络来处理,处理后的结果传入全衔接密度层或循环神经网络再举行融合处理。 针对上述第一种按规章拼接多条时光序列的办法存在问题在于,大多数软件运行后执行命令的数量会十分浩大,例如单线程命令次数会数以万计,针对这种状况的惯用做法是将命令序列截断只取前n个命令参加训练。 在实际应用中,多时间序列的样本特征提取方法可以应用于软件检测领域,例如检测恶意软件、检测异常行为等。同时,该方法也可以应用于其他领域,例如自然语言处理、图像识别等。 多时间序列的样本特征提取方法是当前机器学习和深度学习领域的热点话题,也是软件检测领域的重要技术之一。