没有合适的资源?快使用搜索试试~ 我知道了~
无人机飞行日志实体识别器:支持证据提取的开源工具
软件影响15(2023)100457原始软件出版物DFLER:无人机飞行日志实体识别器,以支持对无人机设备的Swardiantara Silalahi,Tohari AhmadAbdullah,Hudan Abdullawan信息学系,Institute Teknologi Sepuluh Nopalan,泗水,印度尼西亚A R T I C L E I N F O保留字:命名实体识别无人机取证Transformer信息提取深度学习取证工具网络基础设施A B标准DFLER是一个基于CLI的开源工具,使用Python开发,并由微调的BERT模型支持对无人机飞行日志数据(特别是日志消息)执行命名实体识别。 该模型托管在HuggingFace平台上,以使其公开可用和可访问。该工具需要解密DJI飞行日志文件作为输入,并生成PDF格式的取证报告,其中包含一个取证时间轴,突出显示日志消息中提到的实体的部分。生成的文件是完整法医报告的附件,可帮助法医调查人员在构建的法医时间轴上查明关键事件代码元数据当前代码版本V0.1.2用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-298可复制胶囊的永久链接https://codeocean.com/capsule/5863552/tree/v1法律代码许可证MIT许可证(MIT)使用git的代码版本控制系统软件代码语言、工具和服务使用HTML(72.2%)、Python(27.8%)编译要求、操作环境和依赖关系Python、Pandas、simpletransformers、torch、sklearn、seqeval、pdfkit、wkhtmltopdf 如果可用,请链接到开发人员文档/手册https://github.com/swardiantara/dfler/blob/main/README.md问题支持电子邮件tohari@if.its.ac.id1. 介绍基于计算机的系统已经存在了三十年,并对现代生活产生了积极的影响。尽管技术进步带来了巨大的积极影响,但也提出了一些挑战和问题。以前,高性能计算设备只有政府组织或大公司才能使用。而如今,新兴和复杂的功能呈现在更实惠的小工具中,并向社区提供。物联网领域的最新新兴技术之一是无人机(UAV),通常称为无人机。 随着无人机制造商不断生产可供社区使用的商用无人机,因为越来越多的无人机设备在市场上销售,更多的无人机事件发生了。面对这种现象,无人机专家和研究人员有兴趣建立框架或程序来对无人机事件进行法医调查。无人机取证是近年来数字取证领域的一个新兴研究课题。无人机制造商的专有数据格式和加密数字证据一直是主要挑战在分析无人机文物[1]。例如,DJI无人机然而,研究界正在努力通过开发开源工具(如dji-log-parser)来克服这一限制。2其他几种工具已被提出来提取和本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址:tohari@if.its.ac.id(T. Ahmad)。第1https://www.flightreader.com/2 https://github.com/mikeemoo/dji-log-parserhttps://doi.org/10.1016/j.simpa.2022.100457接收日期:2022年12月6日;接收日期:2022年12月12日;接受日期:2022年12月13日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsS. Silalahi,T.Ahmad和H.拉瓦万软件影响15(2023)1004572Fig. 1. DFLER命令行界面。解密大疆飞行日志数据DatCon3使用Java开发,是一个免费的取证工具,可以解析包含无人机飞行数据的.DAT文件。.csv文件作为DatCon的输出生成,并且可以使用CsvVi ew进行可视化。4它还可以用于解密DJI Go App生成的.txt飞行日志,DJI Go App是一款Android应用程序,用于在飞行期间控制无人机。此外,AirData5可以执行CsvView的功能,但它是非自由软件。在[2]中报告了AirData、CsvView和Autopsy6使用VTO Labs7AirData和Autopsy提供比CsvView更有价值的信息和重要见解。Salamh等人[3]使用DJI Phantom 4和DJI Matrice 210作为案例研究进行了类似但更深入的研究。这项研究的结论是,没有一个单一的工具可以进行全面和完整的分析。异构和大量的无人机数据是原因之解密过程导致部分数据丢失,因此无法证明分析技术前面提到的工具专注于解密和解析加密的无人机工件中的飞行信息,以获取纯数据。研究人员通过提出进行证据分析的工具,进行了几次进一步处理飞行数据的通过对DJI Phantom III无人机模型进行实验,Clark等人[3]开发了DROP(Drone Open-source Parser),这是一个CLI工具,可以解析和分析DJI无人机模型中的.DAT文件。通过比较时间戳中每个匹配项的GPS坐标可以执行文件关联以确定置信度(以百分比表示),年龄该百分比表示由控制器设备生成的飞行日志与机载飞行数据之间的相关性度量。[4]中报告了证据分析的进一步发展,特别是在Gryphon提出时的冲击和遥测数据。所提出的方法包括六个阶段的法医检查,它可以成功地查明事件的根本原因,如电池故障,可能导致高度错误检测。通过执行轨迹分析,GRYPHON可以区分无人机飞行时使用的飞行模式,并检测紧急着陆。然而,现有的工作仍然集中在利用飞行过程中记录的传感器数据。在撰写本文时,还没有研究对飞行日志进行证据分析,特别是飞行记录中的人类可读信息。 为了填补这一空白,我们研究如何执行信息提取(IE),以支持法医检查,利用人类可读的消息3https://datfile.net/4 https://datfile.net/CsvView/intro.htmlhttps://airdata.com/第https://www.autopsy.com/7https://www.vtolabs.com/drone-forensics在飞行日志文件中。这项工作的灵感来自NER在解析来自各种系统的日志文件方面的成功[5]。因此,NER被选择为 在IE中识别与无人机事件相关的实体的初始步骤,以帮助法医调查人员更快地查明关键日志记录。2. 功能和主要特点开发的工具,简称DFLER,有四个特点,如图所示。1.一、每个功能都代表执行命名实体识别的一个步骤,从证据检查开始。该工具扫描预定义的证据文件夹,以列出给定的源证据。在列出所有发现的证据之后,第二个特性用于解析具有相应时间戳的日志消息,并构造取证时间轴。但是,主要功能是第三个选项:实体识别器。在我们构建的数据集上的微调BERT [6]模型的支持下,DFLER接收原始解密的飞行日志文件作为输入。有两种类型的飞行日志包含人类可读的消息,即,飞行记录和错误弹出日志。 尽管这两个日志存储了无人机在飞行过程中发生的事件,但存储的消息是不同的。对于每个包含日志消息的日志记录,将使用相应的时间戳和消息进行取证时间轴构建,这是DFLER的第二个特性。没有日志消息的日志记录被省略,因为没有数据可以用于进行实体识别。预训练的NER模型托管在HuggingFace存储库上。在运行该工具之前,首先从HuggingFace存储库下载模型文件,然后将模型文件复制到模型文件夹中,如自述说明中所述。在我们以前的研究中解释了预先训练的过程和程序[7]。然而,用于微调此工具中使用的模型的数据集是我们自己的数据集的更新版本。以前的数据集和更新的数据集之间的主要区别在于注释过程。通过识别数据集中提到的实体并将其分为五个类别来注释先前的数据集。 识别结果用于过滤每个实体跨度并分配相应的标签,而不考虑消息中的上下文。因此,实体跨度具有数据集中所有不同上下文的一致标签。首先,通过考虑句子中的上下文并选择最长跨度作为上下文考虑因素来注释更新的数据集,以将某个标签分配给所提到的实体。此外,更新后的数据集的消息数量是前一个数据集的两倍。但是,日志消息的数量仍然很小,总共有1850条。 由于基于深度学习的模型需要大量数据,因此从头开始训练基于RNN的模型并不是一个合适的选择。因此,微调像BERT这样的预先训练的语言模型是一个明确的选择,S. Silalahi,T.Ahmad和H.拉瓦万软件影响15(2023)1004573图二. DFLER的完整系统流程利用预先训练的权重[8]。在对BERT和DistilBERT两个预先训练好的语言模型进行实验后,BERT取得了最佳的性能。因此,BERT在本文中被用作该工具的底层模型。在HuggingFace存储库上托管的NER模型的帮助下执行实体识别之后,所识别的提到的实体被用于构造突出显示的法医时间轴。这个高亮版本附在法医报告的最后一页。不仅突出显示的法医时间轴,但DFLER还提供了源证据的统计分析。 报告中提供的有价值的信息包括源证据文件名、生成报告的时间、用于生成报告的计算机主机名以及NER结果的统计报告。 图2显示了DFLER的完整流程。技术信息,如每个步骤的处理时间,都被记录下来,以备将来开发之用。假设工具运行时发生任何错误,例如输入文件夹中的文件格式不正确,则可以在显示提示中找到错误消息。因此,用户可以方便地使用该软件,并提供明确的错误信息和修复错误的说明。出于演示目的,输入文件夹包含两个准备好的飞行日志。 唯一要做的就是使用python dfler.py命令运行dfler.py文件。但是,在此之前,请确保已安装依赖项。通过发出pip install -rrequirements.txt命令,所有需要的包都可以使用了。要将生成的HTML报告文件转换为PDF,该工具依赖于wkht mltopdf 8引擎,该引擎必须安装在运行的操作系统上。最后,该工具的 输出 是 PDF 格 式的 取 证 报告 ,其 中 包含 已识 别 的提 到 的实 体, 并 带有 一 些颜 色高 亮 以指示实体类型,如图所示。3.第三章。第https://wkhtmltopdf.org/3. 影响概述所提出的系统是第一次尝试利用飞行日志消息来执行NER,以协助对无人机事件进行法医调查。自Transformer架构出现以来,NLP的研究进展更快,随后出现了各种预训练语言模型(LM),如BERT,DistilBERT等等。上下文学习比以前更容易,其中基于RNN的深度学习在序列标记任务中仍然是最先进的。采用基于转换器的模型是一种常见的方法 最近的NLP研究,包括NER。出于这个原因,本研究利用著名的预训练LM之一BERT,使用我们的特定于领域的数据集来构建NER模型,以微调预训练的BERT。该工具的开发展示了以结果为导向的研究,其中向社区发布了由尖端技术支持的即用型软件,如[9]所做的那样,它为几个审计日志的图形分析提供了支持。小的公开可用的变化可以积极影响研究界,以促进研究进展。它还促进可验证和可复制的研究成果。此外,特定领域的专家可以实际感受到研究进展开发 的工具 已经在 VTO Labs 提供 的DJI Phantom 4 ( DF005和DF006)中提取的真实数据集上进行了测试从基于Android和iOS的控制 器 设 备 成 功 获 取 的 41 个 原 始 飞 行 日 志 文 件 , 如DJIFlightRecord_2017 - 06-29_[11-15-17].csv 、 DJIFlightRecord_2017-06-29_[11-20-32].csv 和 DJIFlightRecord_2017- 06-29_[12-39-25].csv ,存储在代码库的测试文件夹中。测试在基于Windows和Linux的操作系统上进行。中解释的四个功能,S. Silalahi,T.Ahmad和H.拉瓦万软件影响15(2023)1004574图三. 在法医报告中突出显示了法医时间轴。见图4。 DFLER的输出,PDF格式的取证报告。前一部分运行良好。每个步骤的输出文件都存储在代码存储库的outputs文件夹中。图4显示了由此产生的法证报告的封面,其中载有调查尝试的元数据。构建的法证时间轴以及重点内容附在报告的最后一页。图 3 是 成功构建的突出显示的法医时间轴的示例外观。该工具的优点之一是它完全使用Python构建,Python是一种易于理解的高级编程语言,常用于AI/ML相关研究[10]。代码库也向公众开放,以便实现的功能可以重用并扩展到更高级的功能。此外,此工具中使用的NER模型是公开开放和托管的在HuggingFace平台上假设其他研究人员想要使用该模型;他们可以点击提供的端点或简单地使用Web执行推理的UI。局限性和未来改进:用于训练模型的数据集相对较小,并且所有获取的消息都来自DJI模型。目前,输入的飞行日志只能处理是大疆飞行记录和错误弹出日志文件。在未来,我们计划添加更多数据,使工具更通用。学术出版物:用于支持此工具的NER模型是我们的研究结果[7],对微调中使用的数据集进行了小幅更新。CRediT作者贡献声明Swardiantara Silalahi:概念化,方法论,软件,调查,写作Tohari Ahmad:概念化,方法论,资源,写作-评论编辑,项目管理,资金获取,监督。胡丹·阿扎旺:概念化,数据策展,方法论,验证,资源,写作竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作S. Silalahi,T.Ahmad和H.拉瓦万软件影响15(2023)1004575致谢这项工作得到了印度尼西亚共和国教育、文化、研究和技术部的Institut Teknologi Sepuluh Nopaly和PMDSU奖学金的引用[1]A. Al-Dhaqm,R.A. Ikuesan,V.R. Kebande,S.拉扎克Ghabban,无人机取证模型的研究挑战和机遇,电子10(13)(2021)http://dx.doi.org/10.3390/electronics10131519。[2]S. Viswanathan,Z. Baig,无人机的数字取证:工具和技术的研究,在:信息安全中的应用和技术,2020年,pp. 29比41[3]D.R.克拉克角,澳-地梅弗特岛Baggili,F. Breitinger,DROP(无人机开源解析器 ) 你 的 无 人 机 : DJI 幻 影 III 的 法 医 分 析 , Digit 。 调 查 22 ( 2017 )S3http://dx.doi.org/10.1016/j.diin.2017.06.013[4]E. 曼塔斯角 Patsakis,GRYPHON:无人机取证dataflash 和遥测日志,在:信息和计算机安全的进展,2019年, pp. 377-390.[5]H.阿斯塔纳湾,F.索赫尔角Payne,Automatic log parser to support forensicanalysis,in:Aust.数字。Forensics Conf. ADF 2018,2018,pp. 1//dx.doi.org/10.25958/5c5268c766686网站。[6] J.德夫林,M.- W. Chang,K.李,K. Toutanova,BERT:用于语言理解的深度双向转换器的预训练,在:计算语言学协会北美分会2019年会议论文集:人类语言技术,{NAACL-HLT} 2019,明尼阿波利斯,MN,美国,6月(2019)2-7,第1卷,2019年,pp. 4171-http://dx.doi.org/[7]S. Silalahi,T.艾哈迈德,H。Mrsawan,使用BERT和Distilbert进行无人机取证的命名实体识别,在:2022年国际数据科学及其应用会议(ICoDSA),2022年,pp. 53http://dx.doi.org/10.1109/[8]B. van der Burgh,S. Verberne,通用语言模型微调小数据集的优点-荷兰书评案例 , 2019 , CoRR , abs/1910.00896 , [ 在 线 ] 。 可 通 过 以 下 网 址 获 得 :http://arxiv.org/abs/1910.00896。[9]O.塞泰耶什法尔角Adkins,M. Jones,K.H. Lee,P. Doshi,Graalf:Supportinggraphical analysis of audit logs for forensics, Softw.影响8( 2021)100068,http://dx.doi.org/10.1016/j.simpa.2021.100068。[10] S. Carta,S. Consoli,A.S. Podda,D. Reforgariato Recupero,M.M. Stanciu,一种用 于统 计套 利的 可解 释 人工 智能 工具 , Softw。 影响 14( 2022)100354,http://dx.doi.org/10.1016/j.simpa.2022.100354。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功