高效的开放获取PDF收割器:自动化数据收集与全文XML转换
需积分: 9 132 浏览量
更新于2024-12-27
收藏 686KB ZIP 举报
资源摘要信息:"article-dataset-builder是一个Python实用程序,专门设计用于高效地收集大规模开放获取(Open Access)PDF文档集,能够容忍下载和处理过程中的错误,并支持并行下载和提取。该工具将收集到的PDF文档转换为结构化的XML格式,以适应文本挖掘和信息检索应用。
Open Access(开放获取)指的是一种学术出版模式,在这种模式下,研究论文和学术文章可以被公众免费获取。在学术界,开放获取被认为是增加研究成果可见度和影响力的重要途径。
该工具支持几种不同的输入方式:
1. DOI(数字对象标识符)列表:将DOI列表作为输入,每行包含一个DOI,程序会自动下载与这些DOI对应的开放获取PDF文档。
2. 元数据csv文件:通过一个CSV文件作为输入,该文件包含了需要收集的元数据信息。
3. PMID(PubMed Identifier)列表:通过一个包含PubMed ID的列表进行输入,每行一个。
4. PMC ID列表:通过一个包含PMC(PubMed Central)ID的列表进行输入,每行一个。
该工具的工作机制基于合理使用原则,即在不进行商业化销售的前提下,可以合法地访问和利用各种开放获取资源。合理使用通常是指在教育、研究或非商业性质的其他特定情况下,对版权保护作品的有限使用。
根据描述,该工具在实际应用中取得了显著的成效,例如,在处理CORD-19数据集时,它能够比原始CORD-19数据集多收获35.5%的全文文档,即从140,322篇文章中至少包含一个可用全文,而CORD-19数据集本身只有103,587篇文章至少包含一个可用全文。这一数据展示了该工具在开放获取文献收集方面的高效性和优越性。
在标签方面,"pdf"、"s3-storage"、"harvester"、"pdf2xml"、"openaccess"和"unpaywall"均是与本工具相关的技术术语或应用场景。其中,"pdf"指明了文件格式,"s3-storage"表明工具可能与Amazon S3存储服务有关,"harvester"是网络爬虫的一种,用于从网络上收集信息,"pdf2xml"表示将PDF文档转换为XML格式,"openaccess"与开放获取运动相关,而"unpaywall"是一个开放获取数据库,提供免费访问学术文献的途径。
文件名称列表中的"article-dataset-builder-master"表明了该工具是一个开源项目,并且其代码库的主要分支(master分支)的压缩包文件名。"article-dataset-builder"可能遵循主分支开发模式,意味着这是项目稳定或主要的版本代码。
最后,该工具的实现可能涉及到多种技术和库,包括但不限于网络爬虫技术、PDF解析和文本提取技术、并行处理技术、错误恢复和容错处理技术、XML处理和数据结构化技术,以及可能的与Amazon S3等云存储服务的集成。此外,使用Python编程语言实现,可能还会涉及到利用Pandas、Requests、BeautifulSoup、lxml、pdfminer.six等Python库或框架。"
荒腔走兽
- 粉丝: 25
- 资源: 4663
最新资源
- navindoor-code:室内定位算法设计框架。 模拟接入点信号和惯性信号。-matlab开发
- holbertonschool-web_back_end
- vue3-音乐
- Android6Data1.zip
- quadquizaminos:一种带有诸如测验问题的tretrominoes游戏,以获取战利品盒来帮助游戏。 这是Grox.io对四块的扩展
- 行业-2021年轻代厨房小家电洞察报告.rar
- recipes::file_folder:纤维示例
- .Net 4.6.2安装失败指导
- ServerGraphQL
- 等级保护2.0-测评指导书.zip
- SimpleDynamo:Amazon DynamoDB 的原型
- P2P
- 城市建筑网站模板
- sfkios.com:资产SFKIOS
- Aquatic-Surface-Vehicles-Simulator_Dev:开发OPAQS项目
- 行业-港股 哔哩哔哩招股说明书.rar