高效的开放获取PDF收割器:自动化数据收集与全文XML转换

需积分: 9 0 下载量 132 浏览量 更新于2024-12-27 收藏 686KB ZIP 举报
资源摘要信息:"article-dataset-builder是一个Python实用程序,专门设计用于高效地收集大规模开放获取(Open Access)PDF文档集,能够容忍下载和处理过程中的错误,并支持并行下载和提取。该工具将收集到的PDF文档转换为结构化的XML格式,以适应文本挖掘和信息检索应用。 Open Access(开放获取)指的是一种学术出版模式,在这种模式下,研究论文和学术文章可以被公众免费获取。在学术界,开放获取被认为是增加研究成果可见度和影响力的重要途径。 该工具支持几种不同的输入方式: 1. DOI(数字对象标识符)列表:将DOI列表作为输入,每行包含一个DOI,程序会自动下载与这些DOI对应的开放获取PDF文档。 2. 元数据csv文件:通过一个CSV文件作为输入,该文件包含了需要收集的元数据信息。 3. PMID(PubMed Identifier)列表:通过一个包含PubMed ID的列表进行输入,每行一个。 4. PMC ID列表:通过一个包含PMC(PubMed Central)ID的列表进行输入,每行一个。 该工具的工作机制基于合理使用原则,即在不进行商业化销售的前提下,可以合法地访问和利用各种开放获取资源。合理使用通常是指在教育、研究或非商业性质的其他特定情况下,对版权保护作品的有限使用。 根据描述,该工具在实际应用中取得了显著的成效,例如,在处理CORD-19数据集时,它能够比原始CORD-19数据集多收获35.5%的全文文档,即从140,322篇文章中至少包含一个可用全文,而CORD-19数据集本身只有103,587篇文章至少包含一个可用全文。这一数据展示了该工具在开放获取文献收集方面的高效性和优越性。 在标签方面,"pdf"、"s3-storage"、"harvester"、"pdf2xml"、"openaccess"和"unpaywall"均是与本工具相关的技术术语或应用场景。其中,"pdf"指明了文件格式,"s3-storage"表明工具可能与Amazon S3存储服务有关,"harvester"是网络爬虫的一种,用于从网络上收集信息,"pdf2xml"表示将PDF文档转换为XML格式,"openaccess"与开放获取运动相关,而"unpaywall"是一个开放获取数据库,提供免费访问学术文献的途径。 文件名称列表中的"article-dataset-builder-master"表明了该工具是一个开源项目,并且其代码库的主要分支(master分支)的压缩包文件名。"article-dataset-builder"可能遵循主分支开发模式,意味着这是项目稳定或主要的版本代码。 最后,该工具的实现可能涉及到多种技术和库,包括但不限于网络爬虫技术、PDF解析和文本提取技术、并行处理技术、错误恢复和容错处理技术、XML处理和数据结构化技术,以及可能的与Amazon S3等云存储服务的集成。此外,使用Python编程语言实现,可能还会涉及到利用Pandas、Requests、BeautifulSoup、lxml、pdfminer.six等Python库或框架。"