PDFMiner.six：Python PDF解析与文本提取工具

需积分: 50 78 浏览量更新于2024-12-04 收藏 4MB ZIP 举报

资源摘要信息:"PDFMiner是一个开源的Python库，用于从PDF文档中提取文本信息和布局数据。它被广泛用于文本挖掘和内容分析等领域。尽管PDFMiner的维护在2020年之后变得较为不活跃，但它仍然是一个功能强大且稳定的工具，适用于处理PDF格式的文件。PDFMiner对PDF文档的处理包括提取文本、获取文本的位置信息、执行自动布局分析、转换PDF文档到HTML/XML格式、提取文档的目录结构（TOC）、标记内容的提取以及支持基本的PDF加密方式。此外，它还支持多种字体类型，并且对中日韩等CJK语言和垂直书写的脚本有着良好的支持。 PDFMiner的主要特征包括： 1. 纯Python编写，仅需要Python 3.6或更高版本即可运行。 2. 支持PDF-1.7版本，几乎可以处理所有PDF文档。 3. 能够提供获取文本的准确位置以及其他布局信息（例如字体等）。 4. 可以执行自动布局分析，这有助于了解文档结构和文本排列。 5. 支持将PDF转换为其他格式，如HTML和XML，便于其他软件处理或网页展示。 6. 能够提取PDF文档的目录结构（TOC），有助于快速浏览文档大纲。 7. 支持提取标记的内容，这有助于精确地提取文档中的特定部分。 8. 支持基本的PDF加密，包括RC4和AES加密算法。 9. 支持多种字体类型，包括Type1、TrueType、Type3和CID。 10. 支持中日韩等CJK语言和垂直书写的脚本，适用于多语言处理。 11. 提供了一个可扩展的PDF解析器框架，开发者可以根据需要进行定制和扩展。如何使用PDFMiner： 1. 安装PDFMiner：通过Python包管理工具pip进行安装，可以使用命令`pip install pdfminer`来安装。 2. 文档转换示例：使用PDFMiner提供的命令行工具`pdf2txt.py`，可以将PDF文档转换为文本格式。例如，命令`pdf2txt.py samples/simple1.pdf`将示例文件`simple1.pdf`转换为文本文件。虽然PDFMiner目前没有积极的维护，但对于非商业用途或对稳定性的高要求项目来说，它仍然可以作为一个有效的选择。如果需要一个活跃的项目，建议查看其分支，例如pdfminer.six，它是PDFMiner的现代替代品，继承了PDFMiner的功能并提供了更好的维护和兼容性。"

资源目录

收起资源包目录

PDFMiner.six：Python PDF解析与文本提取工具（108个子文件）

arcfour.py 1KB

simple1.html.ref 2KB

kampo.txt.ref 8KB

README.md 4KB

nlp2004slides.html.ref 1KB

simple1.xml.ref 6KB

kampo.html.ref 52KB

Makefile 449B

conv_cmap.py 735B

f1040nr.xml.ref 425KB

dmca.txt.ref 2KB

dmca.pdf 71KB

latin_enc.py 8KB

kampo.xml.ref 248KB

aes-256.pdf 13KB

i1040nr.pdf 540KB

README 2KB

Makefile 2KB

pdfpage.py 5KB

glyphlist.py 119KB

cid.png 3KB

nlp2004slides.xml.ref 8KB

naacl06-shinyama.html.ref 8KB

rijndael.py 45KB

Makefile 114B

MANIFEST.in 140B

conv_glyphlist.py 608B

runlength.py 2KB

simple2.html.ref 823B

simple3.html.ref 1KB

f1040nr.txt.ref 4KB

i1040nr.xml.ref 523KB

simple1.pdf 849B

objrel.png 2KB

simple2.pdf 1KB

programming.html 8KB

aes-128.pdf 13KB

image.py 4KB

f1040nr.html.ref 61KB

pdfdevice.py 5KB

encodingdb.py 2KB

layout.obj 12KB

__init__.py 98B

objrel.obj 6KB

Makefile 1KB

cmapdb.py 17KB

pdffont.py 26KB

ccitt.py 25KB

rc4-128.pdf 12KB

simple3.xml.ref 4KB

i1040nr.txt.ref 6KB

nlp2004slides.txt.ref 141B

pdf2html.cgi 7KB

utils.py 9KB

runapp.py 3KB

psparser.py 20KB

naacl06-shinyama.xml.ref 300KB

jo.html.ref 5KB

naacl06-shinyama.pdf 189KB

layout.py 21KB

jo.pdf 3KB

kampo.pdf 28KB

dumppdf.py 9KB

simple2.xml.ref 443B

lzw.py 3KB

conv_afm.py 1KB

cid.obj 7KB

base.pdf 12KB

pdfdocument.py 26KB

simple2.txt.ref 1B

pdfinterp.py 25KB

dmca.html.ref 8KB

aes-256-m.pdf 13KB

naacl06-shinyama.txt.ref 3KB

style.css 145B

simple1.txt.ref 79B

index.html 20KB

simple3.pdf 1KB

pdfcolor.py 750B

jo.txt.ref 3KB

dmca.xml.ref 167KB

Makefile 79B

f1040nr.pdf 640KB

latin2ascii.py 2KB

jo.xml.ref 85KB

fontmetrics.py 61KB

nlp2004slides.pdf 794KB

pdfparser.py 5KB

LICENSE 1KB

aes-128-m.pdf 13KB

rc4-40.pdf 12KB

ascii85.py 2KB

prof.py 815B

setup.py 2KB

pdftypes.py 8KB

converter.py 18KB

simple3.txt.ref 60B

layout.png 3KB

i1040nr.html.ref 21KB

pdf2txt.py 4KB

共 108 条

梦小露

粉丝: 25
资源: 4640

PDFMiner.six：Python PDF解析与文本提取工具

pdfminer.six-master.zip

pdfminer.six:pdfminer的社区维护分支-我们了解PDF

PDFMiner-CHIL

pdfminer.six：深入解析PDF文档提取工具

python解析pdf

pdfminer-pdf-txt

Python_Web开发实战.扫描pdf

第11章 Python第三方库纵览.pdf

pdftitle:提取PDF文章标题的实用程序

python 解码 pdf

最新资源