没有合适的资源?快使用搜索试试~ 我知道了~
首页利用python将pdf输出为txt的实例讲解
一个礼拜前一个同学问我这个事情,由于之前在参加华为的比赛,所以赛后看了一下,据说需要用到pdfminer这个包。于是安装了一下,安装过程很简单: sudo pip install pdfminer; 中间也没有任何的报错。至于如何调用,本人也没有很好的研究过pdfminer这个库,于是开始了百度…… 官方文档:http://www.unixuser.org/~euske/python/pdfminer/index.html 完全使用python编写。 (适用于2.4或更新版本) 解析,分析,并转换成PDF文档。 PDF-1.7规范的支持。 (几乎) 中日韩语言和垂直书写脚本支持。 各种字体类
资源详情
资源评论
资源推荐

利用利用python将将pdf输出为输出为txt的实例讲解的实例讲解
一个礼拜前一个同学问我这个事情,由于之前在参加华为的比赛,所以赛后看了一下,据说需要用到pdfminer这个包。于是安
装了一下,安装过程很简单:
sudo pip install pdfminer;
中间也没有任何的报错。至于如何调用,本人也没有很好的研究过pdfminer这个库,于是开始了百度……
官方文档:官方文档:http://www.unixuser.org/~euske/python/pdfminer/index.html
完全使用python编写。 (适用于2.4或更新版本)
解析,分析,并转换成PDF文档。
PDF-1.7规范的支持。 (几乎)
中日韩语言和垂直书写脚本支持。
各种字体类型(Type1、TrueType、Type3,和CID)的支持。
基本加密(RC4)的支持。
PDF与HTML转换。
纲要(TOC)的提取。
标签内容提取。
通过分组文本块重建原始的布局。
一些基本的类一些基本的类
PDFParser:从一个文件中获取数据
PDFDocument:保存获取的数据,和PDFParser是相互关联的
PDFPageInterpreter处理页面内容
PDFDevice将其翻译成你需要的格式
PDFResourceManager用于存储共享资源,如字体或图像。
简单的实现简单的实现
读取test.pdf输出为output.txt:
# -*- coding: utf-8 -*-
from pdfminer.pdfparser import PDFParser















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0