没有合适的资源?快使用搜索试试~ 我知道了~
首页python如何提取英语pdf内容并翻译
本文实例为大家分享了python提取英语pdf内容并翻译的具体代码,供大家参考,具体内容如下 前期准备工作: 翻译接口: 调用的是百度翻译的api (注册后,每个月有2百万的免费翻译字符数。) pdfminer3k: pdfminer3k是pdfminer的Python 3端口。 PDFMiner是一种从PDF文档中提取信息的工具。 与其他PDF相关工具不同,它完全专注于获取和分析文本数据。 PDFMiner允许获取页面中文本的确切位置,以及字体或线条等其他信息。 它包括一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。 它有一个可扩展的PDF解析器,可用于其他目的而不是文本
资源详情
资源评论
资源推荐

python如何提取英语如何提取英语pdf内容并翻译内容并翻译
本文实例为大家分享了python提取英语pdf内容并翻译的具体代码,供大家参考,具体内容如下
前期准备工作:前期准备工作:
翻译接口: 调用的是百度翻译的api (注册后,每个月有2百万的免费翻译字符数。)
pdfminer3k: pdfminer3k是pdfminer的Python 3端口。 PDFMiner是一种从PDF文档中提取信息的工具。 与其他PDF相关工具
不同,它完全专注于获取和分析文本数据。 PDFMiner允许获取页面中文本的确切位置,以及字体或线条等其他信息。 它包括
一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。 它有一个可扩展的PDF解析器,可用于其他目的而不是
文本分析。
要解析PDF至少需要两个类:PDFParser 和 PDFDocument,PDFParser 从文件中提取数据,PDFDocument保存数据。另
外还需要PDFPageInterpreter去处理页面内容,PDFDevice将其转换为我们所需要的。PDFResourceManager用于保存共享
内容例如字体或图片。
安装:pip install pdfminer3k
前期工作准备好后,即可开始代码编写。
# -*- coding: utf-8 -*-
import sys
import io
"""
Created on Sun Mar 3 12:22:49 2019
@author: Ben
"""
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
#from PyPDF2.pdf import PdfFileReader, PdfFileWriter, ContentStream
import requests
import string
import time
import hashlib
import json
##初始化
api_url = "http://api.fanyi.baidu.com/api/trans/vip/translate"
api_id = "" ##申请的百度翻译接口的id
cyber = "" ##申请的百度翻译接口的password
pdffile = "multinet.pdf" ##处理的pdf
ENtextfile = "ENmultinet.txt" ##存储提取的txt
CNtextfile = "CNmultinet.txt" ##存储翻译的结果
isTranslate = False ##是否将提取的英文翻译为中文
## 处理PDF
## 读取PDF的内容 filename是待处理的PDF的名字
###使用PDFminer读取
def getDataUsingPyPDF(filename):
parser = PDFParser(open(pdffile,'rb')) #以二进制打开文件 ,并创建一个pdf文档分析器
doc = PDFDocument() ##创建一个pdf文档
#将文档对象和连接分析器连接起来
parser.set_document(doc)
doc.set_parser(parser)
doc.initialize()

















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0