Java代码实现从pdf中提取文字的代码
时间: 2023-04-02 17:01:04 浏览: 127
使用python提取pdf中的文字
5星 · 资源好评率100%
可以使用 Apache PDFBox 库来实现从 PDF 中提取文字的功能,以下是示例代码:
import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class PDFReader {
public static void main(String[] args) {
try {
// 读取 PDF 文件
PDDocument document = PDDocument.load(new File("example.pdf"));
// 创建 PDFTextStripper 对象
PDFTextStripper stripper = new PDFTextStripper();
// 提取文本
String text = stripper.getText(document);
// 输出文本
System.out.println(text);
// 关闭文档
document.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
阅读全文