java提取doc文档文字和图片的详细代码
时间: 2023-03-28 18:04:56 浏览: 126
以下是提取 doc 文档文字和图片的 Java 代码示例:
```
import java.io.FileInputStream;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.hwpf.usermodel.Picture;
import org.apache.poi.hwpf.usermodel.PictureType;
public class DocExtractor {
public static void main(String[] args) {
try {
FileInputStream fis = new FileInputStream("example.doc");
HWPFDocument doc = new HWPFDocument(fis);
WordExtractor extractor = new WordExtractor(doc);
String[] paragraphs = extractor.getParagraphText();
for (String para : paragraphs) {
System.out.println(para);
}
Picture[] pics = doc.getPicturesTable().getAllPictures();
for (Picture pic : pics) {
if (pic.suggestPictureType() == PictureType.JPEG) {
pic.writeImageContent(new FileOutputStream("pic.jpg"));
}
}
fis.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
```
这段代码使用 Apache POI 库提取 doc 文档中的文字和图片。首先,通过 FileInputStream 读取 doc 文件,然后使用 HWPFDocument 类创建文档对象。接着,使用 WordExtractor 类提取文档中的段落文字,并使用 for 循环遍历输出每个段落。最后,使用 PicturesTable 类获取文档中的所有图片,并使用 suggestPictureType 方法判断图片类型,如果是 JPEG 格式,则使用 writeImageContent 方法将图片写入文件。
阅读全文