java读取doc文件内容
时间: 2023-07-18 21:11:13 浏览: 111
要读取doc文件内容,可以使用Apache POI库。下面是一个简单的Java代码示例,用于读取doc文件中的文本内容:
```
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class ReadDocFile {
public static void main(String[] args) {
File file = null;
WordExtractor extractor = null;
try {
file = new File("example.doc");
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
extractor = new WordExtractor(fis);
String[] fileData = extractor.getParagraphText();
for (int i = 0; i < fileData.length; i++) {
if (fileData[i] != null)
System.out.println(fileData[i]);
}
} catch (Exception exep) {
exep.printStackTrace();
} finally {
if (extractor != null)
try {
extractor.close();
} catch (IOException e) {
// do nothing
}
}
}
}
```
在上面的代码中,我们首先创建一个File对象,指向要读取的doc文件。然后,我们使用FileInputStream将文件读入到内存中,并使用WordExtractor类从中提取文本内容。最后,我们循环遍历提取的文本内容,并将其打印到控制台上。
请注意,这个示例只适用于doc文件,如果你需要读取docx文件,需要使用XWPFWordExtractor类。
阅读全文