文档中带html标签
时间: 2023-07-18 08:11:51 浏览: 57
如果文档中带有HTML标签,可以使用JSoup库将HTML标签转换为纯文本,然后将纯文本写入Word文档中。以下是一个示例代码:
```java
import java.io.FileOutputStream;
import org.apache.poi.xwpf.usermodel.*;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class WordExporter {
public static void main(String[] args) {
// 创建一个新的空白文档
XWPFDocument document = new XWPFDocument();
// 从HTML中提取纯文本
String html = "<h1>Hello World!</h1><p>This is some <strong>bold</strong> text.</p>";
Document doc = Jsoup.parse(html);
String text = doc.text();
// 创建一个段落
XWPFParagraph paragraph = document.createParagraph();
// 向段落添加文本
XWPFRun run = paragraph.createRun();
run.setText(text);
// 将文档导出为Word文件
try {
FileOutputStream out = new FileOutputStream("output.docx");
document.write(out);
out.close();
System.out.println("Word导出成功!");
} catch (Exception e) {
e.printStackTrace();
}
}
}
```
在这个例子中,我们使用JSoup库从HTML中提取纯文本,然后将其写入Word文档中。文档中的HTML标签被转换为纯文本,不会出现在Word文档中。