用node提取html代码中的纯文本
时间: 2024-01-28 12:04:53 浏览: 24
您可以使用 `cheerio` 模块来从 HTML 代码中提取纯文本。`cheerio` 是一个类似于 jQuery 的库,它可以让您使用 jQuery 风格的语法来操作 DOM。
首先,您需要安装 `cheerio` 模块。在命令行中执行以下命令即可:
```
npm install cheerio
```
安装完成后,您可以使用以下代码来从 HTML 代码中提取纯文本:
```javascript
const cheerio = require('cheerio');
// 假设这是您要提取纯文本的 HTML 代码
const html = '<html><body><p>这是一段 HTML 代码</p></body></html>';
// 使用 cheerio.load() 方法将 HTML 代码转换为可操作的 DOM 对象
const $ = cheerio.load(html);
// 使用 $().text() 方法来提取纯文本
const text = $('body').text();
console.log(text); // 输出:这是一段 HTML 代码
```
在这个代码中,`cheerio.load()` 方法将 HTML 代码转换为一个可操作的 DOM 对象。然后,使用 `$()` 方法来选取要提取纯文本的 DOM 元素(在这个例子中是 `<body>` 元素),并使用 `.text()` 方法来提取其中的纯文本。最后,将提取到的纯文本输出到控制台上。
需要注意的是,如果 HTML 代码中包含 CSS 样式和 JavaScript 代码等内容,这些内容也会被提取出来。如果您只需要提取 HTML 代码中的正文内容,可以使用一些专门的库来进行处理,例如 `node-readability` 或 `node-goose`。