请使用nodejs 爬取http://alsjjkfq.alsm.nmgjjjc.gov.cn/category/tpxw.html网站的内容
时间: 2023-08-14 19:07:55 浏览: 264
nodejs爬虫抓取页面内容
以下是一个使用Node.js爬取"http://alsjjkfq.alsm.nmgjjjc.gov.cn/category/tpxw.html"网站内容的示例代码:
```javascript
const axios = require('axios');
const cheerio = require('cheerio');
axios.get('http://alsjjkfq.alsm.nmgjjjc.gov.cn/category/tpxw.html')
.then(response => {
const $ = cheerio.load(response.data);
const newsList = [];
$('#list li').each((index, element) => {
const title = $(element).find('a').text().trim();
const date = $(element).find('.time').text().trim();
const link = $(element).find('a').attr('href');
newsList.push({ title, date, link });
});
console.log(newsList);
})
.catch(error => {
console.error(error);
});
```
这个示例使用了axios发送HTTP请求获取网页内容,并使用cheerio解析网页。通过选择器`$('#list li')`,我们选取了网页中所有`<li>`元素,然后从每个元素中提取新闻标题、日期和链接,并将它们存储在`newsList`数组中。
注意:爬取网站内容时需要遵守该网站的爬虫规则和法律法规,确保合法合规,尊重网站的隐私政策和使用条款。
阅读全文