用xpath采集新闻网站上的图片和新闻内容
时间: 2024-05-08 08:16:36 浏览: 28
以下是使用Python和XPath采集新闻网站上的图片和新闻内容的示例代码:
```python
import requests
from lxml import etree
# 新闻网站的URL
url = 'https://news.cn/'
# 发送请求并获取响应
response = requests.get(url)
# 解析响应内容
html = etree.HTML(response.text)
# 采集新闻内容
news_list = []
for news in html.xpath('//div[@class="news-flow"]/div[@class="news-card"]'):
title = news.xpath('.//h3/a/text()')[0]
link = news.xpath('.//h3/a/@href')[0]
summary = news.xpath('.//p/text()')[0]
news_list.append({'title': title, 'link': link, 'summary': summary})
# 采集新闻图片
image_list = []
for image in html.xpath('//div[@class="news-flow"]/div[@class="news-card"]/a/img'):
src = image.xpath('./@src')[0]
alt = image.xpath('./@alt')[0]
image_list.append({'src': src, 'alt': alt})
# 打印采集结果
print('新闻内容:')
for news in news_list:
print(news['title'], news['link'], news['summary'])
print('新闻图片:')
for image in image_list:
print(image['src'], image['alt'])
```
这段代码首先发送请求并获取响应,然后使用lxml库中的etree模块将响应内容转换为HTML对象。接着使用XPath语法从HTML对象中采集新闻内容和图片,最后将采集结果打印出来。
需要注意的是,XPath语法的具体使用方法可以参考lxml库的文档。另外,在实际使用中还需要考虑反爬虫策略和数据清洗等问题。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)