requests和xpath爬取新闻
时间: 2023-08-03 16:52:46 浏览: 117
新闻爬取器
3星 · 编辑精心推荐
使用Python中的requests和xpath库可以方便地爬取新闻网站的内容。具体步骤如下:
1. 使用requests库向新闻网站发送HTTP请求,获取网页内容。
2. 使用xpath库解析网页内容,提取出所需的新闻信息。
代码示例:
```
import requests
from lxml import etree
# 发送HTTP请求,获取网页内容
url = 'https://news.baidu.com/'
response = requests.get(url)
html = response.text
# 使用xpath解析网页内容,提取新闻信息
selector = etree.HTML(html)
news_titles = selector.xpath('//div[@id="pane-news"]/ul/li/a/text()')
# 打印新闻标题
for title in news_titles:
print(title)
```
注意:在使用xpath解析网页内容时,需要根据具体网页的HTML结构进行xpath表达式的编写。
阅读全文