python爬虫 百度
时间: 2023-10-02 18:09:31 浏览: 85
想要用 Python 编写爬虫程序爬取百度的内容,可以使用 requests 库来发送 HTTP 请求获取页面内容,再使用 BeautifulSoup 库来解析页面,提取需要的数据。
下面是一个简单的示例代码,可以爬取百度搜索结果页面的标题和链接:
```python
import requests
from bs4 import BeautifulSoup
keyword = 'python'
url = f'https://www.baidu.com/s?wd={keyword}'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
for result in soup.select('#content_left .c-container'):
title = result.select_one('.t a').text
link = result.select_one('.t a')['href']
print(title, link)
```
该代码首先构造了一个搜索关键词为 `python` 的百度搜索结果页面的 URL,然后使用 requests.get() 方法发送 HTTP GET 请求,获取页面内容。接着使用 BeautifulSoup 对页面进行解析,使用 CSS 选择器来定位需要的数据,最后打印出每条搜索结果的标题和链接。
需要注意的是,爬取网站内容时需要遵守相关法律法规和网站的使用协议,不得进行恶意攻击、侵犯隐私等行为。
阅读全文