给我写一个爬取百度首页的代码
时间: 2023-09-11 10:05:04 浏览: 125
### 回答1:
代码如下:import requests
from bs4 import BeautifulSoupurl = 'http://www.baidu.com'# 请求网页
response = requests.get(url)
# 获取网页内容
html = response.text
# 使用BeautifulSoup解析网页
soup = BeautifulSoup(html, 'lxml')
# 打印出网页内容
print(soup.prettify())
### 回答2:
如下是一个示例的Python代码,可以用于爬取百度首页的内容:
```python
import requests
def get_baidu_homepage():
url = 'https://www.baidu.com'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
try:
response = requests.get(url, headers=headers)
response.raise_for_status() # 抛出异常,如果请求失败
response.encoding = response.apparent_encoding # 设置编码为相应内容的编码
return response.text
except Exception as e:
print('爬取失败:', e)
# 调用函数,测试结果
homepage = get_baidu_homepage()
print(homepage)
```
以上代码使用了requests库来发送HTTP请求,并添加了一个伪装的User-Agent头部信息以模拟浏览器发送请求。然后通过requests.get()方法向百度首页发送GET请求,并使用response.text属性获得返回的HTML内容。最后,该函数会返回百度首页的HTML代码,并将其打印出来。
请注意,使用代码获取百度首页的内容需要遵守网络爬虫的相关法律法规,确保合法使用并遵循网站的爬取规则。
### 回答3:
爬取百度首页的代码可以使用Python编写,下面给出一个示例:
```python
import requests
def crawl_baidu_homepage():
url = "https://www.baidu.com" # 百度首页URL
try:
response = requests.get(url) # 发送GET请求
response.encoding = response.apparent_encoding # 设置响应编码格式
# 输出网页内容
print(response.text)
except requests.RequestException as e:
print("爬取百度首页失败:", e)
crawl_baidu_homepage()
```
这段代码使用了`requests`库来发送HTTP请求,并将响应的编码设置为与页面内容相符的编码格式。然后,打印出响应的文本内容即为百度首页的HTML代码。
需要注意的是,爬取网页内容时可能会出现异常,例如网络连接问题或请求失败等。为了增加代码的健壮性,在`try-except`语句中捕获了`requests.RequestException`异常,并进行相应的错误处理。
此代码仅供参考,实际爬取网页时需要遵守网站的爬取规则,并做好相关的异常处理和数据提取操作。
阅读全文