爬取百度首页源代码,python
时间: 2024-09-05 15:00:59 浏览: 89
要使用Python爬取百度首页的源代码,你可以使用`requests`库来发送HTTP请求获取页面内容。首先,确保你已经安装了`requests`库,如果没有安装,可以使用`pip install requests`命令进行安装。
以下是一个简单的示例代码,展示如何使用`requests`库来获取百度首页的HTML源代码:
```python
import requests
def fetch_baidu_homepage():
url = 'https://www.baidu.com'
try:
response = requests.get(url)
response.raise_for_status() # 如果请求失败,则抛出HTTPError异常
return response.text # 返回网页源代码
except requests.HTTPError as http_err:
print(f'HTTP error occurred: {http_err}')
except Exception as err:
print(f'An error occurred: {err}')
if __name__ == "__main__":
baidu_homepage_source = fetch_baidu_homepage()
print(baidu_homepage_source) # 打印出百度首页的源代码
```
在这段代码中,我们定义了一个`fetch_baidu_homepage`函数来处理获取百度首页源代码的过程。首先,我们构造了一个GET请求发送给百度的首页URL。然后,我们使用`response.text`来获取响应体中的HTML源代码。此外,我们还进行了异常处理,确保能够捕获并打印出错误信息。
阅读全文