python编写一个爬虫代码
时间: 2023-08-31 10:29:09 浏览: 91
### 回答1:
你好,以下是 Python 编写一个爬虫代码的示例:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 获取页面标题
title = soup.title.string
print(title)
# 获取页面所有链接
links = soup.find_all('a')
for link in links:
print(link.get('href'))
```
希望对你有帮助!
### 回答2:
以下是一个使用Python编写的简单爬虫代码:
```python
import requests
from bs4 import BeautifulSoup
def spider(url):
# 发起HTTP GET请求
response = requests.get(url)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 提取需要的数据
data = soup.find('div', class_='content').text
# 输出数据
print(data)
if __name__ == '__main__':
url = 'https://www.example.com' # 网页的URL地址
spider(url)
```
该代码使用了`requests`库来发起HTTP请求,并使用`BeautifulSoup`库对HTML进行解析。
在`spider`函数中,我们首先使用`requests.get`方法发送GET请求,并将返回的响应保存在`response`变量中。然后,使用BeautifulSoup对响应的文本进行解析,我们通过调用`find`方法找到了`class`属性为`content`的`div`元素,然后使用`text`属性获取其文本内容,并将结果保存在`data`变量中。最后,我们使用`print`函数输出数据。
在主程序中,我们定义了一个URL变量,将待爬取的网页的URL地址赋值给它,并调用`spider`函数来执行爬虫操作。
请注意,这只是一个简单的示例代码,实际的爬虫可能需要更多的步骤,如处理多个页面、处理JavaScript渲染的内容、处理用户登录等。
阅读全文