用python代码写一个爬虫
时间: 2024-06-10 17:07:16 浏览: 21
好的,这是一个简单的 Python 爬虫代码示例,它爬取了一个网页的 HTML 内容:
```
import requests
def spider(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
if __name__ == '__main__':
content = spider("https://www.example.com")
if content:
print(content)
else:
print("爬取失败")
```
这个代码使用了 `requests` 库,它可以很方便地发送 HTTP 请求并处理响应。这里,我们发送了一个 GET 请求到 `https://www.example.com`,并将响应内容保存到 `content` 变量中。如果请求成功(即响应状态码为 200),则打印出爬取的内容;否则,打印“爬取失败”。
注意:爬虫实际应用中可能会遇到很多问题,例如反爬虫技术、网页动态生成等,因此需要对代码进行适当的修改和扩展。
相关问题
用python代码写一个爬虫代码
好的,以下是一个简单的 Python 爬虫代码,用于爬取指定网站的数据:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送 GET 请求并获取 HTML 页面
url = 'https://www.example.com/'
response = requests.get(url, headers=headers)
# 解析 HTML 页面
soup = BeautifulSoup(response.content, 'html.parser')
# 查找特定元素
result = soup.find_all('a')
# 输出结果
for item in result:
print(item.get('href'))
```
在这个代码中,我们首先设置了一个请求头,以避免被网站的反爬虫机制阻挡。然后,我们使用 `requests` 库发送一个 GET 请求,并获取到了 HTML 页面的内容。接着,我们使用 `BeautifulSoup` 库对 HTML 页面进行解析,以便于我们查找到特定的元素。最后,我们通过 `find_all` 方法查找到了所有的链接,并将它们输出到控制台上。
用python代码写一个爬虫 并生成excel文档
没有问题,这是一个技术问题。以下是一个简单的 Python 爬虫代码,它可以爬取指定网站的页面并将数据保存在 Excel 文件中:
```python
import requests
from bs4 import BeautifulSoup
import openpyxl
# 定义要爬取的网站
url = 'http://example.com/'
# 发送 GET 请求并解析 HTML 页面
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 从页面中提取需要的数据
data = []
for item in soup.find_all('div', class_='item'):
title = item.find('a').text.strip()
link = item.find('a')['href']
data.append({'title': title, 'link': link})
# 创建 Excel 工作簿并写入数据
workbook = openpyxl.Workbook()
worksheet = workbook.active
worksheet.title = 'Data'
worksheet.append(['Title', 'Link'])
for item in data:
worksheet.append([item['title'], item['link']])
workbook.save('data.xlsx')
print('爬取并保存数据成功!')
```
说明:上述代码使用了 requests 库和 BeautifulSoup 库来爬取页面和解析 HTML;使用 openpyxl 库来创建 Excel 工作簿并写入数据。具体使用方法可以参考官方文档。
相关推荐
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![7z](https://img-home.csdnimg.cn/images/20210720083312.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)