import requests from bs4 import BeautifulSoup from openpyxl import Workbook # 发起HTTP请求获取网页内容 url = 'http://yjszs.hfut.edu.cn/2023/0505/c13524a291829/page.htm' # 将此处替换为你要爬取的网页URL response = requests.get(url) html = response.text # 使用BeautifulSoup解析HTML soup = BeautifulSoup(html, 'html.parser') # 创建一个Excel工作簿和工作表 workbook = Workbook() sheet = workbook.active # 查找表格元素并将其写入Excel表格 table = soup.find('table') # 假设表格是通过<table>标签定义的 rows = table.find_all('tr') # 查找所有行 for row in rows: cells = row.find_all('td') # 查找当前行的所有单元格 row_data = [] for cell in cells: row_data.append(cell.text) # 提取单元格文本内容 sheet.append(row_data) # 将一行数据写入Excel表格 # 保存Excel文件 workbook.save('table.xlsx') # 将此处替换为你想要保存的文件名和路径
时间: 2024-04-12 18:32:59 浏览: 107
import reimport requestsfrom bs4 import BeautifulSoupimport t
你的代码看起来几乎没有问题,只是需要做一些小的修改。首先,你需要确保安装了 `requests`、`beautifulsoup4` 和 `openpyxl` 这三个库。其次,你需要将 `url` 变量替换为你要爬取的网页的正确地址。最后,你需要将保存的文件名和路径替换为你想要的名称和路径。
```python
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
# 发起HTTP请求获取网页内容
url = 'http://yjszs.hfut.edu.cn/2023/0505/c13524a291829/page.htm' # 将此处替换为你要爬取的网页URL
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, 'html.parser')
# 创建一个Excel工作簿和工作表
workbook = Workbook()
sheet = workbook.active
# 查找表格元素并将其写入Excel表格
table = soup.find('table')
rows = table.find_all('tr')
for row in rows:
cells = row.find_all('td')
row_data = []
for cell in cells:
row_data.append(cell.text.strip()) # 使用 strip() 去除单元格文本中的空白字符
sheet.append(row_data)
# 保存Excel文件
workbook.save('table.xlsx') # 将此处替换为你想要保存的文件名和路径
```
希望这能帮到你!如果还有其他问题,请随时提问。
阅读全文