python爬取网页表格_python提取网页表格并保存为csv
时间: 2023-09-10 12:15:12 浏览: 93
要提取网页表格并保存为csv文件,需要用到Python的第三方库BeautifulSoup和pandas。
具体步骤如下:
1. 使用requests库获取网页内容,并用BeautifulSoup解析网页。
```python
import requests
from bs4 import BeautifulSoup
url = '要爬取的网页链接'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
```
2. 找到表格所在的标签,并用BeautifulSoup提取表格数据。
```python
table = soup.find('table')
rows = table.find_all('tr')
data = []
for row in rows:
cols = row.find_all('td')
cols = [col.text.strip() for col in cols]
data.append(cols)
```
3. 将提取到的数据保存为csv文件。
```python
import pandas as pd
df = pd.DataFrame(data)
df.to_csv('表格数据.csv', index=False, header=False)
```
完整代码如下:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = '要爬取的网页链接'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table')
rows = table.find_all('tr')
data = []
for row in rows:
cols = row.find_all('td')
cols = [col.text.strip() for col in cols]
data.append(cols)
df = pd.DataFrame(data)
df.to_csv('表格数据.csv', index=False, header=False)
```
注意,需要替换代码中的“要爬取的网页链接”为实际的网页链接,并保存为.py文件运行即可。
阅读全文