根据html源码爬取表单数据
时间: 2023-06-14 07:05:32 浏览: 54
要根据 HTML 源码爬取表单数据,需要使用 Python 的 requests 库和 BeautifulSoup 库。
首先,使用 requests 库发送 GET 请求获取页面 HTML 源码:
```python
import requests
url = "http://example.com/form"
response = requests.get(url)
html = response.text
```
接着,使用 BeautifulSoup 库解析 HTML 源码,并找到表单元素:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
form = soup.find('form')
```
然后,遍历表单元素的子元素,找到所有的输入框和文本框,以及它们对应的 name 属性:
```python
inputs = form.find_all('input')
textareas = form.find_all('textarea')
form_data = {}
for input in inputs:
name = input.get('name')
if name:
form_data[name] = input.get('value')
for textarea in textareas:
name = textarea.get('name')
if name:
form_data[name] = textarea.text
```
最后,就可以获取到表单数据了,存储在 form_data 字典中。