序号 品种名称 亲本来源("×"前为母本) 类型 原产地/选育单位 审定编号
时间: 2023-11-18 16:03:40 浏览: 93
很好,您需要爬取的数据包括品种名称、亲本来源、类型、原产地/选育单位以及审定编号。以下是一个使用Python的示例代码,它使用BeautifulSoup库和requests库来爬取网页并解析数据:
```python
import requests
from bs4 import BeautifulSoup
url = "http://ricedata.cn/variety/list"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
table = soup.find("table", {"class": "table table-bordered table-hover"})
rows = table.find_all("tr")
for row in rows[1:]:
cols = row.find_all("td")
variety_name = cols[1].text.strip()
parent_source = cols[2].text.strip()
variety_type = cols[3].text.strip()
origin = cols[4].text.strip()
approval_number = cols[5].text.strip()
print(variety_name, parent_source, variety_type, origin, approval_number)
```
该代码首先使用requests库获取网页内容,然后使用BeautifulSoup库解析内容。我们找到包含数据的表格,并使用find_all()方法获取每一行的数据。然后,我们使用strip()方法去除空格和换行符,并将每一列的数据存储在相应的变量中。最后,我们将数据打印出来。请注意,该代码只适用于该网站的特定页面结构,如果该网站更改了网页结构,则需要相应地修改代码。
阅读全文