利用python爬取这个网站https://www.sohu.com/a/451539303_136745中100个最伟大的数学定理,并把数据导出到excel中。
时间: 2023-12-11 15:04:35 浏览: 109
好的,我会帮你解决这个问题。
首先,我们需要使用 Python 中的 requests 库和 BeautifulSoup 库来爬取网页并解析页面内容。在此之前,需要先安装这两个库。
```python
pip install requests
pip install beautifulsoup4
```
接下来,我们可以使用 requests 库来获取网页内容,并使用 BeautifulSoup 库来解析页面。
```python
import requests
from bs4 import BeautifulSoup
url = "https://www.sohu.com/a/451539303_136745"
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
```
接下来,我们需要找到包含这100个数学定理的列表所在的 HTML 标签,然后遍历列表获取每个定理的内容。
```python
# 找到包含定理的列表所在的标签
div = soup.find('div', {'class': 'article'})
# 遍历列表获取每个定理的内容
theorems = []
for li in div.find_all('li'):
theorem = li.find('a').text.strip()
theorems.append(theorem)
```
最后,我们可以使用 Python 中的 pandas 库将数据导出到 Excel 文件中。
```python
import pandas as pd
df = pd.DataFrame({'定理': theorems})
df.to_excel('theorems.xlsx', index=False)
```
完整的代码如下:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = "https://www.sohu.com/a/451539303_136745"
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
# 找到包含定理的列表所在的标签
div = soup.find('div', {'class': 'article'})
# 遍历列表获取每个定理的内容
theorems = []
for li in div.find_all('li'):
theorem = li.find('a').text.strip()
theorems.append(theorem)
# 导出数据到 Excel 文件
df = pd.DataFrame({'定理': theorems})
df.to_excel('theorems.xlsx', index=False)
```
执行完毕后,你会在同级目录下找到一个名为 `theorems.xlsx` 的 Excel 文件,里面包含了这100个最伟大的数学定理的内容。
阅读全文