首页如何用python代码提取https://www.shanghairanking.cn/rankings/arwu/2020网页里的表格数据

如何用python代码提取https://www.shanghairanking.cn/rankings/arwu/2020网页里的表格数据

时间: 2023-08-23 19:06:35 浏览: 92

使用python提取html文件中的特定数据的实现代码

5星 · 资源好评率100%

例如具有如下结构的html文件复制代码代码如下: <div class=’entry-content’> <p>感兴趣内容1</p> <p>感兴趣内容2</p> …… <p>感兴趣内容n</p> </div> <div class=’content’> <p>内容1</p> <p>内容2</p> …… <p>内容n</p> </div> 我们尝试获得’感兴趣内容’ 对于文本内容,我们保存到IDList中。可是如何标记我们遇到的文本是感兴趣的内容呢，也就是，处于复制代码代码如下: <div class=’entry-content’> <p>这里的内容</p> <p>还有这里</p

你可以使用Python中的BeautifulSoup库和pandas库来提取该网页中的表格数据。以下是一个示例代码： ```python import pandas as pd import requests from bs4 import BeautifulSoup url = 'https://www.shanghairanking.cn/rankings/arwu/2020' html = requests.get(url).text soup = BeautifulSoup(html, 'html.parser') table = soup.find_all('table')[0] df = pd.read_html(str(table))[0] print(df) ``` 此代码将获取该网页的HTML代码，然后使用BeautifulSoup库在HTML代码中查找第一个表格，最后使用pandas库将表格转换为数据框并打印出来。你可以根据需要修改代码以适应你的实际情况。

阅读全文