如何用python代码提取https://www.shanghairanking.cn/rankings/arwu/2020网页里的表格数据
时间: 2023-08-23 19:06:35 浏览: 92
使用python提取html文件中的特定数据的实现代码
5星 · 资源好评率100%
你可以使用Python中的BeautifulSoup库和pandas库来提取该网页中的表格数据。以下是一个示例代码:
```python
import pandas as pd
import requests
from bs4 import BeautifulSoup
url = 'https://www.shanghairanking.cn/rankings/arwu/2020'
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')
table = soup.find_all('table')[0]
df = pd.read_html(str(table))[0]
print(df)
```
此代码将获取该网页的HTML代码,然后使用BeautifulSoup库在HTML代码中查找第一个表格,最后使用pandas库将表格转换为数据框并打印出来。你可以根据需要修改代码以适应你的实际情况。
阅读全文
相关推荐
; 提取查询结果中的表格内容
FileDelete, result.txt
Loop, %TotalPage%
{
MatchItemNum := 0
Loop, Read, Html\%A_Index%.html, result.txt
{
; 抽取表格字段
If (A_LoopReadLine ~= "i)[^<]+]+class=""calc""")
{
MatchItemNum++
Field := RegExReplace(A_LoopReadLine,"i)^[^>]+>()?([^<]+)<.+","$2$3")
StringReplace, Field, Field, , , All
; 表格中的字段每5个组成一条记录
ModNum := Mod(MatchItemNum,5)
If (ModNum = 1)
FileAppend, % "n" Field "t"
else
{
If (ModNum <> 0)
FileAppend, % Field "t"
else
FileAppend, % "http://gis2.sinica.edu.tw/place/" SubStr(Field,1,-4)
}
}
}
}
MsgBox, 整理完毕