如何利用Pandas读取web数据,再综合列表、字典解读数据,进行简单的数据抽取和分析后,利用plotly可视化(html网页版展示);

时间: 2024-03-31 15:35:22 浏览: 8
要利用 Pandas 读取 Web 数据,可以使用 Pandas 的 `read_html()` 函数。这个函数会从 HTML 页面中提取表格数据,并返回一个 DataFrame 对象。 以下是一个读取 Web 数据并进行简单分析和可视化的示例: ```python import pandas as pd import plotly.graph_objs as go import plotly.offline as pyo # 读取 Web 数据 url = 'https://en.wikipedia.org/wiki/List_of_countries_by_population_(United_Nations)' dfs = pd.read_html(url) df = dfs[0] # 数据清洗和抽取 df = df[['Country or area', 'UN Region', 'Population(1 July 2018)']] df = df.rename(columns={'Country or area': 'Country', 'Population(1 July 2018)': 'Population'}) df['Population'] = df['Population'].str.replace(',', '').astype(int) # 分析数据 total_population = df['Population'].sum() region_population = df.groupby('UN Region')['Population'].sum().sort_values(ascending=False) # 可视化数据 trace1 = go.Bar(x=region_population.index, y=region_population.values) trace2 = go.Pie(labels=region_population.index, values=region_population.values) layout1 = go.Layout(title='Population by UN Region (Bar Chart)') layout2 = go.Layout(title='Population by UN Region (Pie Chart)') fig1 = go.Figure(data=[trace1], layout=layout1) fig2 = go.Figure(data=[trace2], layout=layout2) pyo.plot(fig1, filename='population_bar_chart.html') pyo.plot(fig2, filename='population_pie_chart.html') ``` 上述代码中,我们首先使用 `pd.read_html()` 函数读取了一个维基百科页面的表格数据,并抽取了需要的列。然后我们对数据进行了清洗和处理,计算了全球总人口和各个 UN 地区的人口,并用 Plotly 绘制了柱形图和饼图来展示这些数据。最后我们使用 `pyo.plot()` 函数将可视化结果保存为 HTML 文件并在浏览器中打开。 需要注意的是,这个示例仅供参考,实际项目中需要根据具体需求进行修改和扩展。

相关推荐

最新推荐

recommend-type

(二)爬取新房销售信息——数据分析+可视化篇

pandas & matplotlib 用于数据分析和可视化 上一个任务通过requests、BeautifulSoup4两个功能强大、用法简洁的函数库已经获取到了楼盘名、地址和价格这些新房信息,并且保存为csv格式文件,csv文件可以用excel打开并...
recommend-type

用Pandas和Folium做一个新冠数据可视化

目录数据集介绍可视化步骤1. 导入pandas等需要的库2. 读取数据,查看基本情况3. 读取城市坐标数据4. 按省份统计人数5. 合并城市坐标数据 与 省份数据6. 绘制地图写入HTML文件,并用浏览器打开完整代码 数据集介绍 1...
recommend-type

利用pandas向一个csv文件追加写入数据的实现示例

我们越来越多的使用pandas进行数据处理,有时需要向一个已经存在的csv文件写入数据,传统的方法之前我也有些过,向txt,excel文件写入数据,传送门:Python将二维列表(list)的数据输出(TXT,Excel) pandas to_...
recommend-type

pandas连接数据库,从数据库读取数据,将数据保存到数据库

pandas连接数据库 import pymysql from sqlalchemy import create_engine sql = 'select * from data' conn = create_engine('mysql+pymysql://root:159951@127.0.0.1:3306/test') pdata = pd.read_sql(sql,conn) ...
recommend-type

使用Python Pandas处理亿级数据的方法

主要介绍了使用Python Pandas处理亿级数据的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

SQL怎么实现 数据透视表

SQL可以通过使用聚合函数和GROUP BY子句来实现数据透视表。 例如,假设有一个销售记录表,其中包含产品名称、销售日期、销售数量和销售额等信息。要创建一个按照产品名称、销售日期和销售额进行汇总的数据透视表,可以使用以下SQL语句: ``` SELECT ProductName, SaleDate, SUM(SaleQuantity) AS TotalQuantity, SUM(SaleAmount) AS TotalAmount FROM Sales GROUP BY ProductName, SaleDate; ``` 该语句将Sales表按照ProductName和SaleDat
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。