浙江高中教材4.2：百家姓统计分析与绘制

需积分: 0 54 浏览量更新于2024-08-05 收藏 314KB PDF 举报

在高中信息技术教材《数据与计算》4.2的实践中，学生们被引导进行一项关于百家姓的统计研究。该章节的核心内容包括三个步骤：数据读取、数据处理以及数据可视化。首先，导入所需的Python库，如pandas用于数据处理，matplotlib用于绘制图表，以及codecs用于处理中文字符。设置中文显示字体以确保图表的可读性。定义了一个包含常见复姓的列表，如欧阳、司马等，这些复姓将在后续处理中起到关键作用。在数据读取部分，学生使用codecs.open函数打开名为'names_s.csv'的文件，这是一个小规模的样本数据集，如果原始文件是'nmaes.csv'，则需要相应替换。通过逐行读取文件，判断每个姓氏是否为复姓，如果是，则保留前两个字符，否则仅保留第一个字符，然后将结果存储到列表中。数据以字典形式（{'xing': xing, 'renshu': 0}）创建成DataFrame对象，以便后续操作。处理数据阶段，创建一个名为'df'的DataFrame，其中列分别为姓氏(xing)和相应的人数(renshu)，初始值均为0。通过循环遍历，统计姓氏出现的次数，并更新renshu列。最终，展示了整理后的数据集，展示了前几行的姓氏和它们在数据中的出现频率。最后，为了展示数据分析的结果，学生会用matplotlib对姓氏的分布进行可视化。这可能涉及到使用bar或pie图表来呈现姓氏数量的多少，或者根据需求创建更复杂的图表，如直方图或热力图，以更直观地展示当地姓氏构成的情况。通过对数据的深入分析，学生们可以了解当地最常见的姓氏，以及复姓在整体姓氏分布中的占比，从而得出初步的统计结论。通过这个实践，学生们不仅掌握了使用pandas和matplotlib进行数据分析的基本技能，还锻炼了对实际数据的理解和解读能力，加深了对中文字符处理的理解，以及如何在实际场景中应用统计方法。同时，也培养了他们对姓氏文化或人口学等领域的兴趣。

4.2

百

家

姓

统

计

研

究

这

是

浙

江

教

育

出

版

社

⾼

中信

息

技

术

教

材

必

修

《

数据

与

计

算

》

4.2

的

数据

分

析

实

践

。

活

动

描

述

：

通过

统

计

某

地

的

姓

名

数据

，

分

析

当

地

姓

⽒

的

构

成情

况

。

In[1]:

import pandas as pd

import matplotlib.pyplot as plt

import codecs

显

示

中

⽂

字

体

处

理

需

要

#plt.rcParams["font.family"] = 'Arial Unicode MS' # mac

plt.rcParams['font.sans-serif'] = ['SimHei'] #windows

、

vvboard

定

义

复姓

list

fx=['

欧

阳

','

太

史

','

端

⽊

','

上

官

','

司

⻢

','

东

⽅

','

独

孤

','

南

宫

','

万

俟

','

闻

⼈

','

夏

侯

','

诸

葛

尉

迟

','

公

⽺

赫

连

','

澹

台

','

皇

甫

','

宗

政

','

濮

阳

','

公冶

','

太

叔

','

申

屠

','

公

孙

','

慕

容

','

仲

孙

','

钟

离

','

⻓

孙

','

宇

⽂

司

徒

','

鲜

于

','

司

空

','

闾

丘

','

⼦

⻋

','

亓

官

','

司

寇

','

巫

⻢

','

公

⻄

','

颛

孙

','

壤

驷

','

公

良

','

漆

雕

','

乐

正

宰

⽗

','

⾕

梁

','

拓

跋

','

夹

⾕

','

轩辕

','

令

狐

','

段

⼲

','

百

⾥

','

呼

延

','

东

郭

','

南

⻔

','

⽺

⾆

','

微

⽣

','

公

户

公

⽟

','

公

仪

','

梁

丘

','

公

仲

','

公

上

','

公

⻔

','

公

⼭

','

公

坚

','

左

丘

','

公

伯

','

⻄

⻔

','

公

祖

','

第

五

','

公

乘

]

读

取

数据

In[2]:

读

⽂

件

，

names_s.csv

是

⼩

⽂

件

，

names.csv

是

原

⽂

件

file=codecs.open('names_s.csv','r','utf-8')

处

理

数据

In[3]:

xing=[]

j=0

for i in file:

复姓处

理

if i[0:2] in fx:

xing.append(i[0:2])

else:

xing.append(i[0:1])

j=j+1

data={'xing':xing,'renshu':0}

df=pd.DataFrame(data)

下载后可阅读完整内容，剩余5页未读，立即下载

无声远望

粉丝: 778
资源: 298

浙江高中教材4.2：百家姓统计分析与绘制

最新资源