pd.cut区间排序

在使用 pandas 的 pd.cut 函数对数据进行区间划分时，可以通过设置 labels 参数来对区间进行排序。具体操作如下： 1. 首先使用 pd.cut 函数对数据进行区间划分，例如： ```python import pandas as pd import numpy as np data = pd.Series(np.random.randint(0, 100, size=10)) bins = [0, 20, 40, 60, 80, 100] cuts = pd.cut(data, bins=bins) ``` 2. 然后使用 value_counts 函数获取每个区间的计数，并将结果转化为 DataFrame 格式： ```python vc = pd.DataFrame(cuts.value_counts()) ``` 3. 最后使用 loc 函数对 DataFrame 进行排序，例如： ```python vc_sorted = vc.loc[cuts.cat.categories] ``` 其中，cuts.cat.categories 可以获取区间的标签，即划分后每个区间的名称。这样就可以对区间进行排序了。

len_stage = pd.cut(title_len, bins=bins, labels=level).value_counts().sort_index()详解释

这行代码主要是对标题长度进行分组，并统计每组出现的频次。具体解释如下： - `pd.cut()` 函数将 `title_len` 这个 Series 对象的数据按照 `bins` 参数指定的区间进行划分，并将划分后的结果转换为一个 Categorical 对象。 - `bins` 参数指定了划分的区间，可以是一个整数表示划分的组数，也可以是一个列表或数组表示划分的具体区间。例如，如果 `bins=[0, 10, 20, 30, 40, 50]`，则表示将标题长度分为五组，分别是长度小于等于 10、10 到 20、20 到 30、30 到 40、40 到 50 和大于 50。 - `labels` 参数指定了划分后每一组的标签，可以是一个列表或数组。例如，如果 `labels=['very short', 'short', 'medium', 'long', 'very long']`，则表示将长度小于等于 10 的组标记为 'very short'，长度在 10 到 20 之间的组标记为 'short'，以此类推。 - `value_counts()` 方法统计每个标签出现的频次，并返回一个 Series 对象。 - `sort_index()` 方法按照标签的顺序对结果进行排序。最终，`len_stage` 是一个 Series 对象，其中索引是标签，值是相应的频次。

# 划分区间 bins = [0,1,2,3,4,5,10,15,20,25,30,35,40,45,50,60,70,80,90,100,1220] data = data_forecast_is_stk_bs_rpt_zq_befor_big['本年比上一年归母倍数'] data1 = data_forecast_is_stk_bs_rpt_cw_befor_big['本年比上一年归母倍数'] # 统计每个柱子的数据 hist, edges = pd.cut(data, bins=bins, right=False, include_lowest=True, retbins=True) hist1, edges1 = pd.cut(data1, bins=bins, right=False, include_lowest=True, retbins=True) counts = hist.value_counts() counts1 = hist1.value_counts() # 按照 hist 的顺序重新排序 counts counts = counts.reindex(hist.cat.categories) counts1 = counts1.reindex(hist1.cat.categories) # 按照 bins 的顺序给每个柱子指定标签 labels = counts.index.astype(str) labels1 = counts1.index.astype(str) fig, ax = plt.subplots(figsize=(18, 6)) # 绘制柱形图 #plt.bar(labels, counts) plt.bar(labels, counts, width=0.4, align='center', label='Data 1') plt.bar(labels1, counts1, width=0.4, align='center', label='Data 2') 2个柱子合并了能不能分开

可以分开绘制，只需要将绘制柱状图的代码分别写在两个子图中即可。可以参考如下代码： ``` fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(18, 6)) # 绘制第一个子图 hist, edges = pd.cut(data, bins=bins, right=False, include_lowest=True, retbins=True) hist1, edges1 = pd.cut(data1, bins=bins, right=False, include_lowest=True, retbins=True) counts = hist.value_counts() counts1 = hist1.value_counts() counts = counts.reindex(hist.cat.categories) counts1 = counts1.reindex(hist1.cat.categories) labels = counts.index.astype(str) labels1 = counts1.index.astype(str) ax1.bar(labels, counts, width=0.4, align='center', label='Data 1') ax1.set_title('Data 1') # 绘制第二个子图 ax2.bar(labels1, counts1, width=0.4, align='center', label='Data 2') ax2.set_title('Data 2') # 添加图例 fig.legend(loc='upper right') plt.show() ``` 这里使用了 `subplots` 函数创建了两个子图，并将绘制柱状图的代码分别写在了两个子图中。同时，为了方便区分两个子图，我在每个子图的标题中添加了不同的数据标识。最后，通过 `fig.legend` 函数添加了图例。

阅读全文

len_stage = pd.cut(title_len, bins=bins, labels=level).value_counts().sort_index()详解释

相关推荐

pd分区工具

Justice.League.Snyders.Cut.2021.WEBRip.PD.CHS.ass

浅谈pandas.cut与pandas.qcut的使用方法及区别

【桶排序革命】：大数据时代下的革命性排序思路

11. 请对数据1 2 3 5 7 8 10 14 15 18 20进行分箱操作，要求如下： 1）分成3个箱子，2）每个箱子右边为闭区间，3）不需要包含最小值，4）保留2位有效数字，5）并对三个箱子进行大小排序。

python1、 导入Excel文件“学生成绩.xls”； 2、 按学号进行排序； 3、 给出成绩的最大值、最小值、方差等描述性统计信息； 4、 画出学生总分的散点图 5、 画出60-69、70-79、80-89和90-100各区间人数的饼图 6*、画出各科成绩的直方图

我有1000条数据存放在data.xlsx中，我如何用python将他分为0.5为间隔的11个区间，并画成饼图展示每个区间的占比

pandas里面的cut方法切割数据的长度要一样吗

《COMSOL顺层钻孔瓦斯抽采实践案例分析与技术探讨》,COMSOL模拟技术在顺层钻孔瓦斯抽采案例中的应用研究与实践,comsol顺层钻孔瓦斯抽采案例 ,comsol;顺层钻孔;瓦斯抽采;案例,COM

MATLAB驱动的高尔夫模拟仿真系统：深度定制球杆与挥杆参数的互动体验,基于MATLAB的全方位高尔夫模拟仿真系统：精确设定球杆与天气因素，让用户享受个性化的挥杆力量与角度掌控体验,基于MATLAB的

双闭环控制策略在直流电机控制系统仿真中的应用研究,直流电机双闭环控制系统的仿真研究与性能优化分析,直流电机双闭环控制，有关直流电机控制系统仿真均 ,直流电机; 双闭环控制; 控制系统仿真,直流电机双闭

基于LCL滤波的光伏PV三相并网逆变器MATLAB仿真研究：集成MPPT控制、坐标变换与功率解耦控制技术实现高效同步输出,基于LCL滤波的光伏PV三相并网逆变器MATLAB仿真研究：MPPT控制与dq

校园健康管理系统（springboot + mysql）

大家在看

基于双流融合网络的单兵伪装偏振成像检测.docx

ABAP代码性能指导

CMOS反相器的掩膜版图-集成电路版图设计

读写通达信股票软件二进制dat文件

FAST FACTORIZED_FFBP论文_FFBP_后向投影.zip

最新推荐

《COMSOL顺层钻孔瓦斯抽采实践案例分析与技术探讨》,COMSOL模拟技术在顺层钻孔瓦斯抽采案例中的应用研究与实践,comsol顺层钻孔瓦斯抽采案例 ,comsol;顺层钻孔;瓦斯抽采;案例,COM

MATLAB驱动的高尔夫模拟仿真系统：深度定制球杆与挥杆参数的互动体验,基于MATLAB的全方位高尔夫模拟仿真系统：精确设定球杆与天气因素，让用户享受个性化的挥杆力量与角度掌控体验,基于MATLAB的

双闭环控制策略在直流电机控制系统仿真中的应用研究,直流电机双闭环控制系统的仿真研究与性能优化分析,直流电机双闭环控制，有关直流电机控制系统仿真均 ,直流电机; 双闭环控制; 控制系统仿真,直流电机双闭

PHP集成Autoprefixer让CSS自动添加供应商前缀

揭秘数字音频编码的奥秘：非均匀量化A律13折线的全面解析

arduino PAJ7620U2

网站啄木鸟：深入分析SQL注入工具的效率与限制

【GPStoolbox使用技巧大全】：20个实用技巧助你精通GPS数据处理

spring boot怎么配置maven

我的个人简历HTML模板解析与应用

python1、导入Excel文件“学生成绩.xls”； 2、按学号进行排序； 3、给出成绩的最大值、最小值、方差等描述性统计信息； 4、画出学生总分的散点图 5、画出60-69、70-79、80-89和90-100各区间人数的饼图 6*、画出各科成绩的直方图