对df数据中的text内容长度进行统计分析,画出折线图
时间: 2024-03-10 07:51:10 浏览: 84
要对 df 数据中的 text 内容长度进行统计分析,可以使用 pandas 库中的字符串方法 `str.len()`。具体代码如下:
```
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据
df = pd.read_csv('data.csv')
# 计算 text 内容长度
df['text_length'] = df['text'].str.len()
# 统计长度分布
length_count = df['text_length'].value_counts().sort_index()
# 画折线图
plt.plot(length_count.index, length_count.values)
plt.xlabel('Text length')
plt.ylabel('Count')
plt.title('Text length distribution')
plt.show()
```
这段代码首先读取了一个名为 data.csv 的数据文件,并将其存储在 df 变量中。然后,通过 `df['text'].str.len()` 方法计算了每个 text 内容的长度,并将结果存储在一个名为 text_length 的新列中。接着,通过 pandas 库中的 `value_counts()` 方法统计了每个长度出现的次数,并通过 `sort_index()` 方法按照长度从小到大排序。最后,使用 matplotlib 库来绘制折线图,横坐标为 text 内容的长度,纵坐标为该长度出现的次数。
阅读全文