问题:2024年9月4日,选矿站丙班白班,下午16:20分左右在24号线添加行走过程中,发现24号线北调车信号机处有两根破损木枕翘起来,影响人员安全行走。 措施:班中加强现场隐患排查力度,发现问题及时处理。 如何用python将excel表中这一列提取单词出现次数
时间: 2024-09-08 17:01:51 浏览: 55
面对这个问题,你可以使用Python的pandas库和正则表达式库re来提取Excel表格中特定列的文本,并计算其中单词的出现次数。首先,假设你的Excel文件名为`file.xlsx`,且包含一个名为"安全隐患描述"的列,步骤如下:
```python
import pandas as pd
import re
# 读取Excel文件
df = pd.read_excel('file.xlsx')
# 定义需要分析的列名,这里是"安全隐患描述"
column_name = "安全隐患描述"
# 提取文本数据
text_data = df[column_name].values.tolist()
# 将文本转化为小写并去除非字母数字字符
processed_text = [' '.join(re.findall(r'\b\w+\b', text.lower())) for text in text_data]
# 使用Counter计算单词出现次数
word_counts = {}
for text in processed_text:
word_counts.update({word: word_counts.get(word, 0) + 1 for word in text.split()})
# 转换为DataFrame展示结果
word_count_df = pd.DataFrame.from_dict(word_counts, orient='index', columns=['计数']).reset_index()
word_count_df.columns = ['单词', '计数']
print(word_count_df)
```
这个代码会统计每行"安全隐患描述"列中单词的频率,并返回一个新的DataFrame。
阅读全文