pandas提取excel文本数据进行关键词操作
时间: 2023-09-14 18:08:41 浏览: 80
1. 读取Excel数据
使用pandas库中的read_excel函数可以读取Excel文件中的数据,例如:
```
import pandas as pd
df = pd.read_excel('data.xlsx')
```
2. 提取关键词
可以使用Python中的正则表达式来提取关键词。例如,如果要提取所有以“关键词”开头的单元格数据,可以使用以下代码:
```
import re
keywords = []
for col in df.columns:
for cell in df[col]:
if re.match('^关键词', str(cell)):
keywords.append(cell)
```
这将遍历整个数据框,并将所有以“关键词”开头的单元格数据添加到关键词列表中。
3. 数据分析
一旦关键词被提取出来,就可以进行各种数据分析操作。例如,可以计算每个关键词出现的次数,并将它们显示在一个条形图中:
```
import matplotlib.pyplot as plt
freq = {}
for keyword in keywords:
if keyword not in freq:
freq[keyword] = 1
else:
freq[keyword] += 1
plt.bar(freq.keys(), freq.values())
plt.show()
```
这将显示一个简单的条形图,其中每个关键词的出现次数显示在y轴上。