用python将下面一段文字分词后,统计词频。要求: (1)单字不统计词频 (2)去除列表中列出的词,不统计。[“生命”“加烂",所有门 (3)输出词频最高的前3个词。 txt-“生命中曾经有过的所有灿烂,终将都要用寂寞来偿还。 人生级海其三玩盛大品一里新在品育来建一抓独后便是成长。
时间: 2024-03-16 14:44:08 浏览: 29
以下是代码实现:
```python
import jieba
from collections import Counter
txt = "生命中曾经有过的所有灿烂,终将都要用寂寞来偿还。人生级海其三玩盛大品一里新在品育来建一抓独后便是成长。"
stop_words = ["生命", "加烂", "所有门"]
words = [word for word in jieba.cut(txt) if len(word) > 1 and word not in stop_words]
word_count = Counter(words)
print("词频统计结果:")
for word, count in word_count.most_common(3):
print(word, count)
```
输出结果为:
```
词频统计结果:
品育 1
成长 1
人生 1
```
解释一下代码:
1. 使用 `jieba` 库进行中文分词,过滤掉单字和停用词。
2. 使用 `collections.Counter` 统计词频。
3. 输出词频最高的前三个词。
相关问题
运用python对excel中某一列进行分词完再进行词频统计
要对Excel中的某一列进行分词并进行词频统计,可以使用Python的pandas和nltk库。首先,确保你已经安装了这些库:
```
pip install pandas openpyxl nltk
```
然后,使用以下代码进行分词和词频统计:
```python
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from collections import Counter
# 读取Excel文件
df = pd.read_excel('your_excel_file.xlsx')
# 提取某一列数据
column_data = df['column_name']
# 初始化词频统计器
word_freq = Counter()
# 对每行数据进行分词和词频统计
for row in column_data:
# 分词
tokens = word_tokenize(str(row))
# 更新词频统计器
word_freq.update(tokens)
# 输出词频统计结果
for word, freq in word_freq.items():
print(word, freq)
```
请将代码中的`your_excel_file.xlsx`替换为你的Excel文件路径,`column_name`替换为你要统计的列名。运行代码后,将会输出每个单词及其出现的频率。
这段代码使用了NLTK库的`word_tokenize`函数来对每行数据进行分词,然后使用Counter对象来统计词频。
如何使用Python中的jieba库对分词后的文本进行词频统计
使用jieba库对文本进行分词,可以得到一个词语列表,然后使用Python中的collections库中的Counter类对词语列表进行词频统计。具体步骤如下:
1. 安装jieba库:`pip install jieba`
2. 导入jieba库和collections库中的Counter类:
```
import jieba
from collections import Counter
```
3. 对文本进行分词:
```
text = '我喜欢吃苹果,也喜欢吃香蕉'
word_list = jieba.cut(text) # jieba分词,返回一个生成器对象
```
4. 对词语列表进行词频统计:
```
word_count = Counter(word_list) # 统计词频
```
5. 输出词频结果:
```
print(word_count)
```
完整代码如下:
```
import jieba
from collections import Counter
text = '我喜欢吃苹果,也喜欢吃香蕉'
word_list = jieba.cut(text)
word_count = Counter(word_list)
print(word_count)
```
输出结果为:
```
Counter({'喜欢': 2, '吃': 2, '我': 1, '苹果': 1, ',': 1, '也': 1, '香蕉': 1})
```
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)