Python词频统计中英文混合
时间: 2023-11-05 13:15:27 浏览: 102
要统计中英文混合的词频,可以按照以下步骤进行:
1. 将文本中的中英文分开,可以使用正则表达式进行匹配,例如:
```python
import re
text = "Hello world! 你好,世界!"
english_words = re.findall(r'[a-zA-Z]+', text)
chinese_words = re.findall(r'[\u4e00-\u9fff]+', text)
```
2. 将英文单词全部转换为小写,以避免大小写造成的重复统计。例如:
```python
english_words = [word.lower() for word in english_words]
```
3. 对中英文单词分别进行词频统计,可以使用Python内置的Counter类。例如:
```python
from collections import Counter
english_word_counts = Counter(english_words)
chinese_word_counts = Counter(chinese_words)
```
4. 将中英文词频统计结果合并,可以使用字典的update()方法。例如:
```python
word_counts = {}
word_counts.update(english_word_counts)
word_counts.update(chinese_word_counts)
```
完整代码如下:
```python
import re
from collections import Counter
text = "Hello world! 你好,世界!"
english_words = re.findall(r'[a-zA-Z]+', text)
chinese_words = re.findall(r'[\u4e00-\u9fff]+', text)
english_words = [word.lower() for word in english_words]
english_word_counts = Counter(english_words)
chinese_word_counts = Counter(chinese_words)
word_counts = {}
word_counts.update(english_word_counts)
word_counts.update(chinese_word_counts)
print(word_counts)
```
阅读全文