普通话单词出现的频率怎么获取
时间: 2023-06-20 12:03:37 浏览: 102
普通话单词出现的频率可以通过语料库进行统计。语料库是指一大批人工或者自然语言的语言素材,它包括了语音、文本、图像和视频等多种形式的数据。在语料库中,我们可以对文本进行分词,然后对每个分词进行统计,得出每个词汇的出现次数及其频率。我们可以使用Python中的nltk、jieba、pandas等工具进行统计分析。
相关问题
输入一段话,用python来显示这段话中词语出现的位置以及次数
你可以使用Python的内置模块`collections`和`re`(正则表达式)来实现这个功能。下面是一个简单的例子,它会展示如何找到输入文本中每个单词及其位置和出现次数:
```python
import re
from collections import defaultdict
def word_positions_and_counts(text):
# 使用正则表达式分割文本并获取单词列表
words = re.findall(r'\b\w+\b', text)
# 创建一个默认字典来存储位置和计数
word_dict = defaultdict(list)
# 计算每个单词的位置和频率
for i, word in enumerate(words):
word_dict[word].append(i)
word_dict[word].append(words.count(word)) # 添加词频
return dict(word_dict) # 将defaultdict转换为普通字典
# 示例输入
text = "Hello world! This is a test. Hello again."
result = word_positions_and_counts(text)
for word, positions_and_count in result.items():
print(f"{word}:")
print(" Positions:", positions_and_count[0])
print(" Frequency:", positions_and_count[1])
阅读全文