对下列代码加上每一行总词数密度以及每一个数字化词频的密度import pandas as pd import re from collections import Counter # 读取词典txt文件 with open('词典.txt', 'r', encoding='utf-8') as f: list_dict = [line.strip() for line in f] # 读取F列数据 df = pd.read_excel('实验体.xlsx') list_f = df['Answer'].tolist() # 统计每行文本中的词频 dict_count_list = [] for text in list_f: # 匹配文本中的词列表 text = str(text) words = re.findall('|'.join(list_dict), text) # 统计每个词在该行文本中的出现次数 dict_count = Counter(words) dict_count_list.append(dict_count) # 将每行文本的词频统计结果合并为一个DataFrame对象 df_count = pd.DataFrame(dict_count_list) df_count.index = df.index # 输出为Excel文件 writer = pd.ExcelWriter('数实验体100.xlsx') df_count.to_excel(writer, sheet_name='Sheet1') writer._save()
时间: 2024-03-03 09:52:18 浏览: 65
上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例
5星 · 资源好评率100%
import pandas as pd
import re
from collections import Counter
# 读取词典txt文件
with open('词典.txt', 'r', encoding='utf-8') as f:
list_dict = [line.strip() for line in f]
# 读取F列数据
df = pd.read_excel('实验体.xlsx')
list_f = df['Answer'].tolist()
# 统计每行文本中的词频
dict_count_list = []
for text in list_f:
# 匹配文本中的词列表
text = str(text)
words = re.findall('|'.join(list_dict), text)
# 统计每个词在该行文本中的出现次数
dict_count = Counter(words)
dict_count_list.append(dict_count)
# 将每行文本的词频统计结果合并为一个DataFrame对象
df_count = pd.DataFrame(dict_count_list)
df_count.index = df.index
# 输出为Excel文件
writer = pd.ExcelWriter('数实验体100.xlsx')
df_count.to_excel(writer, sheet_name='Sheet1')
writer._save()
每一行总词数密度:在这段代码中,总词数密度是指每一行代码中的总词数。每一行的总词数不同,因此密度也不同。
数字化词频的密度:在这段代码中,数字化词频的密度是指每个数字化词在该行文本中出现的次数。每个数字化词出现的次数不同,因此密度也不同。
阅读全文