将统计词频结果导出代码
时间: 2023-06-02 21:05:37 浏览: 48
以下是Python代码:
```python
from collections import Counter
import csv
# 读取文本文件
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 统计词频
word_count = Counter(text.split())
# 输出词频并保存到CSV文件
with open('word_frequency.csv', 'w', encoding='utf-8', newline='') as f:
writer = csv.writer(f)
writer.writerow(['word', 'frequency'])
for word, frequency in word_count.items():
writer.writerow([word, frequency])
print(word, frequency)
```
将要统计词频的文本文件命名为"text.txt",代码将输出每个词和它在文本中出现的次数,同时将结果保存到名为"word_frequency.csv"的CSV文件中。
相关问题
jieba分词 词频结果导出
使用jieba分词进行词频统计的代码如下:
```python
import jieba
from collections import Counter
# 读取文本文件并进行分词
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
words = jieba.cut(text)
# 统计词频并输出结果
word_count = Counter(words)
with open('word_freq.txt', 'w', encoding='utf-8') as f:
for word, count in word_count.most_common():
f.write('{}\t{}\n'.format(word, count))
```
首先,使用`jieba.cut`方法对文本进行分词,得到一个可遍历的生成器对象`words`。
然后,将`words`传入`collections.Counter`类中,得到词频统计结果`word_count`。
最后,将结果按照词频从大到小排序并输出到文件中,每个词和其对应的词频用制表符分隔开。
执行以上代码后,会在同级目录下生成一个名为`word_freq.txt`的文件,其中每行表示一个词和其对应的词频。
将ROC曲线数据导出代码
假设你已经有了 ROC 曲线的数据,其中包括真正率(True Positive Rate,TPR)和假正率(False Positive Rate,FPR)的数据点,可以使用 Python 中的 Pandas 库将其导出为 CSV 文件。
示例代码如下:
```python
import pandas as pd
# ROC 曲线数据
tpr = [0.0, 0.2, 0.4, 0.6, 0.8, 1.0]
fpr = [0.0, 0.1, 0.2, 0.3, 0.4, 0.5]
# 将数据转换为 Pandas DataFrame
roc_data = pd.DataFrame({'TPR': tpr, 'FPR': fpr})
# 导出为 CSV 文件
roc_data.to_csv('roc_curve.csv', index=False)
```
代码中,首先定义了 TPR 和 FPR 的数据点,然后使用 Pandas 的 DataFrame 将其转换为表格形式。最后,使用 DataFrame 的 `to_csv()` 方法将数据导出为 CSV 文件,其中 `index=False` 参数表示不需要保存行索引。执行完这段代码后,会在当前目录下生成名为 `roc_curve.csv` 的文件。