Python中先爬虫,导入Excel文件,再进行词频分析并输出所有数据的词频的代码
时间: 2024-06-10 07:05:49 浏览: 149
统计文本词频并输出为Excel表格形式——Python实现
5星 · 资源好评率100%
下面是一个简单的Python代码示例可以完成您提出的任务:
```
import requests
import openpyxl
from collections import Counter
from bs4 import BeautifulSoup
# 爬取网页
res = requests.get("https://www.example.com")
soup = BeautifulSoup(res.text, 'html.parser')
# 将网页内容筛选出关键词
keywords = []
for tag in soup.find_all():
if tag.name == 'a':
continue
for word in tag.text.strip().split():
if len(word) > 1:
keywords.append(word)
# 统计词频
word_count = Counter(keywords)
# 将词频数据写入Excel文件
wb = openpyxl.Workbook()
sheet = wb.active
sheet['A1'] = '单词'
sheet['B1'] = '词频'
row = 2
for word, count in word_count.most_common():
sheet.cell(row=row, column=1).value = word
sheet.cell(row=row, column=2).value = count
row += 1
wb.save('word_count.xlsx')
```
请注意,此示例通过将HTML文本输入到BeautifulSoup对象中来进行网页解析。您需要根据自己的情况进行修改。在此之后,我们使用`Counter()`函数计算出每个单词出现的次数,然后将数据写入新的Excel文档中。
阅读全文