使用python从https://www.chinadaily.com.cn/下载一则新闻,保存到txt文件中,读取该文件,并统计每个单词在新闻中出现的次数。
时间: 2024-03-11 09:46:01 浏览: 101
【Python应用实战案例】-爬取新闻网站新闻(代码).zip
5星 · 资源好评率100%
好的,我来给您讲一下大致思路。
首先,我们需要使用 Python 的 requests 库来获取网页的 HTML 内容。然后,我们可以使用正则表达式或者 BeautifulSoup 库来提取出新闻的正文部分。接下来,我们可以使用 Python 的文件操作来将新闻保存到 txt 文件中。最后,我们可以使用 Python 的字符串处理函数和数据结构来统计每个单词在新闻中出现的次数。
以下是大致代码:
```python
import requests
from bs4 import BeautifulSoup
# 获取网页内容
url = 'https://www.chinadaily.com.cn/'
response = requests.get(url)
html = response.content
# 提取新闻正文
soup = BeautifulSoup(html, 'html.parser')
news_content = soup.find('div', {'class': 'newsbox'}).text
# 保存到txt文件
with open('news.txt', 'w', encoding='utf-8') as f:
f.write(news_content)
# 统计单词出现次数
word_count = {}
words = news_content.split()
for word in words:
if word not in word_count:
word_count[word] = 1
else:
word_count[word] += 1
# 打印结果
for word, count in word_count.items():
print(word, count)
```
当然,这只是一个简单的示例,实际应用中可能需要针对具体情况进行更多的处理和优化。
阅读全文