使用爬虫爬取博客生成14600行不重复词语或语句的txt文本,给出代码
时间: 2024-12-23 20:16:00 浏览: 2
最简单的中文相似语句生成(文本数据增强)simbert 代码复现 可以直接运行
5星 · 资源好评率100%
使用Python编写爬虫从博客抓取并生成包含14600个不重复词语或语句的TXT文本,可以采用BeautifulSoup库处理HTML内容,requests获取网页数据,然后利用set数据结构来去除重复项。以下是一个简化的示例:
```python
import requests
from bs4 import BeautifulSoup
import re
from collections import Counter
def get_unique_content(url):
# 请求网页
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 提取所有文本内容
text = soup.get_text()
# 清理文本(例如去除标点符号、数字等)
cleaned_text = re.sub(r'[^\w\s]', '', text)
# 分割文本为单词或短语列表
words = cleaned_text.split()
# 使用Counter计算词频并保持唯一元素
word_counts = Counter(words)[:14600] # 取前14600个最常出现的词
# 将结果写入TXT文件
with open('unique_content.txt', 'w', encoding='utf-8') as f:
for word, _ in word_counts.items():
f.write(f'{word}\n')
# 示例博客URL
blog_url = "https://example.com/blog"
# 调用函数开始爬取
get_unique_content(blog_url)
```
请注意,实际使用时需要根据目标网站的具体情况进行适当调整,如请求头设置、CSS选择器选取特定部分的文本等。
阅读全文