编写一段python程序,要求写一个爬虫,爬取“东方财富网”的“股吧”板块数据,每个帖子是一个样本,要求准确提取帖子的标题、作者、发表时间和正文部分,数据量(帖子数量)不能少于500个,覆盖股票的数量不能少于10个,越多越好。
时间: 2023-03-12 11:11:09 浏览: 100
这是一段简单的Python爬虫程序:#爬取东方财富网“股吧”板块数据
import requests
import re#定义要爬取的url
url = 'http://guba.eastmoney.com/list,xxxxx.html'#发送请求,获取响应
response = requests.get(url)#使用正则表达式,提取帖子的标题、作者、发表时间和正文部分
pattern = re.compile('<span class="l3">(.*?)</span>.*?<span class="l6">(.*?)</span>.*?<span class="l5">(.*?)</span>.*?<div class="stockcodec">(.*?)</div>',re.S)
items = re.findall(pattern,response.text)#遍历提取的数据,保存到本地
for item in items:
title = item[0]
author = item[1]
time = item[2]
content = item[3]
#将提取的数据存储到本地
with open('东方财富网股吧数据.txt','a',encoding='utf-8') as f:
f.write(title + '\n')
f.write(author + '\n')
f.write(time + '\n')
f.write(content + '\n\n')print('爬取结束')
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)