首页try: #有些div里面获取获取的内容是空的，这种就不要深度爬取了 if href != ‘’: if href.split('.')[-1] == 'html’: # 爬取到的href分为两种类型，分别进行时间提取 href = 'http://guba.eastmoney.com/o' + href response_deep = requests.get(url=href, headers=headers).text # 该请求获取的源代码与element不同，所以用正则提取时间 date_1 = re.findall(r'<div class="zwfbtime">(.*?)</div>', response_deep, re.S) # 将提取出来的时间进行清洗 date_2 = ‘’.join(date_1) date_3 = re.findall(r'发表于(.*?)\r', date_2) date = ''.join(date_3).strip().split(' ')[0]

try: #有些div里面获取获取的内容是空的，这种就不要深度爬取了 if href != ‘’: if href.split('.')[-1] == 'html’: # 爬取到的href分为两种类型，分别进行时间提取 href = 'http://guba.eastmoney.com/o' + href response_deep = requests.get(url=href, headers=headers).text # 该请求获取的源代码与element不同，所以用正则提取时间 date_1 = re.findall(r'<div class="zwfbtime">(.?)</div>', response_deep, re.S) # 将提取出来的时间进行清洗 date_2 = ‘’.join(date_1) date_3 = re.findall(r'发表于(.?)\r', date_2) date = ''.join(date_3).strip().split(' ')[0]

时间: 2024-02-10 12:09:54 浏览: 60

在获取到每个帖子的链接之后，如果链接不为空，则进行深度爬取，即进入链接内部获取更多的信息。先判断链接的类型，如果是以“.html”结尾的，则认为该链接是帖子的链接。然后用requests发送请求，获取返回的源代码。因为该请求获取的源代码与之前的element不同，所以使用正则表达式提取帖子发布时间，并进行清洗，最后将其转换为标准格式（年-月-日）。

阅读全文