try: #有些div里面获取获取的内容是空的,这种就不要深度爬取了 if href != ‘’: if href.split('.')[-1] == 'html’: # 爬取到的href分为两种类型,分别进行时间提取 href = 'http://guba.eastmoney.com/o' + href response_deep = requests.get(url=href, headers=headers).text # 该请求获取的源代码与element不同,所以用正则提取时间 date_1 = re.findall(r'<div class="zwfbtime">(.*?)</div>', response_deep, re.S) # 将提取出来的时间进行清洗 date_2 = ‘’.join(date_1) date_3 = re.findall(r'发表于(.*?)\r', date_2) date = ''.join(date_3).strip().split(' ')[0]
时间: 2024-02-10 19:09:54 浏览: 59
在获取到每个帖子的链接之后,如果链接不为空,则进行深度爬取,即进入链接内部获取更多的信息。先判断链接的类型,如果是以“.html”结尾的,则认为该链接是帖子的链接。然后用requests发送请求,获取返回的源代码。因为该请求获取的源代码与之前的element不同,所以使用正则表达式提取帖子发布时间,并进行清洗,最后将其转换为标准格式(年-月-日)。
阅读全文