def get_detail(self,page_source): result = [] htmls = etree.HTML(page_source) count = htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div') temp="" list_1 = [] creat_time ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/div[2]/a[1]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") user_name ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/div[1]/div[2]/a/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") title ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/p[1]/a[1]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") # text ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div[1]/div/div[1]/div[2]/p[2]/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") text ="".join(htmls.xpath('//*[@id="pl_feedlist_index"]/div[2]/div/div/div[1]/div[2]/p/text()')).strip(" ").strip("\n").strip("\u3000").strip("\u200b") list_1 =[str(creat_time),str(user_name),str(title),str(text)] result.append(list_1) titles=full3+'\\'+user_name+'.txt' f = open(titles,'a',encoding='utf-8',newline='') f.write(str(creat_time)+"\n") f.write(str(user_name)+"\n") f.write(str(title)+"\n") for i in range( 0, len(text), 80 ): temp+=text[i:i+80]+"\n"
时间: 2024-03-07 08:51:31 浏览: 122
html+tree
这段代码看起来像是用来从网页源代码中提取特定信息的。具体来说,它首先使用XPath语法来定位页面中的特定元素,例如用户名称、发布时间、标题和正文。然后,它将这些信息格式化为一个列表,并将其附加到结果列表中。接下来,它将这些信息写入一个文本文件中,其中文本被格式化为每80个字符一行。这个函数似乎是用来将微博的详细内容保存到本地文件中。
阅读全文