Python爬虫：异步加载Jianshu文章信息

需积分: 9 77 浏览量更新于2024-08-29 收藏 10KB TXT 举报

"该Python代码片段是一个简单的网络爬虫示例，用于从简书网站抓取文章信息。它使用了requests库来发送HTTP请求，获取网页内容，lxml库中的etree模块解析HTML文档，以及正则表达式（re）进行文本处理。此脚本的目的是演示如何异步加载数据，即非阻塞地获取网页信息，提高程序执行效率。" 在Python编程中，`requests`库是一个非常实用的工具，用于发送HTTP请求。在这个例子中，它被用来获取指定URL（简书首页的特定页面）的HTML内容。`headers`参数是一个字典，设置请求头，模拟浏览器行为，避免被网站识别为机器人。 `lxml`是Python的一个强大的XML和HTML处理库，它提供了XPath支持，方便快速提取所需信息。在代码中，`etree.HTML(result.text)`将返回的文本转换为HTML解析树，然后使用XPath表达式选择特定元素。例如，`li.xpath('//ul[@class="note-list"]/li')`选取所有类名为"note-list"的ul元素下的li元素，这些元素通常代表列表项。正则表达式库`re`在这里用于清理提取的文本内容，如去除末尾的空白字符。`strip()`函数被用来移除字符串开头和结尾的空白。程序的主要逻辑在于循环遍历li_lst中的每一个元素，从中提取文章的标题、内容、作者和评论数，并存储到二维列表`info`中。每个元素的信息通过XPath查询得到，如`title=li.xpath('./div/a[1]/text()')[-1]`获取标题，`[-1]`表示取最后一个匹配项，因为XPath可能返回多个结果。这个脚本提供了一个基本的网络爬虫框架，可以作为进一步开发更复杂爬虫项目的基础。异步加载的概念虽然没有直接体现在这段代码中，但整个爬虫的执行过程是非阻塞的，因为`requests.get()`调用不会等待响应完成，而是立即返回一个Response对象，这在处理大量网络请求时提高了效率。然而，对于大规模爬虫项目，通常会使用异步库如`asyncio`或第三方库如`Scrapy`来实现更高效的并发处理。

# -*- coding: utf-8 -*-
"""
Created on Mon Dec 21 12:49:45 2020

@author: Yuka
"""

#######################异步加载####################
import requests
import re
import time
from lxml import etree

url = "https://www.jianshu.com/?seen_snote_ids%5B%5D=77501094&seen_snote_ids%5B%5D=78620448&seen_snote_ids%5B%5D=80324985&seen_snote_ids%5B%5D=81348233&seen_snote_ids%5B%5D=80348158&seen_snote_ids%5B%5D=81359718&seen_snote_ids%5B%5D=76671403&page=2"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'
}
result = requests.get(url=url,headers=headers)
html = etree.HTML(result.text)
li_lst = html.xpath('//ul[@class="note-list"]/li')
info = [["title","content","author","replay"]]
for li in li_lst:
title = li.xpath('./div/a[1]/text()')[-1]
content = li.xpath('./div/p[1]/text()')[-1].strip()
author = li.xpath('./div[1]/div[1]/a[1]/text()')[-1].strip()
replay = li.xpath('./div[1]/div[1]/a[2]/text()')[-1].strip()
info.append([title,content,author,replay])
print(info)

#######################存储#########################

剩余8页未读，继续阅读

Alexanderplus

粉丝: 75
资源: 5

Python爬虫：异步加载Jianshu文章信息

2021-2022年OSCE考试备考资料合集

"2020—2021学年本科《电子技术》期末考试试卷(卷C)填空题总结

电子技术基础期末考试题总结：静态工作点、三极管工作状态及特性曲线分析。

Example_4_Exam_1.py

vce_exam_simulator_demo_setup.zip

vce_exam_simulator_demo_setup.exe

exam3_1_ans.py

001CCIE_Routing_and_Switching_Exam_Certi....pdf

exam_jsp.zip_../../../etc/passwd_../../etc/passwd_../etc/passwd_

net_exam_system.rar_.net考试系统_asp.net_exam.jxjyz y.net_online exa

最新资源