首页headers = { ‘user-agent’: ‘Mozilla…’} # 爬第1页导2660页的数据 for i in range(1, 2660): # 从图中可以看到翻页只需要在页数那个位置改成i就好了 url = ‘http://guba.eastmoney.com/o/list,603019_{}.html’.format(i) # 发送请求 response = requests.get(url=url, headers=headers) # 状态码等于200说明得到源代码了 if response.status_code == 200: tree = etree.HTML(response.text) # 用xpath进行数据解析 # 先把有信息的整块提出来，在获取所有的div div_list = tree.xpath(‘//*[@id=“articlelistnew”]/div’)

headers = { ‘user-agent’: ‘Mozilla…’} # 爬第1页导2660页的数据 for i in range(1, 2660): # 从图中可以看到翻页只需要在页数那个位置改成i就好了 url = ‘http://guba.eastmoney.com/o/list,603019_{}.html’.format(i) # 发送请求 response = requests.get(url=url, headers=headers) # 状态码等于200说明得到源代码了 if response.status_code == 200: tree = etree.HTML(response.text) # 用xpath进行数据解析 # 先把有信息的整块提出来，在获取所有的div div_list = tree.xpath(‘//*[@id=“articlelistnew”]/div’)

时间: 2024-02-14 10:09:37 浏览: 207

user_agents.txt

反爬的一个简单措施，每次随机使用一个user_agent去访问资源，此文件是网上大神收集的user_agents的合集。

这段代码是用 Python 语言编写的，主要是爬取东方财富网股吧中股票“603019”（中科曙光）的帖子列表数据。通过循环从第1页到第2660页，每次构造对应页数的 URL，并发送请求获取响应数据。如果状态码为200，则使用xpath对返回的HTML源代码进行解析，并提取出所有的包含帖子信息的div块。

阅读全文