headers = { ‘user-agent’: ‘Mozilla…’} # 爬第1页导2660页的数据 for i in range(1, 2660): # 从图中可以看到翻页只需要在页数那个位置改成i就好了 url = ‘http://guba.eastmoney.com/o/list,603019_{}.html’.format(i) # 发送请求 response = requests.get(url=url, headers=headers) # 状态码等于200说明得到源代码了 if response.status_code == 200: tree = etree.HTML(response.text) # 用xpath进行数据解析 # 先把有信息的整块提出来,在获取所有的div div_list = tree.xpath(‘//*[@id=“articlelistnew”]/div’)
时间: 2024-02-14 21:09:37 浏览: 190
【机器学习】数据准备--python爬虫.doc
这段代码是用 Python 语言编写的,主要是爬取东方财富网股吧中股票“603019”(中科曙光)的帖子列表数据。通过循环从第1页到第2660页,每次构造对应页数的 URL,并发送请求获取响应数据。如果状态码为200,则使用xpath对返回的HTML源代码进行解析,并提取出所有的包含帖子信息的div块。
阅读全文