Python网络爬虫：解决异步加载数据获取问题

版权申诉

97 浏览量更新于2024-09-11 1 收藏 973KB PDF 举报

在本文中，我们将探讨如何使用Python进行网络爬虫以获取异步加载的数据，具体案例是抓取重庆市政府采购网的采购公告信息。首先，需求分析阶段明确了目标：自动化获取并展示项目名称和采购物资。为了实现这一目标，作者采用Python的requests库和lxml库来处理网络请求和解析HTML内容。在实现过程中，作者首先遇到的问题是获取到的“假网址”（可能是由于动态加载或者JavaScript操作导致），他们试图通过XPath表达式匹配div元素来收集数据。然而，代码中的`parsepage`函数尝试将结果直接写入文件，但引发了`TypeError: write() argument must be str, not None`的错误。这表明在处理响应内容时出现了问题，因为可能没有正确获取到实际的HTML字符串。为了解决这个问题，作者建议先优化代码，只保存首次请求的首页信息。为此，他们创建了一个新的`getpage`函数，用于获取并解析网页的静态部分，而不会涉及到异步加载内容。这个函数应该返回一个包含页面结构的字符串，而不是直接写入文件。然后，可以修改`parsepage`函数，确保在继续爬取二级链接之前，正确处理了首页的数据。正确的实现步骤可能包括： 1. **处理静态内容**： - 使用`getpage`函数获取并解析首页的HTML，可能需要检查响应状态码，确保成功获取数据。 - 对响应文本进行必要的清理，如去除不必要的字符，使其适合作为字符串写入文件。 ```python def getpage(url, headers): res = requests.get(url, headers=headers) if res.status_code == 200: html = etree.HTML(res.text) return html else: print(f"Error: {res.status_code}, unable to fetch page.") return None ``` 2. **处理异步加载内容**： - 如果首页存在异步加载的数据，可能需要模拟用户交互、分析JavaScript逻辑，或者使用如Selenium等工具来处理动态内容。 - 之后，可以编写一个辅助函数，比如`fetch_async_data`，使用类似的方法获取二级链接，将这些链接添加到`all`列表中。 ```python def fetch_async_data(url, headers, all): # 这里需要根据网站的具体情况来实现异步数据抓取 pass ``` 3. **整合代码**： - 在`parsepage`函数中，先处理首页，然后调用`fetch_async_data`函数获取二级链接，最后将所有链接保存到文件。 ```python def parsepage(url, headers, all): html = getpage(url, headers) if html is not None: # 处理首页数据 urllist = html.xpath("//div[@class='list-group-itemng-scope']/div[@class='row']//a") print(urllist) for i in urllist: url = i.xpath("./@href") all.append(url) # 异步数据抓取（如果需要） fetch_async_data(url, headers, all) with open("ztb.html", "w", encoding="utf-8") as f: # 将首页数据写入文件 f.write(etree.tostring(html, encoding="unicode")) ``` 4. **调试与优化**： - 在执行整个爬虫流程后，务必检查是否能正确获取到项目名称和采购物资，并且异步加载的数据是否被正确处理。通过以上步骤，你可以有效地解决Python网络爬虫获取异步加载数据的问题，实现从重庆市政府采购网抓取采购公告的目标。记得在实际操作时遵守网站的robots.txt协议和法律法规，尊重数据来源网站的规定。