Python自学requests-html:入门与实战教程

3星 · 超过75%的资源 需积分: 17 1 下载量 122 浏览量 更新于2024-08-05 收藏 8KB MD 举报
在本文档中,作者讲述了其在暑假期间选择自学Python爬虫的经历,特别关注了`requests-html`这一框架。开始时,作者在互联网上搜索资料,虽然了解到诸如`requests`和正则表达式等基础工具,但`requests-html`因其提供的分页功能和更易用性吸引了作者。文档主要分为两个部分:`requests-html`官方文档介绍和作者的个人学习体验。 在学习过程中,作者首先强调了编程伦理,提倡尊重编程和热爱代码,将其视为伙伴而非工具。然后,作者通过实际操作展示了如何安装`requests-html`,使用`HTMLSession`类进行基础的网页抓取。具体步骤包括导入`requests_html`模块,创建一个`HTMLSession`实例,然后使用`get`方法获取指定网页内容。这一步骤中,`get`函数返回的是一个Response对象,包含网页的HTML源码。 接着,文档进入深入部分,可能会讲解如何解析HTML文档,提取所需信息,如使用`r.html`属性访问渲染后的HTML,或者利用`r.find`、`r.select`等方法基于CSS选择器或XPath选择元素。此外,可能还会涉及`requests-html`的特性,如动态加载内容的处理、表单提交、页面导航,以及如何处理JavaScript依赖内容。 在自学过程中,作者分享了查找和学习资源的过程,如B站的UP主教学视频、CSDN和简书上的博客。这些资源对于初学者来说是宝贵的参考,帮助他们理解和实践`requests-html`的使用技巧。 这篇文档为想要学习`requests-html`的Python爬虫初学者提供了一个实用的指南,涵盖了从安装到基本操作,再到进阶用法的完整过程,旨在帮助读者快速入门并提升爬虫技能。通过作者的经验分享,读者可以更好地理解和掌握这一强大的Python爬虫库。