Python爬虫学习入门与资源推荐

下载需积分: 0 | DOCX格式 | 137KB | 更新于2024-08-04 | 124 浏览量 | 举报

"这篇资源是关于爬虫学习的阶段性总结，主要涵盖了爬虫的基础知识、JS渲染处理、框架选择以及学习资料推荐。作者强调在实际需求中，有时可以通过加入程序员社区寻求帮助，而不是花费大量时间编写爬虫。" 在爬虫学习的过程中，作者将知识分为几个部分，并给出了相应的工具和技术建议： 1. **基础篇**： - 对于初学者，建议在Ubuntu虚拟机中进行环境搭建，因为Ubuntu系统通常预装Python 2和3。 - Python基础学习至关重要，初学者可以从Runoob的Python3教程开始，然后阅读廖雪峰的Python教程。 - 阅读《简明Python教程》以进一步加深理解。 - 掌握Git基础，可通过廖雪峰的Git教程学习，可以在GitHub上找到许多项目代码和爬虫示例。 2. **爬虫篇**： - 对于简单小量级的爬虫，可以使用requests库结合pyquery解析HTML。 - 当遇到JavaScript渲染的网页时，可以借助selenium和PhantomJS来处理。 - 对于更复杂的分布式爬虫和增量更新去重需求，推荐使用Pyspider或Scrapy框架。Scrapy因其丰富的文档和命令行模式而更受作者青睐，而Pyspider具有WEBUI界面。 3. **学习资源**： - 崔庆才的博客和教学视频提供了详细的爬虫入门教程，这些视频也可以在YouTube上找到，适合跟随操作实践。 - 在遇到前端相关概念时，作者建议暂停视频并查阅相关资料，因为这些概念可能对非前端背景的学习者来说较难理解。此外，作者提醒不要过度投入爬虫开发，特别是在实际工作中，可以加入程序员的QQ群寻求帮助，因为程序员群体通常乐于分享和协助。这样可以避免在不必要的情况下花费过多时间在爬虫技术上，尤其是在处理小规模数据需求时。这份资源提供了从零开始学习爬虫的路线图，包括所需的基本技能、工具选择和学习路径，对初学者来说非常实用。通过跟随这些步骤，读者可以逐步掌握爬虫技术，并能够应对不同类型的网页抓取需求。

爬虫学习阶段性总结

爬虫的基础知识我打算就先学到这里了，以后需要用起来的时候再去看看相关文档和谷歌，

做一个小量级的爬虫程序问题不大，对于分布式的和增量更新去重等需求就直接上框架，用

别人的轮子还是蛮爽的。

简单小量级：requests+pyquery

JS 渲染太多的：selenium+Phantomjs

框架：Pyspider 或者 Scrapy，个人比较喜欢 Scrapy，主要是 pyspider 的文档真的少，两者

框架差不多的，前者有 WEBUI，后者是命令行模式，看喜欢哪个就用哪个吧。

学习资料总结：

第一部分基础

1. 环境搭建：

建议直接用虚拟机 ubuntu（自带 python2 和 3），terminal 敲代码就可以了

2. python 基础（0 基础的看这个）：

http://www.runoob.com/python3/python3-tutorial.html

3. 看完上面这个之后看下面这个：（感觉作者写到错误调试那一章之后就不是太好了，感

觉是一股脑东西给你砸过来）

https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e5

42c000

扩展阅读：

《简明 python 教程》

https://molun.net/byte-of-python-2017-new-translation-edition-release/

4. Git 教程

https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c

017b000

这个写的蛮好的，看这个就够了，后续需要的项目代码可以从 github 上拷贝，在上面也

有很多的爬虫项目可以参考，注意看 star 和 fork 数量，可以参考时间比较新的（push

时间），算是一个挺好的资源来源（比自己百度去搜索的爬虫很多都过期了，或者网站

策略更新了，对新手不太友好，会浪费比较多时间）

第二部分爬虫：

1. 崔庆才博客和教程视频：

http://cuiqingcai.com

教学视频在 youtube 有，我也存到本地网盘了。

视频内容都挺好的，一步步做下来，基本也就入门了爬虫了

2. 阅读相关的基础知识：

上面做爬虫的时候会经常遇到一些概念（前端），崔是做前端的，所以有些讲的很快，

不懂的时候建议把视频暂停下来，看看下面这些概念

HTTP/HTML/AJAX/JSON/CSS/XPATH

教程都可以在这里找到：

http://www.runoob.com/

看重点就可以了，不需要全部都看，比如 HTML 就看一下基础元素属性和总结就好了，

需要用到其他的时候再补

下载后可阅读完整内容，剩余3页未读，立即下载

艾斯·歪

粉丝: 42
资源: 342

Python爬虫学习入门与资源推荐

Scrapy框架实战：豆瓣电影Top250爬虫教程

全面解析爬虫工作流程及应用：Python代码示例

Python爬虫入门与进阶指南

python爬虫学习案例-字典形式爬取、读销量.rar

爬虫开发案例&项目关键知识总结与回顾总结以及相关检索合集.docx

Python爬虫数据可视化-1-学习字符串的必要性.ev4.rar

c 网络爬虫

搜索引擎系统学习与开发总结(最好的入门级教材)

【机器学习】数据准备--python爬虫.doc

基于python的新闻资讯抓取网络爬虫设计开题报告下载学习

最新资源