Python爬虫实战：利用Python获取数据的优势与策略

需积分: 5 186 浏览量更新于2024-06-27 收藏 1.01MB PDF 举报

Python爬虫是网络爬虫技术在Python语言中的应用，它是一种利用编程手段模拟人类或程序自动访问网站、抓取并处理网络数据的工具。网络爬虫通常被定义为网络蜘蛛、网络机器人，它的目标是通过大量数据的收集和分析，为企业提供市场走势洞察和决策支持。在企业获取数据的方式中，除了内部自有数据和从第三方数据平台购买，Python爬虫在数据稀缺或成本高昂时扮演着重要角色。 Python作为爬虫开发的首选语言，具有显著的优势。首先，Python的请求和解析模块如urllib、BeautifulSoup和Scrapy等库功能强大且易于学习，这使得编写爬虫程序更加高效。相比之下，PHP在多线程和异步支持上相对较弱，Java的代码量大且可能较为笨重，而C/C++虽然效率高，但开发速度较慢。爬虫可以根据应用场景进行分类，通用网络爬虫遵循robots协议，主要用于搜索引擎抓取，而聚焦网络爬虫则针对特定需求进行定制，例如面向主题爬虫和面向需求爬虫。爬虫的工作流程包括确定目标URL、发送HTTP/HTTPS请求、解析HTML获取数据、保存数据以及递归抓取其他链接。在实际操作中，还可以借助Chrome浏览器插件如ProxySwitchyOmega、XPathHelper和JSONView来辅助工作，比如切换代理、解析网页结构和查看JSON数据。 Fiddler这类抓包工具是网络爬虫开发中的重要辅助，允许开发者设置代理、查看请求与响应的详细信息，包括headers、POST数据和原始请求。例如，使用Python的urllib.request库中的urlopen函数发起HTTP请求，如`response=urllib.request.urlopen(url='http://www.baidu.com/')`，就是基础的爬虫抓取步骤。 Python爬虫技术以其易用性、丰富的库支持和灵活的开发能力，在数据抓取领域展现出强大的实用价值。开发者需要熟练掌握相关的库和工具，同时了解爬虫伦理和法律法规，以确保合法合规地进行数据采集和分析。

3、封装为类

import urllib.request

import urllib.parse

class BaiduSpider:

def __init__(self):

self.baseurl = "http://tieba.baidu.com/f?"

self.headers = {'User-Agent':'User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'}

def getPage(self,url):

'''发请求，获取响应，得到html'''

req = urllib.request.Request(url,headers = self.headers)

res = urllib.request.urlopen(req)

html = res.read().decode("utf-8")

return html

def writePage(self,filename,html):

'''保存html⽂件到本地'''

with open(filename,'w',encoding="utf-8") as f:

f.write(html)

def workOn(self):

'''主函数'''

name = input("请输⼊贴吧名")

begin = int(input("请输⼊起始页"))

end = int(input("请输⼊终⽌页"))

kw = {"kw":name}

kw = urllib.parse.urlencode(kw)

for page in range(begin,end+1):

pn = (page-1) *50

url = self.baseurl + kw + "&pn=" + str(pn)

html = self.getPage(url)

filename = "第"+ str(page) + "页.html"

writePage(filename,html)

if __name__ == "__main__":

#创建对象

daiduSpider = BaiduSpider()

#调⽤类内的⽅法

daiduSpider.workOn()

1、解析

1、数据分类

1、结构化数据

特点：有固定的格式：HTML、XML、JSON等

2、⾮结构化数据

⽰例：图⽚、⾳频、视频，这类数据⼀般存储为⼆进制

2、正则表达式（re模块）

1、使⽤流程

1、创建编译对象：p = re.compile(r"\d")

2、对字符串匹配：result = p.match('123ABC')

3、获取匹配结果：print(result.group())

2、常⽤⽅法

1、match(s)：只匹配字符串开头，返回⼀个对象

2、search(s)：从开始往后去匹配第⼀个，返回⼀个对象

3、group()：从match和search返回的对象中取值

4、findall(s)：全部匹配，返回⼀个列表

3、表达式

.:任意字符(不能匹配\n)

[...]:包含[]中的⼀个内容

\d:数字

\w:字母、数字、下划线

\s：空⽩字符

\S：⾮空字符

*:前⼀个字符出现0次或多次

？：0次或1次

+：1次或多次

{m}：前⼀个字符出现m次

贪婪匹配：在整个表达式匹配成功前提下，尽可能多的去匹配

⾮贪婪匹配：整个表达式匹配成功前提下，尽可能少的去匹配

4、⽰例：

import re

s = """<div><p>仰天⼤笑出门去，我辈岂是篷篙⼈</p></div>

<div><p>天⽣我材必有⽤，千⾦散尽还复来</p></div>

"""

#创建编译对象，贪婪匹配

p =re.compile("<div>.*</div>",re.S)

result = p.findall(s)

print(result)

#['<div><p>仰天⼤笑出门去，我辈岂是篷篙⼈</p></div>\n\t <div><p>天⽣我材必有⽤，千⾦散尽还复来</p></div>']

#⾮贪婪匹配

p1 = re.compile("<div>.*?</div>",re.S)

result1 = p1.findall(s)

print(result1)

#['<div><p>仰天⼤笑出门去，我辈岂是篷篙⼈</p></div>', '<div><p>天⽣我材必有⽤，千⾦散尽还复来</p></div>']

5、findall()的分组

解释：先按整体匹配出来，然后在匹配()中内容，如果有2个或多个()，则以元组⽅式显⽰

import re

s = 'A B C D'

p1 = re.compile("\w+\s+\w+")

print(p1.findall(s))#['A B','C D']

#1、先按照整体去匹配['A B','C D']

#2、显⽰括号⾥⾯的⼈内容,['A','C']

p2 = re.compile("(\w+)\s+\w+")

print(p2.findall(s))#['A','C']

#1、先按照整体匹配['A B','C D']

#2、有两个以上分组需要将匹配分组的内容写在⼩括号⾥⾯

#,显⽰括号内容：[('A','B'),('C','D')]

p3 = re.compile("(\w+) (\w+)" )

print(p3.findall(s))

#[('A','B'),('C','D')]

6、练习,猫眼电影榜单top100

# -*- coding: utf-8 -*-

"""

剩余14页未读，继续阅读

yangzhi919

粉丝: 2
资源: 13

Python爬虫实战：利用Python获取数据的优势与策略

python实现简单的爬虫功能.pdf

python网络爬虫.pdf

python-网络爬虫.pdf

Python-爬虫基础案例.pdf

Mastering-Python.pdf.pdf

小白入门必读-Python爬虫.pdf

Parallel-Programming-with-Python.pdf.pdf

Learn-Raspberry-Pi-Programming-with-Python.pdf.pdf

python-to-PDF-project.zip

BaiduyunSpider-python-master.rar

最新资源