Python爬虫实现选科要求数据抓取

需积分: 0 137 浏览量更新于2024-08-04 收藏 642KB DOCX 举报

"选科要求爬虫思路1" 在给定的代码中，我们看到一个C#爬虫程序，用于抓取和整理高校的专业选科要求数据，并将这些信息保存到Excel文档中。以下是该爬虫的主要步骤和涉及的知识点： 1. **库的导入**： - `requests`：用于发送HTTP请求，获取网页内容。 - `lxml.etree`：用于解析HTML文档，提取所需数据，这里使用XPath表达式来定位元素。 - `xlwt`：这是一个Python库，用于创建、修改和保存Microsoft Excel文件。 2. **Excel文件创建**： - 使用`xlwt.Workbook()`创建一个新的Excel工作簿，并添加一个名为“选科要求”的工作表。 - 使用`sheets.write()`方法写入表头，如“学校”、“专业”和“选科要求”。 3. **伪装浏览器**： - 在发送HTTP GET请求时，设置请求头`User-Agent`和`Content-Type`，以模拟浏览器行为，防止被网站服务器识别为爬虫而被屏蔽。 4. **数据获取**： - 首先，向`url1`发送GET请求，获取包含所有学校及其对应网址的页面。 - 使用`etree.HTML(response.text)`将响应内容转换为HTML对象，便于解析。 - 使用XPath表达式`//div[@id="div5"]//tr/td[4]/text()`、`//div[@id="div5"]//tr/td[5]/form/input[1]/@value`和`//div[@id="div5"]//tr/td[5]/form/input[2]/@value`分别提取学校名称（schools）、学校代码（dms）和专业代码（mcs）。 5. **遍历和数据抓取**： - 对于每个学校，创建一个字典`data`，将学校代码和专业代码存储在其中。 - 发送带有学校代码和专业代码的POST请求到`url2`，这通常用于获取具体的选科要求信息。 - 这部分代码在提供的内容中没有给出，因此实际的选科要求数据抓取可能需要根据返回的HTML或JSON响应结构进一步解析。 6. **数据保存**： - 在获取到每个学校的选科要求后，将数据写入Excel表格的相应行，行号由变量`k`递增控制。 7. **注意事项**： - 爬虫需要遵循网站的robots.txt协议，尊重网站的版权和隐私政策，不进行非法抓取。 - 考虑到反爬策略，可能需要处理验证码、IP限制、动态加载等问题。 - 如果请求过于频繁，可能会被服务器封禁，因此可以添加延时或使用代理IP。 - 数据解析的正确性依赖于目标网站的HTML结构，结构改变可能导致爬虫失效，需要定期维护和更新。这个爬虫示例提供了基础的网络爬虫开发流程，包括请求、解析、数据存储等环节，但具体的选科要求抓取和处理逻辑在提供的代码中并未完全展示。在实际应用中，你需要根据返回的页面内容来完善这部分代码，以获取并解析出具体的选科要求信息。

import requests

from lxml import etree

import xlwt

#创建 Excel 文档

xls = xlwt.Workbook()

sheet = xls.add_sheet('选科要求')

sheet.write(0, 0, '学校')

sheet.write(0, 1, '专业')

sheet.write(0, 2, '选科要求')

# 定义变量 k，存放 Excel 文件中的行

k = 1

# 各个学校的 dm,mc 信息网址

url1 = "http://xkkm.sdzk.cn/zy-manager-web/html/xx.html"

# 各个学校选科要求的网址

url2 = "http://xkkm.sdzk.cn/zy-manager-web/gxxx/searchInfor"

#伪装成浏览器

head = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36',

'Content-Type': 'text/html;charset=UTF-8'

}

response = requests.get(url=url1, headers=head)

response.encoding = None

html1 = etree.HTML(response.text)

# 利用 xpath 获取学校名和各学校的选考科目要求的网址、schools 用于存放学校名称、scmc 用

于存放学校的 mc 属性

schools = html1.xpath('//div[@id="div5"]//tr/td[4]/text()')

dms = html1.xpath('//div[@id="div5"]//tr/td[5]/form/input[1]/@value')

mcs = html1.xpath('//div[@id="div5"]//tr/td[5]/form/input[2]/@value')

# 对每一个学校访问

for j in range(len(schools)):

data = {

'dm': dms[j],

'mc': mcs[j]

}

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36'

}

response = requests.post(url=url2, data=data, headers=headers)

html = etree.HTML(response.text)

# xpath 匹配专业和选科要求、pors 用于存放各个学校的专业、limits 用于存放各个专业

的选科要求

pros = html.xpath('//div[@id="ccc"]//tr/td[3]/text()')

limits = html.xpath('//div[@id="ccc"]//tr/td[4]/text()')

下载后可阅读完整内容，剩余3页未读，立即下载

WaiyuetFung

粉丝: 843
资源: 316

Python爬虫实现选科要求数据抓取

Python爬虫两种思路详解：requests和urllib库实践

Python网络爬虫实战：思路分析与数据处理

字体反爬虫网站的反反爬虫程序设计

JAVA开发一个简单的爬虫的思路1

高级网络可选资源类型爬虫

软科大学排名爬虫

河北金融学院经济大数据课设2024年 软科学校爬虫课设

13.2 整理爬虫常规思路｜实战：原生爬虫｜Python3.8入门 & 进阶 & 原生爬虫实战完全解读

使用正则表达式实现网页爬虫的思路详解

python爬虫解决验证码的思路及示例

最新资源

河北金融学院经济大数据课设2024年软科学校爬虫课设