python爬虫黑马
时间: 2023-10-10 19:09:03 浏览: 192
Scrapy是一个用于爬取网站数据和提取结构化数据的Python应用框架,可以轻松实现一个爬虫来抓取网页内容和图片。使用Scrapy制作爬虫一共需要四个步骤:新建项目、明确目标、制作爬虫、存储爬取内容。具体步骤如下:
1. 新建项目:使用命令`scrapy startproject xxx`新建一个新的爬虫项目。
2. 明确目标:在`items.py`文件中明确你想要抓取的目标数据结构。
3. 制作爬虫:在`spiders/xxspider.py`文件中编写代码来实现爬虫的具体逻辑。
4. 存储爬取内容:在`pipelines.py`文件中设计管道来存储爬取的内容。
另外,我还找到了一段Python代码示例,可以用于爬取黑马程序员论坛的大数据技术交流模块的网页内容。代码中使用了`requests`库发送GET请求获取网页内容,然后将内容保存为HTML文件。你可以根据你的需求进行修改和使用。
```python
# 引入requests库
import requests
# 根据url发起请求,获取服务器响应文件
# url:待抓取的url
def load_page(url):
# 这里的请求头header可以是任意一个网站上面的请求头,进入开发者模式就可以找到,推荐使用google浏览器,比较方便查看
# header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.95 Safari/537.36 QIHU 360SE'}
# 发送get请求
response = requests.get(url, headers=header)
# 返回html源代码
return response.text
# 将html文件保存为网页文件
def save_file(html, filename):
print('正在保存', filename)
with open(filename, 'w', encoding='utf-8') as file:
file.write(html)
# 调度函数
def heima_fornum(begin_page, end_page):
for page in range(begin_page, end_page + 1):
# 组合页面完整的url
url = f'http://bbs.itheima.com/forum-568-{page}.html'
# 上面的url以黑马程序员论坛的大数据技术交流模块为例子
# 文件名称
file_name = '第' + str(page) + '页.html'
# 抓取网页数据
html = load_page(url)
# 保存网页数据
save_file(html, file_name)
# 定义主函数
if __name__ == '__main__':
begin_page = int(input('请输入起始页:'))
end_page = int(input('请输出结束页:'))
heima_fornum(begin_page, end_page)
```
这段代码可以根据你输入的起始页和结束页抓取黑马程序员论坛的大数据技术交流模块的网页内容,并将每个网页保存为对应的HTML文件。你可以根据需要进行修改和使用。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* [黑马python2.7的爬虫4-Scrapy框架](https://blog.csdn.net/sinat_23880167/article/details/80643413)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"]
- *3* [爬虫爬取黑马程序员论坛的网页数据](https://blog.csdn.net/weixin_66425427/article/details/129898767)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文