用python写一个脚本，可根据某网页遍历该网站所有网页，将网址存入website.txt，找到所有包含pdf下载链接的网页，并下载10个pdf文件到指定文件夹，每下载成功一个打印出pdf文件名及网页网址，结束后打印出是否下载成功。

时间: 2024-02-29 07:57:11 浏览: 104

一个基于Python的简单的用于抓取以及下载页面中pdf文件的爬虫脚本+源代码+文档说明

以下是一个可实现此功能的Python脚本示例： ```python import requests from bs4 import BeautifulSoup import os # 设置下载文件夹 download_folder = './downloads' # 创建下载文件夹 if not os.path.exists(download_folder): os.mkdir(download_folder) # 设置网站链接 url = 'https://example.com' # 存储所有网页链接的数组 pages = [] # 获取该网站的所有网页链接 def get_pages(url): global pages try: response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') for link in soup.find_all('a'): href = link.get('href') if href not in pages and href.startswith(url): pages.append(href) get_pages(href) except: pass # 找到所有包含PDF下载链接的网页，并下载10个PDF文件 def download_pdfs(): count = 0 for page in pages: try: response = requests.get(page) soup = BeautifulSoup(response.content, 'html.parser') for link in soup.find_all('a'): href = link.get('href') if href.endswith('.pdf'): count += 1 if count <= 10: filename = href.split('/')[-1] filepath = os.path.join(download_folder, filename) with open(filepath, 'wb') as f: f.write(requests.get(href).content) print(f'Downloaded {filename} from {page}') except: pass # 将所有网页链接存入website.txt文件 def save_pages(): with open('website.txt', 'w') as f: f.write('\n'.join(pages)) # 运行程序 if __name__ == '__main__': get_pages(url) save_pages() download_pdfs() if len(os.listdir(download_folder)) == 10: print('Download successful!') else: print('Download failed.') ``` 该脚本首先会根据给定的网站链接遍历该网站的所有网页，并将链接存储在一个数组中。然后，它会找到所有包含PDF下载链接的网页，并下载前10个PDF文件到指定文件夹中。每当成功下载一个PDF文件时，该脚本会打印出文件名及其所在的网页链接。最后，该脚本会将所有网页链接存储在一个名为`website.txt`的文件中，并打印出是否下载成功。

阅读全文

用python写一个脚本，可根据某网页遍历该网站所有网页，将网址存入website.txt，找到所有包含pdf下载链接的网页，并下载10个pdf文件到指定文件夹，每下载成功一个打印出pdf文件名及网页网址，结束后打印出是否下载成功。

相关推荐

python 爬取网页内容并保存为pdf格式

Python-基于python开发的批量下载某网站pdf文档

坦克大战 python写的,代码，可执行文件在链接中，可以自行取用

python读取pdf文件，将其中的图片保存到本地文件夹，自己编写，绝对可行！

爬虫：Python下载html保存成pdf——以下载知乎下某个专栏下所有文章为例

计算机图形学之动画和模拟算法：Inverse Kinematics：游戏开发中的逆向运动学实现.docx

nacos 后台启动脚本nacos 后台启动脚本nacos 后台启动脚本nacos 后台启动脚本nacos 后台启动脚本naco

Java SpringBoot Vue 毕业设计/节课作业【10个完整项目+源码+数据库+毕设论文+视频部署讲解】

基于python + openCV 实现的人脸识别

BS23-287基于Python的期货程序化交易系统的设计与实现-206jhypi.zip

非常好的电子设计小软件屏幕颜色获取软件非常好用的软件.zip

基于java+ssm+vue+mysql的网上房屋中介管理系统 源码+数据库+论文(高分毕业设计).zip

springboot034基于Springboot+Vue在线商城系统设计与开发毕业源码案例设计.zip

高校校园跑腿系统的设计app.zip

基于java+ssm+vue+mysql的小工程预算系统 源码+数据库+论文(高分毕业设计).zip

【创新未发表】Matlab实现引力搜索优化算法GSA-Kmean-Transformer-BiLSTM负荷预测算法研究.rar

操作系统核心技术全面讲解

springboot166基于Springboot+Vue的纺织品企业财务管理系统-毕业源码案例设计.zip

电机加减速初版.zip

最新推荐

计算机图形学之动画和模拟算法：Inverse Kinematics：游戏开发中的逆向运动学实现.docx

nacos 后台启动脚本nacos 后台启动脚本nacos 后台启动脚本nacos 后台启动脚本nacos 后台启动脚本naco

Java SpringBoot Vue 毕业设计/节课作业【10个完整项目+源码+数据库+毕设论文+视频部署讲解】

基于python + openCV 实现的人脸识别

BS23-287基于Python的期货程序化交易系统的设计与实现-206jhypi.zip

Android圆角进度条控件的设计与应用

管理建模和仿真的文件

【R语言lattice包实战】：从案例到技巧，图形制作不再难

输入正整数n.打出长度为n的菱形

mui框架实现带侧边栏的响应式布局

基于java+ssm+vue+mysql的网上房屋中介管理系统源码+数据库+论文(高分毕业设计).zip

基于java+ssm+vue+mysql的小工程预算系统源码+数据库+论文(高分毕业设计).zip