python如何爬取pdf文件
时间: 2023-12-29 11:06:29 浏览: 141
利用Python语言轻松爬取数据.pdf
Python可以使用requests和beautifulsoup4库来爬取pdf文件。以下是一个简单的代码示例:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://www.example.com/sample.pdf' # 替换成你要爬取的pdf文件的URL
response = requests.get(url)
with open('sample.pdf', 'wb') as f:
f.write(response.content)
```
代码中,首先需要将要爬取的pdf文件的URL替换成`url`变量。然后使用`requests.get()`方法向该URL发送请求,获取响应对象。接着,使用`open()`函数创建一个文件流,并将响应内容写入该文件流中,最终将文件保存到本地。需要注意的是,文件名可以自定义,但是文件后缀名必须是`.pdf`。
如果要爬取多个pdf文件,可以使用循环遍历多个URL,并将文件保存到不同的文件中。
阅读全文