Python爬虫程序 1.提示输入需要从网上爬取/搜索的文档的名字 2显示搜索到的文档的数目 3.提示下载/拷贝的文档数目、保存位置 4.下载/拷贝文档到指定位置
时间: 2024-01-11 22:05:30 浏览: 11
Python实现爬虫从网络上下载文档的实例代码
好的,下面是一份简单的Python爬虫程序,可以实现您的需求:
```python
import requests
from bs4 import BeautifulSoup
import os
# 输入需要搜索的文档名字
document_name = input("请输入需要搜索的文档名字:")
# 构造搜索url
search_url = f"https://www.baidu.com/s?wd={document_name}"
response = requests.get(search_url)
# 解析搜索结果
soup = BeautifulSoup(response.content, 'html.parser')
results = soup.find_all('h3', {'class': 't'})
# 显示搜索到的文档数目
print(f"共搜索到{len(results)}篇文档:")
# 输出搜索结果
for i, result in enumerate(results):
print(f"{i+1}. {result.text}")
# 输入需要下载/拷贝的文档数目和保存位置
document_num = int(input("请输入需要下载/拷贝的文档数目:"))
save_path = input("请输入保存位置:")
# 下载/拷贝文档到指定位置
for i in range(document_num):
# 获取文档链接
url = results[i].find('a')['href']
# 下载/拷贝文档
response = requests.get(url)
with open(os.path.join(save_path, f"{document_name}_{i+1}.html"), 'w', encoding='utf-8') as f:
f.write(response.text)
print(f"已下载/拷贝第{i+1}篇文档")
```
该程序使用了requests和BeautifulSoup库来实现网页爬取和解析,并使用os库来实现文件的保存。您可以根据实际需求进行修改和优化。
阅读全文