用python写一段爬取百度文库的代码,并导出为pdf
时间: 2024-04-10 08:27:30 浏览: 110
当然可以!以下是使用Python爬取百度文库并导出为PDF的示例代码:
```python
import requests
from bs4 import BeautifulSoup
from fpdf import FPDF
def scrape_baidu_wenku(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
content = soup.find_all('div', class_='reader-word-layer')
text = ''
for c in content:
text += c.text
return text
def save_as_pdf(text, filename):
pdf = FPDF()
pdf.add_page()
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, text)
pdf.output(filename)
# 输入百度文库的URL
url = input("请输入百度文库的URL:")
# 爬取文档内容
text = scrape_baidu_wenku(url)
# 保存为PDF文件
filename = input("请输入保存的PDF文件名:")
save_as_pdf(text, filename + ".pdf")
```
请确保你已经安装了`requests`、`beautifulsoup4`和`fpdf`库。你可以使用`pip`命令进行安装。
这段代码首先通过`requests`库发送HTTP请求并使用`BeautifulSoup`库解析返回的HTML页面。然后,它会查找文档内容所在的HTML元素,并将其提取到一个字符串中。最后,它使用`fpdf`库创建一个PDF对象,并将文档内容添加到PDF页面中,最后保存为PDF文件。
请注意,爬取网站内容需要遵守相关法律法规和网站的使用协议,确保你的行为合法合规。