用python写一段可以抓取https://download.pep.com.cn/cdfj/2024/2024xh-hx/mobile/index.html网站数据并将抓取数据导出到C盘桌面的word文档的爬虫代码
时间: 2024-11-12 08:33:34 浏览: 11
MariaDB Connector/Python(mariadb-connector-python-1.0.7.tar.gz)
在Python中,我们可以使用requests库来获取网页内容,BeautifulSoup库来解析HTML结构,然后使用python-docx库将数据写入Word文档。以下是简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
from docx import Document
# 定义请求头模拟浏览器访问,防止被网站识别为爬虫
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 目标URL
url = "https://download.pep.com.cn/cdfj/2024/2024xh-hx/mobile/index.html"
# 发送GET请求并获取页面内容
response = requests.get(url, headers=headers)
content = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(content, 'html.parser')
# 这里假设你想抓取的是页面上所有标题元素,替换为实际需要的数据提取部分
titles = soup.find_all('h2') # 这里只作为示例,你需要找到对应的标签名
# 创建Word文档
doc = Document()
# 将抓取的数据添加到Word文档
for title in titles:
text = title.get_text()
doc.add_paragraph(text)
# 导出到C盘桌面的Word文档
file_path = r'C:\Users\YourUsername\Desktop\output.docx' # 请将"YourUsername"替换为你自己的用户名
doc.save(file_path)
阅读全文