python如何爬取自编网页
时间: 2023-12-30 14:02:10 浏览: 49
为了爬取自编网页,可以使用Python中的requests和BeautifulSoup库。具体步骤如下:
1.使用requests库发送HTTP请求,获取网页的HTML代码。
2.使用BeautifulSoup库解析HTML代码,提取需要的信息。
3.将提取的信息保存到本地文件或数据库中。
下面是一个简单的示例代码,假设我们要爬取一个自编的网页,其中包含一些书籍的信息,包括书名、作者和价格:
```python
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求,获取HTML代码
url = 'http://example.com/books.html'
response = requests.get(url)
html = response.text
# 解析HTML代码,提取书籍信息
soup = BeautifulSoup(html, 'html.parser')
books = []
for book in soup.find_all('div', class_='book'):
title = book.find('h2').text
author = book.find('p', class_='author').text
price = book.find('p', class_='price').text
books.append({'title': title, 'author': author, 'price': price})
# 将书籍信息保存到本地文件
with open('books.txt', 'w', encoding='utf-8') as f:
for book in books:
f.write(f"{book['title']}\t{book['author']}\t{book['price']}\n")
```
在这个示例中,我们首先使用requests库发送HTTP请求,获取网页的HTML代码。然后使用BeautifulSoup库解析HTML代码,提取书籍信息,并将其保存到一个列表中。最后,我们将列表中的信息写入到本地文件中。
阅读全文