首页python如何爬取自编网页

python如何爬取自编网页

时间: 2023-12-30 14:02:10 浏览: 49

为了爬取自编网页，可以使用Python中的requests和BeautifulSoup库。具体步骤如下： 1.使用requests库发送HTTP请求，获取网页的HTML代码。 2.使用BeautifulSoup库解析HTML代码，提取需要的信息。 3.将提取的信息保存到本地文件或数据库中。下面是一个简单的示例代码，假设我们要爬取一个自编的网页，其中包含一些书籍的信息，包括书名、作者和价格： ```python import requests from bs4 import BeautifulSoup # 发送HTTP请求，获取HTML代码 url = 'http://example.com/books.html' response = requests.get(url) html = response.text # 解析HTML代码，提取书籍信息 soup = BeautifulSoup(html, 'html.parser') books = [] for book in soup.find_all('div', class_='book'): title = book.find('h2').text author = book.find('p', class_='author').text price = book.find('p', class_='price').text books.append({'title': title, 'author': author, 'price': price}) # 将书籍信息保存到本地文件 with open('books.txt', 'w', encoding='utf-8') as f: for book in books: f.write(f"{book['title']}\t{book['author']}\t{book['price']}\n") ``` 在这个示例中，我们首先使用requests库发送HTTP请求，获取网页的HTML代码。然后使用BeautifulSoup库解析HTML代码，提取书籍信息，并将其保存到一个列表中。最后，我们将列表中的信息写入到本地文件中。

阅读全文