# 1. 打开人邮主页,在搜索框中搜索关键字“数据库” # 2. 将结果界面的书籍信息爬取出来 python
时间: 2024-12-08 19:21:55 浏览: 9
在Python中,你可以使用Scrapy或BeautifulSoup等库来爬取网页信息。这里是一个使用requests和BeautifulSoup的基本示例,假设人邮主页的书籍信息结构相对简单,可以直接解析HTML:
```python
import requests
from bs4 import BeautifulSoup
# 1. 打开人邮主页并在搜索框中搜索关键字“数据库”
url = "https://www.ptpress.com.cn/"
search_url = url + "?searchtype=All&keyword=%E5%9F%BA%E6%9C%AC%E8%B3%87%E6%96%87"
response = requests.get(search_url)
# 2. 解析网页,提取书籍信息
soup = BeautifulSoup(response.text, 'html.parser')
# 假设书名和链接分别由特定CSS选择器标识,如 ".book-title" 和 ".book-link"
books_titles = soup.select('.book-title')
books_links = soup.select('.book-link')
books_data = []
for title, link in zip(books_titles, books_links):
books_data.append({'书名': title.text, '链接': link['href']})
# 将数据保存到list或DataFrame
df_books = pd.DataFrame(books_data)
# 输出结果
print(df_books)
```
请注意,实际网站的HTML结构可能会有所不同,你需要查看源代码来确定正确的CSS选择器或者XPath表达式。另外,一些网站可能有反爬虫机制,所以使用之前请确保你有权进行网络抓取并且遵守网站的robots.txt协议。
阅读全文