python爬取豆瓣top250图书输出表格
时间: 2023-07-05 10:32:46 浏览: 102
Python爬虫实例-爬取豆瓣Top250-保存为表格
5星 · 资源好评率100%
好的,以下是Python代码实现:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 发送HTTP请求,获取网页内容
url = 'https://book.douban.com/top250'
response = requests.get(url)
html = response.text
# 解析网页内容,获取书籍信息
soup = BeautifulSoup(html, 'html.parser')
books = soup.find_all('div', class_='pl2')
book_list = []
for book in books:
book_name = book.find('a')['title']
book_link = book.find('a')['href']
book_rating = book.find('span', class_='rating_nums').text.strip()
book_list.append([book_name, book_link, book_rating])
# 将书籍信息转换成表格形式并输出
df = pd.DataFrame(book_list, columns=['书名', '链接', '评分'])
print(df)
```
这段代码会爬取豆瓣图书Top250的页面,并从页面中获取书籍的名称、链接和评分等信息,然后使用pandas库将这些信息转换成表格形式,并输出到控制台。请注意,在爬取时需要加上适当的反爬措施,以免被封IP。
阅读全文