首页python爬虫使用Beautiful Soup爬取豆瓣读书前十页

python爬虫使用Beautiful Soup爬取豆瓣读书前十页

时间: 2024-04-05 22:25:55 浏览: 149

python利用beautifulSoup实现爬虫

以前讲过利用phantomjs做爬虫抓网页 //www.jb51.net/article/55789.htm 是配合选择器做的利用 beautifulSoup(文档：http://www.crummy.com/software/BeautifulSoup/bs4/doc/)这个python模块，可以很轻松的抓取网页内容 # coding=utf-8 import urllib from bs4 import BeautifulSoup url ='http://www.baidu.com/s' values ={'wd':'网球'} encoded_param = urllib.urle

以下是使用Python和Beautiful Soup爬取豆瓣读书前十页的示例代码： ```python import requests from bs4 import BeautifulSoup # 待爬取的网页链接 url = 'https://book.douban.com/top250?start={}' # 循环爬取前10页 for i in range(10): # 构造当前页的链接 cur_url = url.format(i * 25) # 发送请求并获取响应 response = requests.get(cur_url) # 解析响应内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取书籍列表 book_list = soup.find('div', class_='article').find_all('table') # 遍历书籍列表并输出书名和评分 for book in book_list: name = book.find('div', class_='pl2').find('a')['title'] score = book.find('span', class_='rating_nums').get_text() print(name, score) ``` 该代码会爬取豆瓣读书前十页的书籍信息，并输出每本书的书名和评分。

阅读全文