增加对书籍销量和书籍日期的爬取import requests from bs4 import BeautifulSoup from threading import Thread def crawl_books(start, end): for i in range(start, end): url = 'http://search.dangdang.com/?key=%BC%C6%CB%E3%BB%FA&act=input&page_index={}'.format(i) response = requests.get(url) page = response.text soup = BeautifulSoup(page, 'lxml') books = soup.find('ul', class_='bigimg') for book in books.find_all('li'): title = book.find('a', class_='pic').get('title') author = book.find('p', class_='search_book_author').text price = book.find('p', class_='price').find('span', class_='search_now_price').text print(title, author, price) threads = [] for i in range(1, 101, 10): t = Thread(target=crawl_books, args=(i, i+10)) threads.append(t) t.start() for t in threads: t.join()
时间: 2024-02-29 15:55:55 浏览: 59
python调试文件时发生import requests报错.doc
5星 · 资源好评率100%
这段代码看起来是一个爬虫程序,用来爬取当当网上关于某个关键词的图书信息。其中,程序使用了 requests 库来发送 HTTP 请求,使用了 BeautifulSoup 库来解析 HTML 页面,从而获取书名、作者、价格等信息。为了提高效率,程序使用了多线程的方式来并行爬取多个页面。在主函数中,先创建了多个线程,每个线程负责爬取一定范围内的页面,然后启动线程,最后等待所有线程执行完毕。
阅读全文