爬不出销量信息和出版日期信息import requests from bs4 import BeautifulSoup from threading import Thread def crawl_books(start, end): for i in range(start, end): url = 'http://search.dangdang.com/?key=%BC%C6%CB%E3%BB%FA&act=input&page_index={}'.format(i) response = requests.get(url) page = response.text soup = BeautifulSoup(page, 'lxml') books = soup.find('ul', class_='bigimg') for book in books.find_all('li'): title = book.find('a', class_='pic').get('title') author = book.find('p', class_='search_book_author').text price = book.find('p', class_='price').find('span', class_='search_now_price').text sales_tag = book.find('span', class_='search_sales') sales = sales_tag.text if sales_tag else '无销量信息' date_tag = book.find('span', class_='search_book_publishtime') date = date_tag.text if date_tag else '无出版日期信息' print(title, author, price, sales, date) threads = [] for i in range(1, 101, 10): t = Thread(target=crawl_books, args=(i, i+10)) threads.append(t) t.start() for t in threads: t.join()
时间: 2024-02-29 10:55:18 浏览: 64
在您的代码中,获取销量信息和出版日期信息的方式是正确的,但是可能存在以下原因导致无法获取到信息:
1. 网站页面上没有包含销量信息或出版日期信息的标签。您可以手动查看网站页面上的源代码,确认是否存在相关标签。
2. 网站页面使用了动态加载技术,导致部分信息无法在页面初始化时被获取到。您可以考虑使用Selenium等工具模拟用户操作,触发页面的动态加载,再进行信息的抓取。
3. 网站针对爬虫进行了反爬虫处理,导致信息无法被正常获取。您可以尝试使用代理IP、修改请求头等方式进行反反爬虫操作。
建议您仔细检查以上情况,如果仍然无法解决问题,可以提供更多具体的信息和网站链接,我们会尽力为您提供帮助。
相关问题
增加对书籍销量和书籍日期的爬取import requests from bs4 import BeautifulSoup from threading import Thread def crawl_books(start, end): for i in range(start, end): url = 'http://search.dangdang.com/?key=%BC%C6%CB%E3%BB%FA&act=input&page_index={}'.format(i) response = requests.get(url) page = response.text soup = BeautifulSoup(page, 'lxml') books = soup.find('ul', class_='bigimg') for book in books.find_all('li'): title = book.find('a', class_='pic').get('title') author = book.find('p', class_='search_book_author').text price = book.find('p', class_='price').find('span', class_='search_now_price').text print(title, author, price) threads = [] for i in range(1, 101, 10): t = Thread(target=crawl_books, args=(i, i+10)) threads.append(t) t.start() for t in threads: t.join()
这段代码看起来是一个爬虫程序,用来爬取当当网上关于某个关键词的图书信息。其中,程序使用了 requests 库来发送 HTTP 请求,使用了 BeautifulSoup 库来解析 HTML 页面,从而获取书名、作者、价格等信息。为了提高效率,程序使用了多线程的方式来并行爬取多个页面。在主函数中,先创建了多个线程,每个线程负责爬取一定范围内的页面,然后启动线程,最后等待所有线程执行完毕。
在这段代码中增加对书籍销量和书籍日期的爬取import requests from bs4 import BeautifulSoup from threading import Thread def crawl_books(start, end): for i in range(start, end): url = 'http://search.dangdang.com/?key=%BC%C6%CB%E3%BB%FA&act=input&page_index={}'.format(i) response = requests.get(url) page = response.text soup = BeautifulSoup(page, 'lxml') books = soup.find('ul', class_='bigimg') for book in books.find_all('li'): title = book.find('a', class_='pic').get('title') author = book.find('p', class_='search_book_author').text price = book.find('p', class_='price').find('span', class_='search_now_price').text print(title, author, price) threads = [] for i in range(1, 101, 10): t = Thread(target=crawl_books, args=(i, i+10)) threads.append(t) t.start() for t in threads: t.join()
可以在循环中增加对书籍销量和日期的爬取,可以使用类似的方法获取这些信息。例如:
```
for book in books.find_all('li'):
title = book.find('a', class_='pic').get('title')
author = book.find('p', class_='search_book_author').text
price = book.find('p', class_='price').find('span', class_='search_now_price').text
sales = book.find('span', class_='search_sales').text
date = book.find('span', class_='search_book_publishtime').text
print(title, author, price, sales, date)
```
这样就可以将书籍的销量和日期信息一并爬取出来了。
阅读全文