Python爬虫代码：抓取当当、京东、亚马逊图书信息

88 浏览量更新于2024-08-30 1 收藏 363KB PDF 举报

"Python爬取当当、京东、亚马逊图书信息代码实例，涉及网页抓取、数据库操作和多线程技术。" 这个Python代码实例主要展示了如何爬取当当、京东和亚马逊三个电商平台上的图书信息。它利用了几个关键的Python库来实现这一功能： 1. **BeautifulSoup**: 一个用于解析HTML和XML文档的库，它能够帮助开发者方便地提取和导航网页内容。在这个例子中，`getSoupObject`函数通过调用`getHTMLText`获取网页的HTML文本，然后将其传给BeautifulSoup解析，生成一个可以进一步处理的Soup对象。 2. **requests**: 这是一个用于发送HTTP请求的库，代码中使用`requests.get`方法来获取网页内容。同时，为了模拟浏览器行为，设置了`User-Agent`头，避免被网站服务器识别为爬虫。 3. **pymysql**: 是Python连接MySQL数据库的库，代码尝试连接到本地的MySQL数据库（数据库名'book'，用户名和密码都是'root'）来存储爬取的数据。在实际使用时，需要修改数据库连接信息。 4. **threading**: Python的多线程库，允许代码并行处理多个任务。在这个例子中，多线程可能用于加快爬取速度，提高效率。 5. **re**: 正则表达式库，虽然没有在给出的代码片段中直接使用，但在完整的爬虫程序中，正则表达式通常用于匹配和提取特定的网页元素。 6. **os** 和 **traceback**: 分别用于操作系统相关的操作和异常处理，确保程序在遇到问题时能够提供有用的错误信息。代码示例中，`getPageLength`函数根据不同的网站（当当或亚马逊）来获取图书列表的总页数，这可能是为了遍历所有页面以爬取所有图书信息。对于当当网，它查找名为'bottom-page-turn'的链接元素；对于亚马逊，它寻找特定类名的`span`元素。然而，这个代码实例并未展示如何实际抓取和存储图书的具体信息，比如书名、作者、价格等。完整的爬虫程序会包含解析网页内容以提取这些数据的逻辑，并可能有错误处理和异常恢复机制，以确保数据的完整性和一致性。在实际应用中，还需要考虑遵守网站的robots.txt文件和爬虫政策，以及处理动态加载的内容或登录验证等问题。

Python爬取当当、京东、亚马逊图书信息代码实例爬取当当、京东、亚马逊图书信息代码实例

注：1.本程序采用MSSQLserver数据库存储，请运行程序前手动修改程序开头处的数据库链接信息

2.需要bs4、requests、pymssql库支持

3.支持多线程

from bs4 import BeautifulSoup

import re,requests,pymysql,threading,os,traceback

try:

conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='root', db='book',charset="utf8")

cursor = conn.cursor()

except:

print('错误：数据库连接失败')

#返回指定页面的html信息

def getHTMLText(url):

try:

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87

Safari/537.36'}

r = requests.get(url,headers = headers)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ''

#返回指定url的Soup对象

def getSoupObject(url):

try:

html = getHTMLText(url)

soup = BeautifulSoup(html,'html.parser')

return soup

except:

return ''

#获取该关键字在图书网站上的总页数

def getPageLength(webSiteName,url):

try:

soup = getSoupObject(url)

if webSiteName == 'DangDang':

a = soup('a',{'name':'bottom-page-turn'})

return a[-1].string

elif webSiteName == 'Amazon':

a = soup('span',{'class':'pagnDisabled'})

return a[-1].string

except:

print('错误：获取{}总页数时出错...'.format(webSiteName))

return -1

class DangDangThread(threading.Thread):

def __init__(self,keyword):

threading.Thread.__init__(self)

self.keyword = keyword

def run(self):

print('提示：开始爬取当当网数据...')

count = 1

length = getPageLength('DangDang','http://search.dangdang.com/?key={}'.format(self.keyword))#总页数

tableName = 'db_{}_dangdang'.format(self.keyword)

try:

print('提示：正在创建DangDang表...')

cursor.execute('create table {} (id int ,title text,prNow text,prPre text,link text)'.format(tableName))

print('提示：开始爬取当当网页面...')

for i in range(1,int(length)):

url = 'http://search.dangdang.com/?key={}&page_index={}'.format(self.keyword,i)

soup = getSoupObject(url)

lis = soup('li',{'class':re.compile(r'line'),'id':re.compile(r'p')})

for li in lis:

a = li.find_all('a',{'name':'itemlist-title','dd_name':'单品标题'})

pn = li.find_all('span',{'class': 'search_now_price'})

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38685961

粉丝: 8
资源: 907

Python爬虫代码：抓取当当、京东、亚马逊图书信息

amazon-python-bot:亚马逊Python机器人可在可用的情况下自动进行PS5库存检查和购买:video_game::alien_monster:

Python爬取当当网新书排行榜.zip

Python爬虫使用bs4方法实现数据解析

Python 爬取携程所有机票的实例代码

python爬取当当书籍数据

爬取当当网的图书信息代码

python爬取当当网畅销榜

Python爬取京东顾客购物代码

Python爬取京东

python爬取京东商品评价信息

最新资源