首页python爬取淘宝商品信息代码

python爬取淘宝商品信息代码

时间: 2023-09-01 21:11:19 浏览: 172

以下是一个简单的Python爬取淘宝商品信息的代码： ```python import requests from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def fillGoodsList(ulist, html): soup = BeautifulSoup(html, "html.parser") for tag in soup.find_all('div', {'class': 'item J_MouserOnverReq '}): name = tag.find('div', {'class': 'title'}).string.strip() price = tag.find('div', {'class': 'price g_price g_price-highlight'}).string.strip() ulist.append([name, price]) def printGoodsList(ulist): tplt = "{:4}\t{:8}\t{:16}" print(tplt.format("序号", "商品名称", "价格")) count = 0 for g in ulist: count += 1 print(tplt.format(count, g[0], g[1])) def main(): goods = '书包' # 搜索关键词 depth = 2 # 搜索深度 start_url = 'https://s.taobao.com/search?q=' + goods infoList = [] for i in range(depth): try: url = start_url + '&s=' + str(44 * i) html = getHTMLText(url) fillGoodsList(infoList, html) except: continue printGoodsList(infoList) if __name__ == '__main__': main() ``` 在这个例子中，我们使用了Python的requests库和BeautifulSoup库进行网络请求和网页解析。我们首先定义了一个函数`getHTMLText()`，用于获取网页HTML文本。然后，我们定义了一个函数`fillGoodsList()`，用来从HTML文本中提取商品信息，将其存储到一个列表`ulist`中。最后，我们定义了一个函数`printGoodsList()`，用于按照一定的格式输出商品信息。在主函数`main()`中，我们指定了搜索关键词和搜索深度，然后通过循环调用`getHTMLText()`和`fillGoodsList()`函数来爬取多页的商品信息。最后，我们调用`printGoodsList()`函数将结果输出到屏幕上。

阅读全文