python爬取淘宝商品信息
时间: 2023-07-08 12:51:01 浏览: 162
好的,下面是Python爬取淘宝商品信息的基本步骤:
1. 导入需要的库,包括 requests、BeautifulSoup 和 re。
2. 构造URL链接,通过requests库获取HTML页面。
3. 使用BeautifulSoup库解析页面,提取商品信息。
4. 保存数据到本地或者数据库。
下面是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
import re
def get_html(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = 'utf-8'
return r.text
except:
return ''
def parse_page(html):
soup = BeautifulSoup(html, 'html.parser')
items = soup.select('.item.J_MouserOnverReq')
for item in items:
try:
price = item.select('.price.g_price.g_price-highlight strong')[0].get_text()
title = item.select('.title a')[0].get_text().strip()
shop = item.select('.shopname')[0].get_text()
location = item.select('.location')[0].get_text()
print(price, title, shop, location)
except:
continue
def main():
keyword = '手机'
url = 'https://s.taobao.com/search?q=' + keyword
html = get_html(url)
parse_page(html)
if __name__ == '__main__':
main()
```
以上代码可以爬取关键字为“手机”的淘宝商品信息,并打印出商品价格、标题、店铺名称和所在地。
阅读全文