python采集淘宝商品源码
时间: 2023-11-16 19:02:38 浏览: 63
Python采集淘宝商品源码主要涉及到网络爬虫技术和数据解析技术。下面是一个简单的示例代码:
```
import requests
from bs4 import BeautifulSoup
def get_taobao_goods(keyword):
url = f'https://s.taobao.com/search?q={keyword}' # 根据关键词构造URL
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
} # 设置请求头
response = requests.get(url, headers=headers) # 发起请求
soup = BeautifulSoup(response.text, 'html.parser') # 解析HTML内容
goods = soup.select('.JIIxOu') # 根据CSS选择器获取商品信息
for good in goods:
title = good.select_one('.title').get_text() # 获取商品标题
price = good.select_one('.price').get_text() # 获取商品价格
print(f'商品标题:{title}\n商品价格:{price}\n')
```
这段代码使用了requests库发起网络请求,并使用BeautifulSoup库解析HTML内容。通过在淘宝搜索页面中查找相应的CSS选择器,我们可以获取到商品的标题和价格等信息。在代码中,我们用`.select('.JIIxOu')`获取到所有商品的父级元素,然后通过子元素的CSS类选择器来进一步提取出商品标题和价格。通过循环迭代打印出每件商品的标题和价格。
需要注意的是,为了避免被封IP,我们在请求头中设置了User-Agent,模拟浏览器行为。另外,可能会遇到反爬机制,需要使用更复杂的策略来应对。这是一个简单的示例,实际应用时需要更多的处理和优化。