制作一个成功爬取淘宝网的代码
时间: 2024-06-09 15:04:36 浏览: 51
由于淘宝网有反爬虫机制,所以直接爬取淘宝网的数据可能会被封禁 IP。因此,我们需要使用一些方法来规避反爬虫机制。
以下是一个简单的爬取淘宝商品信息的代码示例,使用了 Selenium 和 ChromeDriver 来模拟浏览器行为,同时使用了代理 IP 来规避反爬虫机制:
```python
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import random
# 设置 ChromeDriver 路径
driver_path = 'path/to/your/chromedriver'
# 设置代理 IP
proxies = [
'http://user:password@proxy-ip:port',
'http://user:password@proxy-ip:port',
# ...
]
proxy = random.choice(proxies)
# 设置 ChromeDriver 参数
options = webdriver.ChromeOptions()
options.add_argument('--proxy-server={}'.format(proxy))
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option('useAutomationExtension', False)
# 初始化 ChromeDriver
driver = webdriver.Chrome(executable_path=driver_path, options=options)
# 跳转到淘宝网首页
driver.get('https://www.taobao.com')
# 定位搜索框
search_input = driver.find_element_by_css_selector('#q')
# 输入搜索关键字
search_input.send_keys('手机')
# 模拟键盘 Enter 操作
search_input.send_keys(Keys.ENTER)
# 等待页面加载完成
try:
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.CSS_SELECTOR, '.item'))
)
except TimeoutException:
print('页面加载超时')
# 获取商品列表
items = driver.find_elements_by_css_selector('.item')
# 打印商品名称和价格
for item in items:
name = item.find_element_by_css_selector('.title').text
price = item.find_element_by_css_selector('.price').text
print(name, price)
# 关闭 ChromeDriver
driver.quit()
```
需要注意的是,以上代码仅供参考,实际爬取淘宝网数据时需要遵守网站的规定,不得进行恶意爬取行为。
阅读全文