如何用selenium和xpath写一个推特推文数据的爬虫
时间: 2024-04-29 17:22:52 浏览: 229
以下是使用Python的Selenium和XPath编写的Twitter推文数据爬虫的示例代码:
```python
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
# 设置webdriver
driver = webdriver.Chrome()
driver.maximize_window()
# 打开推特登录页面
driver.get("https://twitter.com/login")
# 等待页面加载完成
wait = WebDriverWait(driver, 10)
username = wait.until(EC.presence_of_element_located((By.NAME, "session[username_or_email]")))
password = wait.until(EC.presence_of_element_located((By.NAME, "session[password]")))
# 输入用户名和密码
username.send_keys("your_username")
password.send_keys("your_password")
# 登录
password.send_keys(Keys.RETURN)
# 等待页面加载完成
time.sleep(5)
# 搜索关键词
search_input = driver.find_element_by_xpath('//input[@data-testid="SearchBox_Search_Input"]')
search_input.send_keys("#keyword")
search_input.send_keys(Keys.RETURN)
# 等待页面加载完成
time.sleep(5)
# 获取推文数据
tweets = driver.find_elements_by_xpath('//div[@data-testid="tweet"]')
for tweet in tweets:
# 获取推文文本
text = tweet.find_element_by_xpath('.//div[@data-testid="tweet"]//span[contains(@class, "css-901oao") and contains(@class, "css-16my406") and contains(@class, "r-1qd0xha") and contains(@class, "r-ad9z0x") and contains(@class, "r-bcqeeo") and contains(@class, "r-qvutc0")]')
print(text.text)
# 关闭webdriver
driver.close()
```
在这个例子中,我们使用Selenium启动Chrome浏览器,并模拟登录推特。接着,搜索给定的关键词,等待页面加载完成后,使用XPath获取推文数据。在此示例中,我们只打印了每条推文的文本,但您可以根据需要提取其他数据,如推文ID,时间戳等。最后,我们关闭了浏览器。
阅读全文