python selenium爬取网页并且打印出HTML文本
时间: 2024-12-15 14:23:04 浏览: 7
python-selenium的使用——爬虫
在Python中,使用Selenium库可以方便地控制浏览器并获取网页内容。以下是一个简单的示例,展示如何爬取网页并打印出HTML文本:
首先,你需要安装selenium库和对应的浏览器驱动(如ChromeDriver、FirefoxDriver等)。安装方式可以在官方文档中找到:https://www.selenium.dev/documentation/en/webdriver/getting_started/
```python
from selenium import webdriver
# 创建一个新的Chrome浏览器实例
driver = webdriver.Chrome(executable_path='path/to/chromedriver')
# 打开目标URL
url = 'http://example.com'
driver.get(url)
# 等待页面加载完成后进行操作(这里默认等待)
driver.implicitly_wait(10) # 设置超时时间,单位秒
# 获取整个HTML源码
html_content = driver.page_source
# 打印HTML文本
print(html_content)
# 关闭浏览器
driver.quit()
```
在这个例子中,`page_source`属性会返回一个字符串,包含当前打开页面的所有HTML内容。
阅读全文