首页python抓取百度百科

python抓取百度百科

时间: 2023-10-01 15:10:17 浏览: 115

由于百度百科的页面是动态生成的，因此需要使用爬虫库中的selenium和beautifulsoup来抓取。以下是一个简单的python代码示例，可以用来抓取百度百科的词条信息： ```python from selenium import webdriver from bs4 import BeautifulSoup # 设置Chrome浏览器的驱动程序路径 driver_path = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe" # 新建一个Chrome浏览器对象 browser = webdriver.Chrome(executable_path=driver_path) # 要抓取的百度百科词条的URL url = "https://baike.baidu.com/item/Python/407313" # 打开网页 browser.get(url) # 等待页面加载完成 browser.implicitly_wait(10) # 获取网页源代码 html = browser.page_source # 解析网页源代码 soup = BeautifulSoup(html, 'html.parser') # 检索网页中的词条信息 title = soup.find('h1', class_='lemma-title').text.strip() summary = soup.find('div', class_='lemma-summary').text.strip() # 打印词条信息 print("标题：", title) print("摘要：", summary) # 关闭浏览器 browser.quit() ``` 在这个示例中，我们使用了selenium来打开Chrome浏览器，并访问了要抓取的百度百科词条的URL。然后，我们使用BeautifulSoup来解析网页源代码，找到所需的词条信息。最后，我们打印出标题和摘要，并关闭浏览器。请注意，这只是一个简单的示例代码，可能需要根据具体情况做出一些修改和调整。此外，我们需要遵守网站的使用规则，避免对网站造成不必要的影响。

阅读全文