首页用python从百度网站爬取200条数据

用python从百度网站爬取200条数据

时间: 2023-08-16 08:03:39 浏览: 54

以下是一个示例代码，可以从百度新闻网站上爬取前 200 条新闻数据并打印出来： ```python import requests from bs4 import BeautifulSoup url = 'https://news.baidu.com/' # 指定要爬取的网站 response = requests.get(url) # 发送 GET 请求获取网站内容 soup = BeautifulSoup(response.text, 'html.parser') # 使用 BeautifulSoup 解析网站内容 # 从网站上获取前 200 条新闻数据 news_list = [] for item in soup.find_all('a', class_='title', href=True)[:200]: title = item.text.strip() link = item['href'] news_list.append({'title': title, 'link': link}) # 打印获取到的新闻数据 for news in news_list: print(news['title'], news['link']) ``` 这里假设要爬取的新闻数据是以 `<a>` 标签的 `class` 属性为 `title` 的元素为一条数据的形式呈现的。我们可以通过 `soup.find_all()` 方法获取到所有符合条件的元素，并在循环中逐个解析数据。由于本例只需要获取前 200 条数据，我们可以通过 Python 的切片语法 `[:200]` 来限制循环次数。最后将获取到的新闻数据存储在一个列表中，并逐个打印出来。