使用python 写一个数据采集程序
时间: 2023-03-21 14:00:51 浏览: 187
好的,下面是一个简单的Python数据采集程序的示例代码,可以爬取指定网站上的新闻文章标题和摘要信息:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头信息,模拟浏览器发送请求
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 设置目标网站的URL
url = 'https://www.example.com/news'
# 发送GET请求并获取响应内容
response = requests.get(url, headers=headers)
# 使用BeautifulSoup解析HTML页面内容
soup = BeautifulSoup(response.content, 'html.parser')
# 获取新闻文章列表
article_list = soup.find_all('article')
# 遍历文章列表,提取标题和摘要信息
for article in article_list:
title = article.find('h2').text.strip()
summary = article.find('p').text.strip()
print('Title:', title)
print('Summary:', summary)
```
这个程序使用`requests`库发送HTTP请求并获取响应内容,使用`BeautifulSoup`库解析HTML页面内容。它通过在网站上查找特定标签来获取新闻文章的标题和摘要信息,并将它们输出到控制台。你可以根据需要修改代码以满足自己的需求。