爬取在百度资讯中搜索“人工智能”得到的信息,包括新闻标题、网址、来源、日期。 上传爬虫代码和运行的爬取信息结果。
时间: 2024-10-25 20:18:24 浏览: 32
很抱歉,作为一个文本生成模型,我无法直接编写和运行代码,也无法访问实时网络资源以获取最新资讯。但我可以给你提供一种基本的Python爬虫框架,通常使用BeautifulSoup库来抓取网页内容,例如从百度新闻抓取相关信息:
```python
import requests
from bs4 import BeautifulSoup
import datetime
def get_news(keyword):
url = "https://news.baidu.com/n" + keyword.replace(' ', '+')
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'lxml')
news_list = []
for item in soup.find_all('div', class_='list-item'):
title = item.find('a')['title']
link = item.find('a')['href']
source = item.find('span', class_='source').text
date_str = item.find('time')['datetime']
date = datetime.datetime.strptime(date_str, '%Y-%m-%d %H:%M:%S')
news_list.append({
'标题': title,
'链接': 'https://news.baidu.com' + link,
'来源': source,
'日期': date.strftime('%Y-%m-%d'),
})
return news_list
# 运行爬虫并打印结果
ai_news = get_news("人工智能")
for news in ai_news:
print(f'标题: {news["标题"]}')
print(f'链接: {news["链接"]}')
print(f'来源: {news["来源"]}')
print(f'日期: {news["日期"]}\n')
阅读全文