python爬虫代码获取新闻
时间: 2024-02-01 19:10:01 浏览: 30
以下是一个使用Python编写的简单爬虫代码,用于获取新闻链接:
```python
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求获取网页内容
url = "https://www.example.com/news" # 替换为你要爬取的新闻网站的URL
response = requests.get(url)
html_content = response.text
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html_content, "html.parser")
# 查找新闻链接
news_links = []
link_elements = soup.find_all("a") # 根据网页结构和标签选择器修改
for link_element in link_elements:
news_link = link_element.get("href")
if news_link.startswith("https://www.example.com/news/"): # 根据新闻链接的特征修改
news_links.append(news_link)
# 打印新闻链接
for news_link in news_links:
print(news_link)
```
这段代码使用了`requests`库发送HTTP请求获取网页内容,并使用`BeautifulSoup`库解析网页内容。通过选择合适的标签选择器,可以找到新闻链接并将其存储在`news_links`列表中。最后,通过遍历`news_links`列表,可以打印出所有的新闻链接。