Python网络爬虫代码
时间: 2024-09-18 18:04:24 浏览: 42
Python在网络爬虫领域非常流行,因为它有简洁的语法和丰富的库支持,如BeautifulSoup、Scrapy等。以下是一个简单的Python网络爬虫代码示例,使用requests和BeautifulSoup库来抓取网页内容:
```python
import requests
from bs4 import BeautifulSoup
def get_html(url):
try:
response = requests.get(url)
response.raise_for_status() # 检查请求是否成功
html = response.text
return html
except requests.RequestException as e:
print(f"请求出错: {e}")
return None
def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
title = soup.find('title') # 查找页面标题
if title:
print("标题:", title.text)
else:
print("未找到标题")
url_to_crawl = "https://www.example.com"
html_content = get_html(url_to_crawl)
parse_html(html_content)
```
这个例子中,我们首先发送GET请求获取网页HTML,然后解析HTML以提取我们需要的信息(在这个例子中是标题)。`parse_html`函数可以根据实际需要修改来处理不同的数据结构。
阅读全文