Python爬虫实例
时间: 2023-02-26 09:14:48 浏览: 2
下面是一个使用 Python 爬虫爬取网页信息的简单实例:
```python
import requests
from bs4 import BeautifulSoup
url = "https://www.example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
print(soup.prettify())
```
这段代码使用 `requests` 库发送了一个 GET 请求,将网页的 HTML 内容获取到并用 `BeautifulSoup` 解析。然后使用 `soup.prettify()` 方法将解析后的内容打印出来。
根据需求可以添加更多的代码,筛选出需要的信息。
相关问题
Python 爬虫实例
当然,我可以给你提供一个简单的 Python 爬虫实例。以下是一个使用 requests 和 BeautifulSoup 库的示例,用来爬取一个网页的标题和链接:
```python
import requests
from bs4 import BeautifulSoup
# 发起请求
url = 'https://www.example.com'
response = requests.get(url)
# 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 获取标题
title = soup.title.string
print('页面标题:', title)
# 获取所有链接
links = soup.find_all('a')
for link in links:
href = link.get('href')
print(href)
```
在这个示例中,我们首先使用 requests 库发起了一个 GET 请求,并获取了网页的响应。然后,使用 BeautifulSoup 库解析了网页的 HTML 内容。接着,我们从解析后的内容中提取出了页面的标题,并将它打印出来。最后,我们使用 `find_all` 方法找到了所有的链接,并逐个打印出来。
请注意,这只是一个简单的示例,实际的爬虫可能需要处理更复杂的网页结构和数据提取。同时,爬取网页时需要尊重网站的规则和政策,避免对网站造成不必要的负担或违反法律法规。
python爬虫实例源码
Python爬虫实例源码通常用于从网页上获取数据,并可以根据需要进行数据处理和分析。下面是一个简单的Python爬虫实例源码,用于从网页中获取楼盘信息:
```python
import requests
from bs4 import BeautifulSoup
def get_loupan_info(url):
# 发起HTTP请求获取网页内容
response = requests.get(url)
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到楼盘信息所在的HTML元素
loupan_infos = soup.find_all('div', class_='loupan-info')
# 遍历每个楼盘信息
for loupan_info in loupan_infos:
# 提取楼盘名称
name = loupan_info.find('a', class_='name').text.strip()
# 提取楼盘价格
price = loupan_info.find('span', class_='price').text.strip()
# 输出楼盘名称和价格
print('楼盘名称:', name)
print('楼盘价格:', price)
# 测试爬虫
if __name__ == '__main__':
url = 'http://www.example.com/loupan'
get_loupan_info(url)
```
以上源码通过使用requests库发起HTTP请求,获取指定网址的网页内容,然后使用BeautifulSoup库解析网页内容,找到包含楼盘信息的HTML元素,并提取楼盘的名称和价格。最后,将楼盘名称和价格进行输出。可以根据实际需求,适当修改源码以满足不同的爬虫任务。