python简单爬虫完整代码
时间: 2024-09-20 13:01:59 浏览: 21
Python 简单爬虫通常使用 `requests` 和 `BeautifulSoup` 这两个库,下面是一个基本的示例,展示如何抓取网页内容:
```python
# 导入需要的库
import requests
from bs4 import BeautifulSoup
# 定义目标URL
url = 'http://example.com'
# 发送GET请求获取网页内容
response = requests.get(url)
# 检查请求是否成功 (HTTP状态码200表示成功)
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到需要的数据,这里以提取所有链接为例
links = [a['href'] for a in soup.find_all('a', href=True)]
# 输出或保存数据
for link in links:
print(link)
else:
print(f"请求失败,状态码 {response.status_code}")
#
相关问题
Python爬虫完整代码
当然,我可以给你一个简单的Python爬虫的完整代码示例。以下是一个使用Python的requests和BeautifulSoup库来爬取网页内容的示例:
```python
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求获取网页内容
url = "https://www.example.com" # 替换为你要爬取的网页地址
response = requests.get(url)
html_content = response.text
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html_content, "html.parser")
# 提取需要的数据
data = soup.find("div", class_="example-class").text # 替换为你要提取的数据的标签和类名
# 打印提取的数据
print(data)
```
这个示例代码使用requests库发送HTTP请求获取网页内容,然后使用BeautifulSoup库解析网页内容,并提取出需要的数据。你只需要将`url`替换为你要爬取的网页地址,将`data`的提取方式替换为你需要的数据的标签和类名即可。
python2爬虫代码完整
Python 2已经于2020年1月停止维护,因此推荐使用Python 3版本编写爬虫代码。不过,如果你确实需要了解Python 2的基本爬虫代码,这里是一个简单的示例,用于抓取网页内容:
```python
# 导入所需的库 (urllib、urllib2)
from urllib import urlopen
from BeautifulSoup import BeautifulSoup
def simple_spider(url):
# 发送HTTP请求并获取响应
response = urlopen(url)
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.read(), 'html.parser')
# 找到所有的段落元素 (p标签)
paragraphs = soup.find_all('p')
# 遍历每个段落并打印内容
for paragraph in paragraphs:
print(paragraph.get_text())
# 调用函数并传入目标网址
simple_spider('http://example.com')
```
请注意,这个例子使用的是`BeautifulSoup`库来处理HTML文档,而`urllib`库则用于发送HTTP请求。由于Python 2的支持已结束,后续的学习和项目开发建议使用Python 3,并考虑使用更现代的库如`requests`和`lxml`。