用PYTHON写一个简单的爬虫
时间: 2023-11-24 07:08:20 浏览: 59
以下是一个简单的Python爬虫示例,它可以从一个网站上获取所有的超链接。
```python
import requests
from bs4 import BeautifulSoup
import re
# 需要爬取的页面链接
url = "http://example.com"
# 发送请求,获取页面内容
response = requests.get(url)
content = response.content
# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(content, 'html.parser')
# 使用正则表达式找到所有的超链接
links = soup.find_all('a', href=re.compile('^http'))
# 打印所有的超链接
for link in links:
print(link.get('href'))
```
这个爬虫使用了requests库发送HTTP请求,使用BeautifulSoup库解析HTML页面,以及正则表达式找到所有的超链接。如果要爬取其他类型的内容,需要根据具体情况进行相应的修改。
相关问题
用Python写一个简单爬虫
以下是一个简单的Python爬虫示例,用于从网页中获取信息:
```python
import requests
from bs4 import BeautifulSoup
# 定义要爬取的网页链接
url = 'https://www.example.com'
# 发送请求并获取响应
response = requests.get(url)
# 解析响应内容
soup = BeautifulSoup(response.content, 'html.parser')
# 获取页面中的所有链接
links = soup.find_all('a')
# 遍历链接并输出
for link in links:
print(link.get('href'))
```
这个爬虫程序使用了requests库来发送HTTP请求,使用BeautifulSoup库来解析HTML响应并提取信息。具体而言,它首先定义了要爬取的网页链接,然后发送GET请求并获取响应。接下来,它使用BeautifulSoup库来解析响应内容,并使用find_all()方法获取页面中的所有链接。最后,它遍历链接并将它们输出到控制台。这只是一个简单的示例,实际中的爬虫程序会更加复杂,包括处理动态网页、处理登录、使用代理等其他功能。
用python写一个简单爬虫代码
答: 用python写一个简单的爬虫代码可以使用urllib库,可以使用BeautifulSoup库,可以使用requests库来实现。具体的代码如下: from urllib.request import urlopen
from bs4 import BeautifulSoup # 获取网页内容
response = urlopen('http://www.example.com/')
html = response.read() # 分析网页
soup = BeautifulSoup(html, 'html.parser')
links = soup.find_all('a') # 打印爬取到的链接
for link in links:
print(link.get('href'))
阅读全文