用Python实现一个简易爬虫
时间: 2024-04-07 14:11:23 浏览: 55
以下是一个简单的Python爬虫示例,它从一个网站中提取所有链接的URL:
```python
import requests
from bs4 import BeautifulSoup
url = "https://example.com"
resp = requests.get(url)
soup = BeautifulSoup(resp.content, "html.parser")
for link in soup.find_all('a'):
print(link.get('href'))
```
这个爬虫通过requests库来获取网页的HTML源码,然后通过BeautifulSoup库来解析HTML内容。最后,我们使用find_all()方法来提取所有的链接,并使用get()方法获取每个链接的URL。
相关问题
用python写一个简易的爬虫代码
你好,我是 C 知道,以下是回答:
可以使用 Python 的 requests 和 BeautifulSoup 库来编写一个简单的爬虫代码。首先,使用 requests 库发送 HTTP 请求,获取网页的 HTML 内容。然后,使用 BeautifulSoup 库解析 HTML 内容,提取需要的信息。最后,将提取的信息保存到本地文件或数据库中。
以下是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
# 提取需要的信息
title = soup.title.text
links = [link.get('href') for link in soup.find_all('a')]
# 将信息保存到文件中
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(f'Title: {title}\n')
f.write('Links:\n')
for link in links:
f.write(f'- {link}\n')
```
希望能帮到你!
用python写个简易的爬虫框架
好的,以下是一个简单的爬虫框架的示例代码:
```python
import requests
from bs4 import BeautifulSoup
class Crawler():
def __init__(self, url):
self.url = url
def get_html(self):
r = requests.get(self.url)
return r.text
def parse_html(self, html):
soup = BeautifulSoup(html, 'html.parser')
# 在这里编写解析代码,可以使用BeautifulSoup等库
def run(self):
html = self.get_html()
self.parse_html(html)
if __name__ == '__main__':
crawler = Crawler('http://www.example.com')
crawler.run()
```
这个爬虫框架包含了 `Crawler` 类,其构造函数需要传入要爬取的网站的URL。`get_html` 方法用于获取网站的HTML代码,`parse_html` 方法用于解析HTML代码。在 `run` 方法中,我们先获取HTML代码,然后解析HTML代码。
这个示例代码只是一个简单的框架,需要根据实际需要进行扩展。比如,可以添加多线程和分布式爬取等功能。
阅读全文