python多进程爬虫实例
时间: 2023-10-11 13:14:15 浏览: 100
当然,我可以帮你提供一个简单的 Python 多进程爬虫实例。以下是一个基本的示例代码:
```python
import requests
from multiprocessing import Pool
def scrape(url):
try:
response = requests.get(url)
# 在这里写下你想要处理的代码,例如解析 HTML 内容
print(f"成功爬取网页: {url}")
except Exception as e:
print(f"爬取网页失败: {url}, 错误信息: {str(e)}")
if __name__ == "__main__":
# 定义要爬取的链接列表
urls = [
"http://example.com/page1",
"http://example.com/page2",
"http://example.com/page3",
# 添加更多链接...
]
# 设置进程池的大小
pool = Pool(processes=4) # 这里设定为 4 个进程,你可以根据需要进行调整
# 使用进程池来并发爬取网页
pool.map(scrape, urls)
# 关闭进程池
pool.close()
pool.join()
```
在上面的示例中,我们使用了 `multiprocessing.Pool` 来创建一个进程池,并通过 `pool.map` 方法将待爬取的 URL 列表传递给 `scrape` 函数并执行。这样可以实现多个链接的并行爬取。
请注意,上述示例只是一个简单的多进程爬虫框架。你可以根据自己的需求进行扩展和优化。
阅读全文