用python爬取多个网站的多页内容
时间: 2024-06-08 12:12:06 浏览: 7
这里给出一个基本的爬虫框架,可以通过修改其中的参数和函数来实现爬取多个网站的多页内容。
```python
import requests
from bs4 import BeautifulSoup
def get_content(url):
"""获取页面内容"""
response = requests.get(url)
response.encoding = 'utf-8'
return response.text
def parse_content(html):
"""解析页面内容"""
soup = BeautifulSoup(html, 'html.parser')
# TODO: 解析页面内容的具体方法
def main():
urls = [
'https://www.example.com/page1',
'https://www.example.com/page2',
'https://www.example.com/page3',
]
for url in urls:
for i in range(1, 11): # 假设每个网站有10页内容
page_url = f"{url}/page{i}"
html = get_content(page_url)
parse_content(html)
if __name__ == '__main__':
main()
```
在上面的代码中,`get_content` 函数用于获取页面内容,`parse_content` 函数则用于解析页面内容。这两个函数需要根据实际情况进行修改,比如对于一些需要登录的网站,可能需要在 `get_content` 函数中添加登录的逻辑。
`main` 函数中定义了需要爬取的网站 URL,然后对于每个网站,循环爬取每一页的内容,最后调用 `parse_content` 函数进行解析。这里假设每个网站有10页内容,可以根据实际情况修改循环的范围。