首页用python写一个连续爬取网页链接里html内容的代码

用python写一个连续爬取网页链接里html内容的代码

时间: 2023-04-02 09:02:37 浏览: 105

你好，以下是用 Python 编写连续爬取网页链接里 HTML 内容的代码：

import requests

# 定义一个函数，输入参数为网页链接，输出为该链接的 HTML 内容
def get_html(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return None
    except requests.exceptions.RequestException as e:
        print(e)
        return None

# 定义一个函数，输入参数为起始链接和爬取的页数，输出为所有链接的 HTML 内容
def get_all_html(start_url, page_num):
    html_list = []
    for i in range(page_num):
        url = start_url + str(i)
        html = get_html(url)
        if html:
            html_list.append(html)
    return html_list

# 调用函数，输入起始链接和爬取的页数
start_url = "https://www.example.com/page="
page_num = 10
html_list = get_all_html(start_url, page_num)

# 打印所有链接的 HTML 内容
for html in html_list:
    print(html)

希望能对你有所帮助。

阅读全文