python多线程爬取http://www.guoxue123.com/new/0001/lishiyjf/index.htm
时间: 2023-12-02 22:43:16 浏览: 178
Python实现多线程爬虫
以下是使用Python多线程爬取http://www.guoxue123.com/new/0001/lishiyjf/index.htm的示例代码:
```python
import requests
from bs4 import BeautifulSoup
import threading
# 定义一个函数,用于获取每个页面的内容
def get_page_content(url):
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 在这里可以对页面内容进行解析和处理
print(soup.title.string)
# 定义一个函数,用于创建多个线程并启动
def create_threads():
threads = []
for i in range(1, 11):
url = 'http://www.guoxue123.com/new/0001/lishiyjf/index_{}.htm'.format(i)
t = threading.Thread(target=get_page_content, args=(url,))
threads.append(t)
t.start()
for t in threads:
t.join()
# 调用函数启动多线程
create_threads()
```
上述代码中,我们使用了requests库和BeautifulSoup库来获取和解析网页内容。我们定义了一个get_page_content函数,用于获取每个页面的内容,并在函数中对页面内容进行解析和处理。我们还定义了一个create_threads函数,用于创建多个线程并启动。在create_threads函数中,我们循环创建10个线程,并将每个线程的目标函数设置为get_page_content函数,并将每个线程的参数设置为对应的页面URL。最后,我们启动所有线程,并等待所有线程执行完毕。
阅读全文