from concurrent.futures import ThreadPoolExecutor from selenium import webdriver from selenium.webdriver.chrome.options import Options # 打开URL文件 with open('url.txt', 'r') as file: urls = file.read().splitlines() # 定义特定的域名 specific_domains = ['4qo4li.com:9516/register?i_code='] # 创建ChromeOptions对象 chrome_options = Options() chrome_options.add_argument("--incognito") # 启用无痕模式 def process_url(url): # 创建浏览器实例 driver = webdriver.Chrome(options=chrome_options) # 使用Chrome浏览器,需要下载对应的驱动并设置到环境变量中 # 构建完整的URL full_url = 'http://' + url + '/a/index.php/54545' # 打开浏览器并访问URL driver.get(full_url) # 等待页面跳转完成 driver.implicitly_wait(10) # 设置隐式等待时间,单位为秒 # 获取当前页面的URL current_url = driver.current_url # 判断当前页面的URL是否包含特定域名 if any(domain in current_url for domain in specific_domains): # 写入1.txt文本文件 with open('1.txt', 'a') as file: file.write(url + '\n') else: # 写入2.txt文本文件 with open('2.txt', 'a') as file: file.write(url + '\n') # 关闭浏览器 driver.quit() # 创建线程池 with ThreadPoolExecutor(max_workers=10) as executor: # 提交任务给线程池 futures = [executor.submit(process_url, url) for url in urls] # 等待所有任务完成 for future in futures: future.result()
时间: 2024-04-17 14:27:38 浏览: 130
Python concurrent.futures模块使用实例
这段代码使用了Python的concurrent.futures库来创建了一个线程池,并使用Selenium库来进行网页操作。代码首先从url.txt文件中读取URL列表,然后定义了一个特定的域名列表。接下来,创建了一个ChromeOptions对象,添加了启用无痕模式的参数。然后,定义了一个process_url函数,该函数用于处理每个URL。在函数内部,首先创建了一个Chrome浏览器实例,然后构建完整的URL并打开浏览器访问该URL。然后等待页面跳转完成,获取当前页面的URL,并判断该URL是否包含特定域名。根据判断结果,将URL写入不同的文件中。最后,关闭浏览器。接下来,使用ThreadPoolExecutor创建了一个最大线程数为10的线程池,并将任务提交给线程池进行处理。最后,等待所有任务完成。
请问有什么问题我可以帮助您解答吗?
阅读全文