def get_teleplay_links(nums=1000): with open('all_links.csv', 'r')as opener: link_list = opener.readlines() print(link_list) link_list = set(link.strip() for link in link_list) # print(link_list) browser.get(url) links = browser.find_elements_by_xpath("html//div[@class='list-wp']//a[@target='_blank']") browser.execute_script("window.scrollTo(0, document.body.scrollHeight)") time.sleep(1) try: while len(links) < nums: print('nums:', len(links)) browser.execute_script("window.scrollTo(0, document.body.scrollHeight)") time.sleep(random.randint(3, 5)) more = browser.find_element_by_xpath("html//a[@class='more']") while len(browser.window_handles) > 1: browser.switch_to.window(browser.window_handles[1]) browser.close() browser.switch_to.window(browser.window_handles[0]) print(more.get_attribute('href')) more.click() links = browser.find_elements_by_xpath("html//div[@class='list-wp']//a[@target='_blank']") for link in links: href = link.get_attribute('href') print('href', href) if href not in link_list: link_list.add(href) else: print('exist!') except Exception: with open('all_links.csv', 'w')as opener: for href in link_list: opener.write(href + '\n')
时间: 2023-06-17 19:08:14 浏览: 192
2022一天采集几百万的网址域名的爬虫工具
这段代码的作用是获取电视剧链接,并将新的链接存储到一个名为 "all_links.csv" 的文件中。具体流程如下:
1. 打开名为 "all_links.csv" 的文件,读取其中的链接列表,存储到 link_list 变量中。
2. 将 link_list 中的每个链接去掉首尾空格,存储到 set 中,这样可以去重。
3. 打开一个网页,通过 xpath 定位到网页中的电视剧链接,存储到 links 变量中。
4. 将网页滚动到底部,等待 1 秒,尝试查找 "更多" 按钮。
5. 如果找到 "更多" 按钮,就点击它,等待新的电视剧链接加载完成。
6. 将新的电视剧链接存储到 link_list 中,如果链接已经存在于 link_list 中,则忽略。
7. 如果出现异常,就将 link_list 中的链接写入到 "all_links.csv" 文件中。
需要注意的是,这段代码中使用了 Selenium 库来模拟浏览器操作,因此需要先安装该库。另外,代码中的 url 变量没有给出,需要在调用该函数之前先定义好。
阅读全文