import urllib.request import re def download_html(url): header = { "User-Agent": "Mozilla/5.0(Windows NT 10.0;WOW64)" "AppleWebkit/537.36(KHTML,like Gecko)" "Chrome/76.0.3809.87 Safari/537.36 SLBrowser/6.0.1.8131 " } req = urllib.request.Request(url=url, headers=header) response = urllib.request.urlopen(req) html = response.read().decode("utf-8") return html def extract_url(html: object) -> object: pattern = 'http://movie.douban.com/subject/[0-9]+/' urls = re.findall(pattern, html) return set(urls) file = open('douban.txt', 'r') output = open('movie.txt', 'w') lines = file.readlines() for url in lines: url = url.strip() print(url) html = download_html(url) # print(html) output.write(html) urls = extract_url(html) # 此处有问题,功能未实现 print(urls) for url in urls: print(url) output.write(url + '\n') file.close() output.close()
时间: 2023-05-29 15:04:54 浏览: 206
download.html
这段代码是Python语言的一个爬虫程序,用于从指定的URL中下载HTML代码并提取出其中的电影页面URL。其中,程序使用urllib库和re库分别实现了下载HTML和提取URL的功能,还定义了一个提供User-Agent的header,用于模拟浏览器访问网站。最后,程序从文件中读取待爬取的URL,并将提取出的电影页面URL写入到一个新的文件中。
阅读全文