2.先复制envirsci.txt文件到自己文件夹中并改名为envirsci.html,然后完成教材第8章实例解析——Web页面元素提取,实现从安师大环境和生态学院网站首页中提取、输出和保存图片链接,保存图片链接的文件命名为envirsciUrls.txt,位置为自己的文件夹。(要求程序交互友好、足够强壮)
时间: 2024-02-25 07:51:43 浏览: 126
更改任何文件夹中的文件名字为:1,2,3到N.文件类型
好的,这是一个涉及网页爬虫和文件操作的问题。您需要编写一个能够从网页中提取图片链接并保存到文件中的程序。以下是一个示例程序,您可以参考它进行开发:
```python
import os
import requests
from bs4 import BeautifulSoup
def get_image_urls(url):
"""从指定URL中提取图片链接"""
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
urls = []
for img in soup.find_all('img'):
src = img.get('src')
if src and src.startswith('http'):
urls.append(src)
return urls
def save_image_urls(urls):
"""将提取到的图片链接保存到文件中"""
with open('envirsciUrls.txt', 'w') as f:
for url in urls:
f.write(url + '\n')
if __name__ == '__main__':
url = input('请输入要提取图片链接的网页URL:')
if not url.startswith('http'):
print('URL格式错误!')
else:
urls = get_image_urls(url)
if not urls:
print('未找到图片链接!')
else:
save_image_urls(urls)
print('图片链接已保存到envirsciUrls.txt文件中!')
```
该程序的主要流程如下:
1. 用户输入要提取图片链接的网页URL;
2. 程序检查URL格式是否正确,如果格式错误则提示用户,结束程序;
3. 如果URL格式正确,则从网页中提取所有图片链接;
4. 将提取到的图片链接保存到envirsciUrls.txt文件中。
需要注意的是,程序中使用了Python标准库中的requests和BeautifulSoup库来进行网页访问和HTML解析。在提取图片链接时,程序使用了find_all()方法来查找HTML中所有的<img>标签,并获取其src属性值。在保存图片链接时,程序使用了文件写入操作,将每个链接写入到文件中。
希望这个示例程序能够帮助到您,如果您有任何问题或需要进一步的帮助,请随时向我提问。
阅读全文