任务1:爬取http://www.aolingdata.com官网的菜单 任务2:爬取http://www.aolingdata.com/col.jsp?id=105页面中的图标及文字 pytion爬虫的作业
时间: 2024-10-27 08:12:05 浏览: 22
爬取彼岸图网的壁纸 https://pic.netbian.com/
在Python中,我们通常使用requests库获取网页内容,然后BeautifulSoup库解析HTML结构来提取我们需要的信息。这里是一个基本的示例展示如何使用这两个库来完成这两个任务:
**任务1:爬取网站菜单**
```python
import requests
from bs4 import BeautifulSoup
def get_menu(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 根据实际的HTML结构找到菜单部分,假设它包含在`div`标签内,id为'menu'
menu_div = soup.find('div', id='menu')
if menu_div:
menu_items = menu_div.find_all('a') # 找到所有链接
for item in menu_items:
print(item.text) # 输出文字
else:
print("未找到菜单部分")
get_menu('http://www.aolingdata.com')
```
注意:实际操作时,需要根据目标网站的具体结构调整CSS选择器。
**任务2:爬取特定页面的图标和文字**
```python
def get_icon_and_text(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 假设图片在`img`标签内,文字在`h1`或`p`标签内
icon = soup.find('img', {'src': True})['src'] # 获取图片URL
text = soup.find('h1') or soup.find('p') # 如果有h1则获取,否则找p
if icon and text:
print(f"图标:{icon}, 文字:{text.text}")
else:
print("未找到图标或文字")
get_icon_and_text('http://www.aolingdata.com/col.jsp?id=105')
```
同样地,这个示例假设了HTML结构,实际操作时请查找对应的真实元素。记得遵守网站的robots.txt规则,并尊重版权,合理使用爬虫技术。
阅读全文