用python爬取这个http://101.200.227.21/area/1798网站中,标题里含有“十四五”的文件
时间: 2023-11-30 19:05:13 浏览: 28
你可以使用Python中的requests库来发送HTTP请求,并使用BeautifulSoup库来解析HTML页面。以下一个示例,演示如何爬指定网站中标题包含"十五"的文件:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://101.200.227.21/area/1798'
# 发送HTTP GET请求并获取页面内容
response = requests.get(url)
# 使用BeautifulSoup解析页面
soup = BeautifulSoup(response.text, 'html.parser')
# 查找所有标题含有"十四五"的文件
files = soup.find_all('a', string=lambda text: '十四五' in text)
# 打印文件链接和标题
for file in files:
file_link = file['href']
file_title = file.get_text()
print(file_link, file_title)
```
在这个示例中,我们首先使用requests库发送一个GET请求到指定的网址,并获取响应的HTML内容。然后,我们使用BeautifulSoup库将HTML内容解析为一个可遍历的树形结构。接下来,我们使用`find_all()`方法查找所有满足条件的文件标题。这里使用了一个lambda函数作为`string`参数,用于判断标题中是否包含"十四五"。
最后,我们遍历找到的文件,并打印出文件链接和标题。
请注意,这是一个基本示例,具体的网页结构和提取方式可能因网站的不同而有所不同。你可能需要根据具体情况对代码进行适当的修改。
确保已经安装了requests库和BeautifulSoup库(可以使用`pip install requests beautifulsoup4`进行安装),并导入了所需的模块。同时,确保目标网站是可访问的。