python爬取某网页里的文档 相应完整代码
时间: 2024-09-23 14:10:46 浏览: 64
Python实现爬取网页中动态加载的数据
5星 · 资源好评率100%
在Python中,我们可以使用requests库来发送HTTP请求获取网页内容,然后使用BeautifulSoup或lxml库解析HTML文档来提取我们想要的数据。下面是一个简单的示例,展示如何爬取一个网页并提取其中的文本:
```python
import requests
from bs4 import BeautifulSoup
# 定义目标URL
url = "http://example.com" # 将其替换为你想抓取的网页地址
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析响应内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取文档中的文本(例如,所有段落)
doc_text = soup.find_all('p') # 这里假设你想找的是所有的<p>标签
for paragraph in doc_text:
print(paragraph.get_text()) # 打印每个段落的内容
else:
print(f"请求失败,状态码:{response.status_code}")
#
阅读全文